intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Báo cáo thực tập tốt nghiệp Truyền thông và mạng máy tính: Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:74

32
lượt xem
18
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Thông qua các trang mạng xã hội lớn như: Facebook, Youtube và Website tuyển sinh trường Đại học Giao thông vận tải TP. Hồ Chí Minh. Đề tài "Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh" tiến hành lấy các thông tin liên quan đến tuyển sinh sau đó thực hiện xử lý và phân tích dữ liệu. Từ đó tiến hành phân tích dữ liệu tuyển sinh của Trường Đại học Giao thông vận tải TP. Hồ Chí Minh, dùng các phương pháp phân tích dữ liệu để đưa ra kết quả cụ thể.

Chủ đề:
Lưu

Nội dung Text: Báo cáo thực tập tốt nghiệp Truyền thông và mạng máy tính: Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh

  1. ĐẠI HỌC GIAO THÔNG VẬN TẢI TP. HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN THỰC TẬP TỐT NGHIỆP PHÂN TÍCH DỮ LIỆU TUYỂN SINH CHO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP. HỒ CHÍ MINH Giảng viên hướng dẫn: ThS. Đặng Nhân Cách Sinh viên thực hiện: Trần Thị Thu Trang – 1751150069 – KM17 Tiếu Thị Thanh Ngân – 1751120034 – CN17A Nguyễn Thanh Trúc – 1751150071 – KM17 Nguyễn Thị Bích Ngọc – 1751150039 – KM17 Ngành: Công Nghệ Thông Tin Chuyên ngành: Truyền thông và mạng máy tính Công Nghệ Thông Tin Khóa: 2017 – 2021 TP. HỒ CHÍ MINH NĂM 2020
  2. NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. TP. Hồ Chí Minh, ngày tháng năm 2020 Giảng viên hướng dẫn (Kí và ghi rõ họ tên)
  3. NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. TP. Hồ Chí Minh, ngày tháng năm 2020 Giảng viên phản biện (Kí và ghi rõ họ tên)
  4. MỤC LỤC MỤC LỤC .........................................................................................................................i DANH MỤC HÌNH ẢNH ................................................................................................ iv DANH MỤC BẢNG BIỂU ............................................................................................ viii DANH MỤC VIẾT TẮT ................................................................................................... ix LỜI MỞ ĐẦU ................................................................................................................... 1 LỜI CẢM ƠN ................................................................................................................... 4 LỜI CAM ĐOAN .............................................................................................................. 5 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU ................................ 6 1.1. Cơ sở lý thuyết ....................................................................................................... 6 Khái niệm của khai phá dữ liệu ..................................................................... 6 Các phương pháp khai phá dữ liệu ................................................................ 6 Quy trình khai phá dữ liệu ............................................................................. 6 Lợi ích của khai phá dữ liệu .......................................................................... 8 1.2. Ngôn ngữ lập trình Python .................................................................................... 8 Khái niệm ....................................................................................................... 8 Tính năng ....................................................................................................... 9 Tại sao nên sử dụng Python? ......................................................................... 9 1.3. Thư viện Python .................................................................................................. 10 Thư viện BeautifulSoup4 .............................................................................. 10 Thư viện Request .......................................................................................... 11 Thư viện FeedPaser ..................................................................................... 12 Trang i
  5. Xử lý ngôn ngữ tự nhiên (Natural Language Processing) ........................... 13 Thư viện NLTK ............................................................................................. 14 1.4. Thu thập dữ liệu từ Website ................................................................................ 14 1.5. Thế nào là StopWords? ....................................................................................... 16 Khái niệm ..................................................................................................... 16 Cách loại bỏ StopWords .............................................................................. 16 1.6. Phần mềm Export Comments .............................................................................. 17 1.7. Google Colaboratory .......................................................................................... 18 1.8. WordCloud .......................................................................................................... 19 1.9. Youtube API v3 .................................................................................................... 19 Khái niệm ..................................................................................................... 19 Cách thức hoạt động .................................................................................... 20 1.10. Google Analytics ............................................................................................... 21 Giới thiệu về Analytics ............................................................................... 21 Công dụng của Google Analytics............................................................... 21 Cách thức hoạt động của Google Analytics............................................... 22 CHƯƠNG 2: KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU............................................................. 23 2.1. Dữ liệu Website tuyensinh.ut.edu.vn ................................................................... 23 2.1.1. Khai phá dữ liệu Website ............................................................................. 24 2.1.2. Xử lý dữ liệu ................................................................................................. 26 2.2. Dữ liệu Youtube ................................................................................................... 27 2.2.1. Khai phá dữ liệu ........................................................................................... 28 Trang ii
  6. 2.2.2. Xử lý dữ liệu ................................................................................................. 32 2.3. Dữ liệu Facebook ................................................................................................ 34 2.3.1. Khai phá dữ liệu ........................................................................................... 35 2.3.2. Xử lý dữ liệu ................................................................................................. 38 CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU ............................................................................ 42 3.1. Dữ liệu Website ................................................................................................... 42 3.2. Dữ liệu Youtube ................................................................................................... 45 3.3. Dữ liệu Facebook ................................................................................................ 48 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 54 4.1. Kết quả đạt được và hạn chế ............................................................................... 54 4.2. Hướng phát triển của đề tài và kiến nghị ........................................................... 55 TÀI LIỆU THAM KHẢO ................................................................................................ 56 PHỤ LỤC ....................................................................................................................... 58 Trang iii
  7. DANH MỤC HÌNH ẢNH Hình 1.1. Làm thế nào để xử lý dữ liệu? .......................................................................... 7 Hình 1.2. Quy trình khai phá tri thức KDD. .................................................................... 7 Hình 1.3. Python. ............................................................................................................. 8 Hình 1.4. Sử dụng BeautifulSoup4. ................................................................................ 11 Hình 1.5. Kết quả của BeautifulSoup4. .......................................................................... 11 Hình 1.6. Code sử dụng feedparser. .............................................................................. 13 Hình 1.7. Kết quả của feedparser. ................................................................................. 13 Hình 1.8. Ví dụ Stopwords. ............................................................................................ 16 Hình 1.9. StopWords theo tần suất. ............................................................................... 17 Hình 1.10. Phần mềm Export Comments. ...................................................................... 17 Hình 1.11. Google Colaboratory. .................................................................................. 18 Hình 1.12. WordCloud theo word list. ........................................................................... 19 Hình 1.13. Youtube API v3. ............................................................................................ 20 Hình 1.14. Google Analytics. ......................................................................................... 21 Hình 2.1. Giao diện Website. ......................................................................................... 23 Hình 2.2. Giao diện Website (2)..................................................................................... 24 Hình 2.3. Form liên hệ. .................................................................................................. 24 Hình 2.4. File content987.txt.......................................................................................... 25 Hình 2.5. File content10.txt............................................................................................ 25 Hình 2.6. File locweb.txt. ............................................................................................... 25 Trang iv
  8. Hình 2.7. Kết nối Google Drive. .................................................................................... 26 Hình 2.8. Lấy dữ liệu từ file. .......................................................................................... 26 Hình 2.9. Xử lý Stopwords. ............................................................................................ 26 Hình 2.10. Wordcloud dữ liệu Website (1). ................................................................... 27 Hình 2.11. Wordcloud dữ liệu Website (2). ................................................................... 27 Hình 2.12. Lấy Key API Youtube (1). ............................................................................ 28 Hình 2.13. Lấy Key API Youtube (2). ............................................................................ 28 Hình 2.14. Lấy Key API Youtube (3). ............................................................................ 29 Hình 2.15. Lấy Key API Youtube (4). ............................................................................ 29 Hình 2.16. Lấy Key API Youtube (5). ............................................................................ 29 Hình 2.17. Lấy Key API Youtube (6). ............................................................................ 30 Hình 2.18. Lấy Key API Youtube (7). ............................................................................ 30 Hình 2.19. File json youtube_credentials.json. ............................................................. 30 Hình 2.20. File youtube_credentials.py.ipynb. .............................................................. 30 Hình 2.21. Cài đặt thư viện và liên kết với Drive. ......................................................... 31 Hình 2.22.. Tạo đối tượng liên kết với API. ................................................................... 31 Hình 2.23. Import file. .................................................................................................... 31 Hình 2.24. Lấy comments từ Youtube. ........................................................................... 32 Hình 2.25. Lấy ID video Youtube. .................................................................................. 32 Hình 2.26. Lấy dữ liệu từ comments Youtube. ............................................................... 33 Hình 2.27. Lấy comments từ Youtube. ........................................................................... 33 Hình 2.28. File chuanhoa_youtube.txt. .......................................................................... 33 Trang v
  9. Hình 2.29. Wordcloud comment từ Youtube. ................................................................. 34 Hình 2.30. Giao diện trang Tuyển sinh Facebook. ........................................................ 34 Hình 2.31. Tổng hợp bài viết. ........................................................................................ 35 Hình 2.32. Phần mềm Export Comments. ...................................................................... 35 Hình 2.33. Dữ liệu comments Facebook. ....................................................................... 36 Hình 2.34. Kết nối Google Drive. .................................................................................. 36 Hình 2.35. Tách comments. ............................................................................................ 36 Hình 2.36. File content789.txt........................................................................................ 36 Hình 2.37. File content10.txt.......................................................................................... 37 Hình 2.38. File locfb.txt. ................................................................................................ 37 Hình 2.39. File truocchuanhoa.txt. ................................................................................ 37 Hình 2.40. File sauchuanhoa.txt. ................................................................................... 38 Hình 2.41. Kết nối Google Drive. .................................................................................. 38 Hình 2.42. Lấy dữ liệu từ Google Drive. ....................................................................... 38 Hình 2.43. Loại bỏ URL. ................................................................................................ 39 Hình 2.44. Loại bỏ biểu tượng cảm xúc. ........................................................................ 39 Hình 2.45. Chuẩn hóa từ. ............................................................................................... 39 Hình 2.46. Chuẩn hóa từ. ............................................................................................... 40 Hình 2.47. Vẽ Wordcloud. .............................................................................................. 40 Hình 2.48. Wordcloud dữ liệu Facebook (1). ................................................................ 41 Hình 2.49. Wordcloud dữ liệu Facebook (2). ................................................................ 41 Hình 3.1. Wordcloud dữ liệu Website (1). ..................................................................... 42 Trang vi
  10. Hình 3.2. Wordcloud dữ liệu Website (2). ..................................................................... 42 Hình 3.3. Keyword Website tháng 7,8,9. ....................................................................... 43 Hình 3.4. Keywords Website tháng 10. .......................................................................... 43 Hình 3.5. Biểu đồ dữ liệu thu được. ............................................................................... 44 Hình 3.6. Dữ liệu thống kê từ Google Analytics. ........................................................... 45 Hình 3.7. Số người truy cập theo độ tuổi. ...................................................................... 45 Hình 3.9. Wordcloud dữ liệu Facebook (1). .................................................................. 48 Hình 3.10. Wordcloud dữ liệu Facebook (2). ................................................................ 48 Hình 3.11. Keywords Facebook tháng 7,8,9. ................................................................. 49 Hình 3.12. Keywords Facebook tháng 10. ..................................................................... 49 Hình 3.13. Số người tiếp cận bài viết từ 1/7-30/9. ......................................................... 50 Hình 3.14. Số người tiếp cận bài viết từ 1/10-30/10. ..................................................... 50 Hình 3.15. Số lượt tương tác từ 1/7-30/9. ...................................................................... 51 Hình 3.16. Số lượt tương tác từ 2/10-7/10. .................................................................... 51 Hình 3.17. Biểu đồ thể hiện tổng lượt truy cập theo tỉnh thành .................................... 52 Hình 3.18. Biểu đồ thể hiện lượt truy cập theo giới tính và độ tuổi. ............................. 53 Trang vii
  11. DANH MỤC BẢNG BIỂU Bảng 1. Thống kê video sau tuyển sinh trên Youtube. ................................................... 47 Bảng 2. Phân công thực hiện công việc. ........................................................................ 60 Bảng 3. Kế hoạch công việc. .......................................................................................... 61 Trang viii
  12. DANH MỤC VIẾT TẮT Từ viết tắt Tiếng anh Tiếng việt API Application Programming Interface Giao diện lập trình ứng dụng APT Advanced persistent threat Tấn công có chủ đích CMS Content Management System Hệ quản trị nội dung CNTT - Công nghệ thông tin CPU Central Processing Unit Bộ xử lý trung tâm GPU Graphics Processing Unit Bộ xử lý đồ họa GTVT Giao thông vận tải HTML Hypertext Markup Language Ngôn ngữ lập trình Giao thức truyền tải siêu văn HTTP Hypertext Transfer Protocol bản ID Identification Nhận dạng KDD Knowledge discovery from data Quy trình khai phá tri thức NLP Natural language processing Ngôn ngữ tự nhiên Bộ công cụ ngôn ngữ tự NLTK Natural Language Toolkit nhiên OOP Object Oriented Programming Lập trình hướng đối tượng PIP Preferred Installer Program Trình quản lý thư viện POS Part of Speech Từ loại Khung phần mềm mô tả tài RDF Resource Description Framework nguyên Kiến trúc chuyển trạng thái REST REpresentational State Transfer đại diện Dịch vụ cung cấp tin tức đơn RSS Really Simple Syndication giản Trang ix
  13. SSL Secure Sockets Layer Lớp ổ cắm mạng bảo mật THPT - Trung học phổ thông TPHCM - TP. Hồ Chí Minh TPU Tensor processing unit Bộ xử lý Tensor URL Uniform Resource Locator Tham chiếu tài nguyên mạng XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng Mã hóa và trao đổi dữ liệu XML-RPC Remote Procedure Call XML bằng ngôn ngữ đánh dấu mở rộng Trang x
  14. LỜI MỞ ĐẦU Chúng ta đang sống trong thời đại 4.0, mạng xã hội đang phát triển với tốc độ nhanh chóng kèm theo là những tác động tích cực và tiêu cực đến nhiều lĩnh vực: giáo dục, chính trị, đời sống, giải trí,… Theo đó thông tin được chia sẻ rộng rãi đến mọi người qua nhiều khía cạnh cũng như các mục đích khác nhau. Có thể nói mạng xã hội có vai trò nhất định và dần trở thành công cụ giúp ích cho các mục tiêu cá nhân và mục tiêu xã hội của con người. Cùng với sự phát triển đáng kinh ngạc là sự bùng nổ dữ liệu, các giao dịch mua bán, hồ sơ giao dịch chứng khoán, mô tả sản phẩm, hồ sơ công ty, hồ sơ nhân sự, … được tạo ra ngày một nhiều bởi các doanh nghiệp lớn nhỏ trên toàn thế giới. Những dữ liệu này đòi hỏi cần phải có những công cụ, phương pháp có thể khai phá và chuyển đổi dữ liệu thành các thông tin bổ ích, dễ phân loại, dễ sử dụng, từ đó dẫn đến sự ra đời của khai phá dữ liệu. Nhiều vấn đề được đưa vào khai phá và phân tích dữ liệu như: doanh thu kinh tế, vấn đề tình hình chính trị, bệnh dịch, Website, mạng xã hội, thị trường mỹ phẩm, ... Bên cạnh đó phân tích dữ liệu tuyển sinh cũng là một vấn đề quan trọng giúp cho công tác tuyển sinh của các trường đại học thành công. Lý do chọn đề tài: Ngày nay nhiều trường đại học đang gặp nhiều khó khăn trong việc tư vấn tuyển sinh cho học sinh các trường THPT đã có nhiều phương pháp được đề xuất để tư vấn ngành nghề cho phù hợp với năng lực, sở thích của học sinh. Nhiều năm thực hiện tư vấn tuyển sinh, nhà trường chưa tận dụng được kho dữ liệu, … để phân tích về xu hướng, về đặc trưng vùng miền, về tuổi tác, giới tính, … qua đó chúng em thấy dữ liệu này hữu ích cần được nghiên cứu để tìm ra giá trị giúp cho tư vấn tuyển sinh. Trang 1
  15. Hiểu được tầm quan trọng của vấn đề này, chúng em quyết định chọn đề tài “Phân tích dữ liệu tuyển sinh cho Trường Đại học Giao thông vận tải TP. Hồ Chí Minh” nhằm khai phá và phân tích dữ liệu có nội dung liên quan đến tuyển sinh năm 2020. Mục đích nghiên cứu: Thông qua các trang mạng xã hội lớn như: Facebook, Youtube và Website tuyển sinh trường Đại học Giao thông vận tải TP. Hồ Chí Minh. Chúng em sẽ tiến hành lấy các thông tin liên quan đến tuyển sinh sau đó thực hiện xử lý và phân tích dữ liệu. Từ đó tiến hành phân tích dữ liệu tuyển sinh củaTrường Đại học Giao thông vận tải TP. Hồ Chí Minh, dùng các phương pháp phân tích dữ liệu để đưa ra kết quả cụ thể. Nhiệm vụ nghiên cứu: • Tìm hiểu về các khái niệm, phương pháp, quy trình khai phá dữ liệu. • Sử dụng các công cụ và kỹ thuật để xử lý dữ liệu. • Dùng ngôn ngữ Python để thực hiện khai phá và xử lý dữ liệu. • Xây dựng tập keywords chứa nội dung liên quan đến vấn đề tuyển sinh. • Thực hiện phân tích và vẽ Wordcloud để thể hiện dữ liệu thu được. • Xây dựng biểu đồ thống kê dữ liệu tuyển sinh. • Đưa ra các kiến nghị cho việc tuyển sinh Trường Đại học Giao thông vận tải TP. Hồ Chí Minh trong năm học 2021-2022 sắp tới. Đối tượng nghiên cứu và phạm vi nghiên cứu: Đối tượng nghiên cứu: người dùng mạng xã hội có nhu cầu tìm hiểu về vấn đề tuyển sinh tại trường. Phạm vi nghiên cứu: Dữ liệu thu thập từ Fanpage Facebook, Website và kênh Youtube tuyển sinh của Trường Đại học Giao Thông Vận Tải TP. Hồ Chí Minh. Phạm vi thời gian: 01/07/2020 đến 30/10/2020. Trang 2
  16. Kết quả nghiên cứu: Đề tài cung cấp kết quả đánh giá bao quát và khách quan nhất có thể liên quan đến vấn đề tuyển sinh của Trường Đại học Giao thông vận tải TP. Hồ Chí Minh từ những tập keywords được phân tích và xử lý. Bố cục đề tài: Chương 1: Cơ sở lý thuyết và công nghệ • Các khái niệm và lý thuyết có liên quan. • Ngôn ngữ lập trình Python và thư viện. • Các công cụ có sẵn nhằm khai phá dữ liệu. Chương 2: Khai phá và xử lý dữ liệu • Khai phá dữ liệu và xử lý dữ liệu. Chương 3: Phân tích dữ liệu • Phân tích dữ liệu tuyển sinh của Trường Đại học Giao thông vận tải TP. Hồ Chí Minh năm 2020. Chương 4: Kết luận và hướng phát triển • Những kết quả đạt được và hạn chế trong nghiên cứu. • Hướng phát triển và các kiến nghị. Trang 3
  17. LỜI CẢM ƠN Để hoàn thành được đề tài này, chúng em xin gửi lời cảm ơn sâu sắc đến thầy Đặng Nhân Cách đã tận tình hướng dẫn và tạo điều kiện cho chúng em tìm hiểu về “Phân tích dữ liệu mạng xã hội” cũng như chỉ bảo chúng em trong suốt quá trình làm Thực tập tốt nghiệp. Với vốn kiến thức mà thầy đã truyền đạt, không chỉ giúp chúng em trong quá trình thực hiện nghiên cứu và báo cáo mà còn phục vụ cho công việc tương lai của chúng em. Chúng em xin cảm ơn các thầy cô giáo trong Trường Đại học Giao thông vận tải TP. Hồ Chí Minh nói chung và trong khoa Công nghệ thông tin nói riêng đã cung cấp chúng em kiến thức, giúp chúng em có cơ sở lý thuyết vững vàng. Tạo điều kiện tốt cho chúng em thực hiện được đề tài này. Cuối cùng, chúng em xin chân thành cảm ơn và kính chúc quý thầy cô dồi dào sức khỏe để tiếp tục dẫn dắt thêm nhiều lớp sinh viên tài giỏi. TP. Hồ Chí Minh, ngày 2 tháng 12 năm 2020 Nhóm sinh viên thực hiện Ký tên Tiếu Thị Thanh Ngân Nguyễn Thị Bích Ngọc Trần Thị Thu Trang Nguyễn Thanh Trúc Trang 4
  18. LỜI CAM ĐOAN Chúng em xin cam đoan đề tài báo cáo cho kì thực tập tốt nghiệp “Phân tích dữ liệu tuyển sinh của Trường Đại học Giao thông vận tải TP. Hồ Chí Minh” là một công trình nghiên cứu độc lập, các số liệu và cách thức nghiên cứu trong đề tài báo cáo này là trung thực và chưa được công bố trong bất kì bài nghiên cứu nào. Đề tài là một báo cáo mà chúng em đã nghiên cứu và xây dựng trong quá trình học tập tại trường. Mọi sự giúp đỡ cho việc thực hiện đề tài này đã được cảm ơn và các thông tin được đề cập có nguồn gốc rõ ràng và được phép công bố. Chúng em xin cam đoan nếu có vấn đề gì thì chúng em sẽ chịu hoàn toàn mọi trách nhiệm về bài làm của mình. Nhóm sinh viên thực hiện Ký tên Tiếu Thị Thanh Ngân Nguyễn Thị Bích Ngọc Trần Thị Thu Trang Nguyễn Thanh Trúc Trang 5
  19. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU 1.1. Cơ sở lý thuyết Khái niệm của khai phá dữ liệu Khai phá dữ liệu hay còn được gọi là Data Mining, là quá trình khai phá và phân tích số lượng lớn dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ, quy luật tìm ẩn, các thông tin có giá trị. Data Mining, khai phá và sử dụng các dữ liện để phục vụ cho báo cáo, các công việc trong tương lai. Các phương pháp khai phá dữ liệu Phân tích (Classification): Là phương pháp cho phép phân loại các dữ liệu khác nhau theo các lớp khác nhau dựa trên các yếu tố, tính chất tương đồng. Phân tích hồi quy (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực. Phân tích phân cụm (Clustering): Là việc khám phá các nhóm và các cấu trúc trong dữ liệu để phân vào các Cluster. Các đối tượng trong cùng một cụm có các điểm chung, tương đồng nhau. Tổng hợp (Summaziration): Cung cấp phương pháp trình bày ngắn gọn hơn của tập dữ liệu, bao gồm việc trực quan hóa dữ liệu. Mô hình ràng buộc (Depedence Modeling): Là quá trình phân tích các biến dữ liệu, đối tượng nghiên cứu để tìm ra các khả năng kết hợp, luật kết hợp của chúng. Dò tìm biến đổi và độ lệch (Change and Diavation Detection): Phân tích để phát hiện các dữ liệu bất thường, từ đó khám phá ra được những thay đổi quan trọng. Quy trình khai phá dữ liệu Với số lượng dữ liệu khổng lồ trên toàn cầu, chúng ta phải đưa ra được một giải pháp để có thể xử lý được chúng một cách tối ưu. Trang 6
  20. Hình 1.1. Làm thế nào để xử lý dữ liệu? Ở đây chúng ta sẽ thực hiện theo quy trình khai phá tri thức - Knowledge Discovery from Data (KDD). Hình 1.2. Quy trình khai phá tri thức KDD. Các bước của quy trình khai phá tri thức KDD: − Làm sạch dữ liệu (Data cleaning). − Tích hợp dữ liệu (Data integration). Trang 7
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2