intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang web

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:26

129
lượt xem
36
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang web nhằm tìm hiểu tổng quan kỹ thuật thu thập thông tin trên Internet, tổng quan khai phá dữ liệu, các thuật toán phân cụm dữ liệu.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang web

  1. -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG TR N H U PHÚ XÂY D NG H TH NG THU TH P THÔNG TIN T Đ NG PH C V C P NH T N I DUNG CHO TRANG WEB Chuyên ngành : KHOA H C MÁY TÍNH Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH Ph n bi n 1: PGS.TSKH. TR N QU C CHI N Ph n bi n 2: PGS.TS. LÊ M NH TH NH Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 16 tháng 10 năm 2011 Có th tìm hi u lu n văn t i: • Trung tâm Thông tin - H c li u, Đ i h c Đà N ng • Trung tâm H c li u, Đ i h c Đà N ng
  3. -3- M Đ U 1. Lý do ch n ñ tài S phát tri n nhanh chóng c a m ng Internet kèm theo kh i lư ng d li u kh ng l , ña d ng và tăng trư ng không ng ng. Đ i v i m i cá nhân, t ch c, vi c c p nh t thư ng xuyên các ngu n thông tin trên m ng Internet là r t quan tr ng, quy t ñ nh ñ n hi u qu , thành công, trong lĩnh v c ho t ñ ng c a mình. Tuy nhiên, vi c tìm ki m ñư c các thông tin phù h p và có giá tr ñ i v i ngư i truy c p t m ng Internet s t n kém th i gian do d li u n m phân tán trên m ng và không ñư c s p x p, phân lo i như mong mu n. Do ñó, vi c tìm ki m, trích l c và thu th p các thông tin có ý nghĩa t Internet v m t ñi m truy c p t p trung ph c v nhu c u ngư i khai thác là m t bài toán c n thi t ñư c gi i quy t. Nhu c u thu th p và phát l i các thông tin c n thi t t internet ñ i v i trang TTĐT Qu ng Nam là r t l n. Là m t cán b ñang công tác t i S Thông Tin & Truy n Thông Qu ng Nam, ñơn v qu n lý c ng TTĐT này, tôi thi t nghĩ c n thi t ph i ñưa ra m t gi i pháp xây d ng h th ng thu th p thông tin t ñ ng ph c v c p nh t n i dung cho trang TTĐT . T nh ng lý do như trên nên tôi ch n ñ tài: "Xây d ng h th ng thu th p thông tin t ñ ng ph c v c p nh t n i dung cho trang web". Các n i dung chính nghiên c u trong lu n văn : - Tìm hi u t ng quan k thu t thu th p thông tin trên Internet, t ng quan v khai phá d li u, các thu t toán phân c m d li u.
  4. -4- - Ti p c n bài toán Tìm ki m và phân c m tài li u web ng d ng thu t toán K-means và các k thu t ti n x lý và bi u di n d li u. - Áp d ng Bài toán Tìm ki m và phân c m tài li u web vào vi c Xây d ng h th ng thu th p tin t ñ ng h tr thu th p và biên t p các tin t c t các ngu n trên Internet, ph c v nhu c u ngư i truy c p m t cách t p trung các tin t c liên quan ñ n ch ñ c n thu th p trên Trang TTĐT Qu ng Nam. 2. M c tiêu và nhi m v N m v ng cơ s lý thuy t v khai phá d li u và các k thu t phân c m tài li u web, qua ñó xây d ng h th ng thu th p thông tin t ñ ng ph c v c p nh t n i dung trang TTĐT Qu ng Nam, k t qu th c nghi m ñáp ng yêu c u ñ ra.. 3. Đ i tư ng và ph m vi nghiên c u Khai phá d li u là m t lĩnh v c r ng l n trong ngành khoa h c máy tính, phân c m tài li u web là m t trong nh ng lĩnh v c ng d ng ñi n hình c a khai phá d li u, tuy nhiên có r t nhi u k thu t thông qua r t nhi u thu t toán cho bài toán phân c m d li u, trong ph m vi c a ñ tài này, ch y u t p trung ñi vào nghiên c u lý thuy t v phân c m tài li u web và các thu t toán, tr ng tâm ñi vào phân tích, ng d ng thu t toán K-Means ñ ti n hành cài ñ t ng d ng th c nghi m. 4. Phương pháp nghiên c u Trong ñ tài này s d ng phương pháp nghiên c u lý thuy t k t h p v i phát tri n ng d ng th c nghi m. Trên cơ s lý thuy t v khai phá d li u, và c th hơn n a là lý thuy t v phân c m d li u và các thu t toán phân c m tài li u, ti n hành cài ñ t và phân tích t i
  5. -5- ưu các thu t toán, ñi ñ n ch n l a thu t toán phù h p cho vi c tri n khai xây d ng ng d ng th c nghi m. Ti n hành ñánh giá k t qu th c nghi m ñ ñưa ra hư ng phát tri n m r ng c a ñ tài ñ ñáp ng nh ng yêu c u tri n khai th c t . 5. Ý nghĩa khoa h c và th c ti n c a ñ tài V m t lý thuy t: ñ tài t ng h p các cơ s lý thuy t v khai phá d li u, phân c m tài li u, phân tích các phương pháp phân c m, cài ñ t và ñánh giá hi u qu c a các thu t toán phân c m và t ñó ch n thu t toán t i ưu nh t ñ tri n khai th c nghi m. V m t th c ti n: v i vi c phát tri n và tri n khai th c nghi m ng d ng thu th p tin t ñ ng trên Internet, ñ tài này có th ng d ng vào th c t là h tr cho vi c thu th p và biên t p tin t c cho Trang thông tin ñi n t t nh Qu ng Nam, ñem l i hi u qu kinh t nh ti t ki m th i gian và chi phí. 6. C u trúc lu n văn Ngoài ph n m ñ u, ph n k t lu n, m c l c, danh m c hình v , danh m c b ng bi u, tài li u tham kh o, ph l c, ph n chính c a lu n văn g m 3 chương như sau : Chương 1: Nguyên c u t ng quan Chương 2 : Phân tích thi t k h th ng Chương 3 : Xây d ng và tri n khai h th ng.
  6. -6- Chương 1: NGHIÊN C U T NG QUAN 1.1 T ng quan v k thu t thu th p thông tin trên Internet Có nhi u hình thái v thu th p và bóc tách thông tin ñã ñư c nghiên c u và phát tri n. Chúng ta có m t lo t khái ni m như Robot, Search, Web Crawler, Data Wrapper, Web Spider, Web Clipping, Semantic Web,... ñ mô t v nh ng hình thái khai thác n i dung thông tin trên Internet. Xin l y mô hình tìm ki m là m t ví d : N i dung sau khi khai thác có th ñư c lưu tr trong các h th ng database và phát hành l i t i ngư i dùng tr c ti p thông qua h th ng tích h p, tìm ki m, l c, chia s ñ t t ,...hay s d ng cho m t m c ñích chuyên bi t nào ñó. Google là minh ch ng c th cho gi i pháp ñó, các Website t n t i trên Internet s ñư c Google Crawler ghé thăm và thu th p l i toàn b , sau ñó n i dung ñư c lưu tr trong cơ s d li u, ñư c ñánh ch m c,... và ñư c tìm ki m m i khi có yêu c u t phía ngư i dùng. M t s n ph n khác là GoogleNews l i có nhi m v t ng h p t t c các tin t c di n ra hàng ngày trên Internet. Vi t nam, ta có th tìm ki m nh ng mô hình tương t như Baomoi.com hay Thegioitin.com, VietSpider, InewsCrawler. Có nhi u gi i pháp khác nhau như RSS, phân tích cây DOM, web clustering (phân c m tài li u web)... Trong khóa lu n này ta s ch n gi i pháp web clustering. 1.2 T ng quan v Khai phá d li u 1.2.1 Khái ni m Khai phá d li u Khai phá d li u (Data Mining) là m t khái ni m ra ñ i vào nh ng năm cu i c a th p k 1980. Nó là quá trình trích xu t các thông tin có giá tr ti m n bên trong lư ng l n d li u ñư c lưu tr trong các CSDL, kho d li u... Đây là giai ño n quan tr ng nh t trong ti n trình Phát hi n tri th c t cơ s d li u, các tri th c này h
  7. -7- tr trong vi c ra quy t ñ nh trong khoa h c và kinh doanh và các ho t ñ ng khác. 1.2.2 Quá trình phát hi n tri th c Quá trình Phát hi n tr th c ñư c ti n hành qua 6 giai ño n như hình 1.1: Hình 1.1 : Quá trình phát hi n tri th c B t ñ u c a quá trình là kho d li u thô và k t thúc v i tri th c ñư c chi t xu t ra. V lý thuy t thì có v r t ñơn gi n nhưng th c s ñây là m t quá trình r t khó khăn g p ph i r t nhi u vư ng m c như: qu n lý các t p d li u, ph i l p ñi l p l i toàn b quá trình, v.v... Quá trình g m 6 bư c: (1) Gom d li u (2) Trích l c d li u 3) Làm s ch, ti n x lý và chu n b trư c d li u 4) Chuy n ñ i d li u (5) Khai phá d li u (6) Đánh giá các lu t và bi u di n tri th c 1.2.3 Quá trình khai phá d li u Khai phá d li u là m t giai ño n quan tr ng trong quá trình phát hi n tri th c. V b n ch t, nó là giai ño n duy nh t tìm ra ñư c
  8. -8- thông tin m i, thông tin ti m n có trong CSDL ch y u ph c v cho mô t và d ñoán. Quá trình Khai phá d li u bao g m các bư c chính ñư c th hi n như Hình 1.2 sau: Hình 1.2: Quá trình Khai phá d li u • Xác ñ nh nhi m v : Xác ñ nh chính xác các v n ñ c n gi i quy t. • Xác ñ nh các d li u liên quan: Dùng ñ xây d ng gi i pháp. • Thu th p và ti n x lý d li u: Thu th p các d li u liên quan và ti n x lý chúng sao cho thu t toán KPDL có th hi u ñư c. Đây là m t quá trình r t khó khăn, có th g p ph i r t nhi u các vư ng m c như: d li u ph i ñư c sao ra nhi u b n (n u ñư c chi t xu t vào các t p), qu n lý t p các d li u, ph i l p ñi l p l i nhi u l n toàn b quá trình (n u mô hình d li u thay ñ i), v.v.. • Thu t toán khai phá d li u: L a ch n thu t toán KPDL và th c hi n vi c KPDL ñ tìm ñư c các m u có ý nghĩa, các m u này ñư c bi u di n dư i d ng lu t k t h p, cây quy t ñ nh... tương ng v i ý nghĩa c a nó.
  9. -9- 1.2.4 Các phương pháp khai phá d li u V i hai m c ñích khai phá dư li u là Mô t và D ñoán, ngư i ta thư ng s d ng các phương pháp sau cho khai phá d li u: - Lu t k t h p (association rules) - Phân l p (Classfication) - H i qui (Regression) - Tr c quan hóa (Visualiztion) - Phân c m (Clustering) - T ng h p (Summarization) - Mô hình ràng bu c (Dependency modeling) - Bi u di n mô hình (Model Evaluation) - Phân tích s phát tri n và ñ l ch (Evolution and deviation analyst) - Phương pháp tìm ki m (Search Method) Có nhi u phương pháp khai phá d li u ñư c nghiên c u trên, trong ñó có 3 phương pháp ñư c các nhà nghiên c u s d ng nhi u nh t ñó là: Lu t k t h p, Phân l p d li u và Phân c m d li u. 1.2.5 Các bài toán thông d ng trong Khai phá d li u Trong Khai phá d li u, các bài toán có th phân thành 4 lo i chính: Phân l p d li u, D ñoán d li u, Tìm lu t liên k t (Association Rule), Phân c m d li u. 1.3 Phân c m d li u 1.3.1 Khái ni m Phân c m d li u Phân c m d li u là m t k thu t trong Data Mining, nh m tìm ki m, phát hi n các c m, các m u d li u t nhiên ti m n, quan tâm trong t p d li u l n, t ñó cung c p thông tin, tri th c h u ích cho ra quy t ñ nh.
  10. - 10 - Trong h c máy, phân c m d li u ñư c xem là v n ñ h c không có giám sát, vì nó ph i ñi gi i quy t v n ñ tìm m t c u trúc trong t p h p các d li u chưa bi t trư c các thông tin v l p hay các thông tin v t p ví d hu n luy n. Trong lĩnh v c khai thác d li u, các v n ñ nghiên c u trong phân c m ch y u t p trung vào tìm ki m các phương pháp phân c m hi u qu và tin c y trong cơ s d li u l n. Trong lĩnh v c khai phá d li u Web, phân c m có th khám phá ra các nhóm tài li u quan tr ng, có nhi u ý nghĩa trong môi trư ng Web. Các l p tài li u này tr giúp cho vi c khám phá tri th c t d li u... 1.3.2 ng d ng c a Phân c m d li u Phân c m d li u có th ñư c ng d ng trong nhi u lĩnh v c như: thương m i, sinh h c, thư vi n, b o hi m, quy ho ch ñô th , nghiên c u trái ñ t, WWW… 1.3.3 Các tiêu chu n c a Phân c m d li u Phân c m là m t thách th c trong lĩnh v c nghiên c u ch nh ng ng d ng ti m năng c a chúng ñư c ñưa ra ngay chính trong nh ng yêu c u ñ c bi t c a chúng. Sau ñây là nh ng yêu c u cơ b n c a phân c m trong KPDL: - Có kh năng m r ng - Kh năng thích nghi v i các ki u thu c tính khác nhau - Khám phá các c m v i hình d ng b t kỳ - T i thi u lư ng tri th c c n cho xác ñ nh các tham s ñ u vào Kh năng thích nghi v i d li u nhi u - Ít nh y c m v i th t c a các d li u vào - S chi u l n - Phân c m có tính ràng bu c
  11. - 11 - - D hi u và d s d ng: 1.3.4 Các phương pháp Phân c m d li u Các k thu t phân c m có r t nhi u cách ti p c n và các ng d ng trong th c t , nó ñ u hư ng t i hai m c tiêu chung ñó là ch t lư ng c a các c m khám phá ñư c và t c ñ th c hi n c a thu t toán. Hi n nay, các k thu t phân c m có th phân lo i theo các cách ti p c n chính sau : 1.3.4.1 Phân c m phân ho ch 1.3.4.2 Phân c m d li u phân c p 1.3.4.3 Phân c m d li u d a trên m t ñ 1.3.4.4 Phân c m d li u d a trên lư i 1.3.4.5 Phân c m d li u d a trên mô hình 1.3.4.6 Phân c m d li u có ràng bu c 1.3.5 Các ñ c tính c a thu t toán phân c m 1.3.5.1 Mô hình d li u Mô hình d li u tài li u Mô hình d li u s Mô hình phân lo i d li u Mô hình d li u k t h p 1.3.5.2 Đ ño s tương t Đ có th nhóm các ñ i tư ng d li u, m t ma tr n x p x ñã ñư c s d ng ñ tìm ki m nh ng ñ i tư ng (ho c phân c m) tương t nhau. 1.3.6 Thu t toán K-means K-means là m t trong s nh ng phương pháp h c không có giám sát cơ b n nh t thư ng ñư c áp d ng trong vi c gi i các bài toán v phân c m d li u. M c ñích c a thu t toán k-means là sinh ra k c m d li u {C1, C2,…,Ck} t m t t p d li u ch a n ñ i tư ng
  12. - 12 - trong không gian d chi u Xi =(xi1,xi2,…xid)(i= 1, n ) sao cho hàm tiêu chu n: ñ t giá tr t i thi u. Trong ñó: mi là tr ng tâm c a c m Ci, là kho ng cách gi a hai ñ i tư ng. 1.4 Đ xu t gi i pháp 1.4.1 Đ t v n ñ Máy tìm ki m có th giúp chúng ta tìm ki m các thông tin c n thi t phân tán trên m ng internet, m c dù danh sách tài li u tr v theo truy v n ñã ñư c xác ñ nh th h ng quan tr ng c a nó, nhưng thông thư ng ngư i dùng khó ñưa ra quy t ñ nh chính xác ñ i v i các tài li u vì kh năng gây nh p nh n c a danh sách tr v cũng như ngư i dùng không ñ kiên nh n ñ duy t qua t t c các tài li u. Đ thu th p các thông tin có ý nghĩa chúng ta có th ñưa ra gi i pháp là: phân c m các tài li u tr v t máy tìm ki m ñ ch n ra c m tài li u phù h p nh t ph c v cho m c ñích s d ng. Như v y, gi i pháp ñư c ñưa ra ñ ng nghĩa v i vi c chúng ta ñi gi i quy t bài toán tìm ki m và phân c m tài li u web. Trên cơ s áp d ng các lý thuy t v khai phá d li u, chúng ta s ñi gi i quy t bài toán này. 1.4.2 Các yêu c u • Tính phù h p • Tính ña hình • S d ng các m u thông tin •T cñ • Tính gia tăng. 1.4.3 Hư ng ti p c n
  13. - 13 - Thay vì d a vào liên k t trang ñ xác ñ nh tr ng s cho trang, ta có th ti p c n theo m t hư ng khác ñó là d a vào n i dung c a các tài li u ñ xác ñ nh tr ng s , n u các tài li u "g n nhau" v n i dung thì s quan tr ng tương ñương và s thu c v cùng m t nhóm, nhóm nào g n v i câu truy v n hơn s quan tr ng hơn. Cách ti p c n gi i quy t ñư c các v n ñ sau: + K t qu tìm ki m s ñư c phân thành các c m ch ñ khác nhau, tùy vào yêu c u c th mà ngư i dùng s xác ñ nh ch ñ mà h c n. + Quá trình tìm ki m và xác ñ nh tr ng s cho các trang ch y u t p trung vào n i dung c a trang hơn là d a vào các liên k t trang. + Gi i quy t ñư c v n ñ t /c m t ñ ng nghĩa trong câu truy v n c a ngư i dùng. + Có th k t h p phương pháp phân c m trong lĩnh v c khai phá d li u v i các phương pháp tìm ki m ñã có. 1.4.4 Quá trình tìm ki m và phân c m tài li u Quá trình bao g m các bư c sau: 1.4.4.1 Tìm ki m d li u trên web Nhi m v ch y u c a giai ño n này là d a vào t p t khóa tìm ki m ñ tìm ki m và tr v t p g m toàn văn tài li u, tiêu ñ , mô t tóm t t tài li u, URL,… tương ng v i các trang ñó. D li u ñư c lưu tr vào CSDL ñ ti p t c ñư c x lý. 1.4.4.2 Ti n x lý và bi u di n d li u Quá trình làm s ch d li u và chuy n d ch các tài li u thành các d ng bi u di n thích h p bao g m các bư c: • Chu n hóa văn b n • Xóa b t d ng • K t h p các t có cùng g c
  14. - 14 - • Xây d ng t ñi n • Tách t , s hóa văn b n và bi u di n tài li u 1.4.4.3 Phân c m tài li u: Sau khi ñã tìm ki m, trích rút d li u và ti n x lý, s d ng k thu t phân c m ñ phân c m tài li u b ng thu t toán K-means như ñã nêu. 1.4.5 ng d ng V i hư ng ti p c n như trên, bài toán Tìm ki m và Phân c m tài li u web có th áp d ng trong vi c xây d ng h th ng thu th p tin t ñ ng. Vi c tìm ki m thông tin trên internet ñã ñư c t n d ng th m nh c a các Search Engine trên Internet hi n nay, vi c phân c m các k t qu tìm ki m b ng thu t toán K-means có th ñem l i các c m tài li u v i ñ tương t c a các tài li u trong c m là r t cao và t ñó h tr ngư i dùng ra quy t ñ nh trong vi c ch n l a m t trong các c m tài li u ñ ph c v cho m c ñích nào ñó c a mình .
  15. - 15 - Chương 2: PHÂN TÍCH THI T K H TH NG 2.1 Hi n tr ng và nhu c u Xây d ng h th ng thu th p thông tin t ñ ng ph c v c p nh t n i dung cho trang TTĐT là vi c làm h t s c c n thi t. Trang TTĐT Qu ng nam có s lư ng truy c p r t l n và nhu c u tìm ki m thông tin trên ñó là r t cao. Hi n nay ch ñ “Xây d ng nông thôn m i” là ch ñ ñang ñư c quan tâm nh t, các thông tin v ch ñ này ñư c ñăng r t nhi u trên các báo b , ngành, ñ a phương và c n ñư c thu th p v ngay trên trang TTĐT Qu ng Nam ñ ph c v nhu c u c a nhân dân trong t nh. Các thông tin thu th p v và ñăng t i l i trên trang TTĐT Qu ng Nam ph i có n i dung th t s phù h p v i ch ñ và các thông tin là chính th ng, không l y t các ngu n báo không rõ ràng. 2.2 Yêu c u c a h th ng 2.2.1 Cơ s lý thuy t áp d ng - H th ng ñư c xây d ng trên cơ s áp d ng phương pháp phân c m các tài li u web tr v c a máy tìm ki m. - Thu t toán phân c m ñư c áp d ng là thu t toán K-means (v i s c m tùy ch n) - Các lý thuy t h tr như ñ ño d tương t , chu n hóa, tách t , bi u di n d li u theo vecto không gian cũng ñư c áp d ng. 2.2.2 Xác ñ nh các yêu c u c a h th ng 2.2.2.1 Yêu c u phi ch c năng - H th ng ñư c phát tri n ñ tích h p ph c v cho trang TTĐT Qu ng Nam do ñó nó ph i ñư c thi t k tuân theo mô hình c a Portal ñang s d ng (Liferay). - Đ m b o y u t t c ñ trong quá trình x lý thu th p và phân c m tài li u.
  16. - 16 - - H th ng ñư c xây d ng v i các module ch c năng chuyên trách và giao di n d s d ng, t o ñi u ki n d dàng cho ngư i biên t p tin bài. 2.2.2.2 Yêu c u v ch c năng Đ i v i các thành viên c a Ban biên t p: - H th ng cho phép qu n lý c u hình h th ng - Có th xem k t qu c a t p tài li u ñã tìm ki m theo t khóa ñư c tr v t máy ch Google - Có th xem ñư c k t qu phân c m - Có th xu t b n tài li u ho c c m tài li u lên trang ch Đ i v i ngư i truy c p vào Trang TTĐT: - Có th xem tin t c ñư c thu th p t Internet trên trang ch - Tin t c ñư c hi n th bao g m tiêu ñ và trích d n, ñ xem chi ti t tin bài, ngư i dùng kích chu t vào tiêu ñ bài vi t trích d n. 2.3 Mô hình ho t ñ ng c a h th ng Quá trình ho t ñ ng c a h th ng ñư c th c hi n qua 4 giai ño n sau ñây: Giai ño n 1: L y d li u tr v t máy tìm ki m theo n i dung truy v n. Đ l y ñư c d li u trên danh sách tr v t máy tìm ki m, ch c năng Crawler s th c hi n download các tài li u v và lưu tr vào cơ s d li u. Giai ño n 2: ñây là giai ño n chu n b d li u bao g m ti n x lý, chu n hóa và bi u di n d li u trư c khi th c hi n phân c m . Giai ño n 3: ch c năng phân c m tài li u s ti n hành phân c m d li u ñã thu th p thành các c m v i ñ tương t c a các tài li u trong c m là g n nhau nh t. Giai ño n 4: ñánh giá và l a ch n c m tài li u ñ phát hành lên trang ch website.
  17. - 17 - Hình dư i ñây minh h a mô hình ho t ñ ng c a h th ng: Hình 2.2: Mô hình ho t ñ ng c a h th ng thu th p tin t ñ ng 2.4 Ch c năng c a h th ng D a trên mô hình ho t ñ ng c a h th ng ta có th thi t k các thành ph n ch c năng như sau: Qu n lý h th ng: qu n lý các c u hình h th ng L p t ñi n:Xây d ng b t ñi n ñ ph c v cho vi c tách t và vecto hóa tài li u chu n b cho quá trình phân c m tài li u. L y d li u:Thành ph n Crawler trong h th ng s download t p các tài li u t danh sách tr v c a máy tìm ki m và sau ñó lưu vào CSDL ñ ti p t c ti n x lý trư c
  18. - 18 - khi phân c m. X lý d li u và phân c m:H th ng ti n hành ti n x lý các d li u tr v t máy ch tìm ki m và th c hi n phân c m. Đ u ra là các c m d li u ñư c gom theo các ch ñ nh v i m c ñ tương ñ ng c a các tài li u trong c m. Đánh giá và ch n k t qu xu t b n:Đây là bư c ngư i biên t p ñưa ra quy t ñ nh ch n c m tài li u c n xu t b n lên trang ch . Quá trình này cũng có th thi t l p t ñ ng d a vào m t tiêu chí ñánh giá ñ tương t c a c m v i ch ñ theo m t tiêu chu n ñánh giá ñ nh trư c. Bi u di n tài li u trên trang ch : d li u ñư c phát hành lên trang ch ph c v nhu c u truy c p. 2.5 Phân tích và thi t k h th ng 2.5.1 Xác ñ nh Actor - Ngư i biên t p: qu n lý quá trình thu th p, x lý, phân c m và xu t b n tài li u - Ngư i truy c p: Xem tài li u ñư c xu t b n trên trang ch 2.5.2 Xác ñ nh Use Case Ta xác ñ nh ñư c các use case sau ñây: Đăng nh p, Qu n lý h th ng, L y d li u, Xây d ng t ñi n, X lý phân c m, Xu t b n tài li u, Truy c p tài li u.
  19. - 19 - 2.5.3 Sơ ñ Use Case Hình 2.3 : Sơ ñ Use case c a h th ng thu th p tin t ñ ng 2.5.4 Đ c t Use Case Bao g m 7 ca s d ng ñư c ñ c t v i các thông tin : tác nhân, mô t , ti n ñi u ki n, h u ñi u ki n. Các use case bao g m: Xây d ng t ñi n, L y d li u, X lý phân c m, Xu t b n tài li u, Truy c p tài li u 2.5.5 Bi u ñ tu n t Chúng ta có các bi u ñ tu n t sau: Đăng nh p, Qu n lý, Xây d ng t ñi n, L y d li u, X lý phân c m, Xu t b n tài li u, Truy c p tài li u
  20. - 20 - 2.5.6 Bi u ñ ho t ñ ng Xây d ng bi u ñ ho t ñ ng cho ca s d ng L y d li u 2.5.7 Bi u ñ l p D a vào mô t h th ng và Use case, ta xác ñ nh các l p chính c a h th ng thu th p tin t ñ ng như sau: L p Dictionary : lưu tr thông tin c a t ñi n L p Document : lưu tr các tài li u ñư c l y v t internet L p Cluster: lưu tr các thông tin v các c m d li u sau khi phân c m L p DocumentIndex: Lưu tr các thông tin trong quá trình làm s ch d li u và tách t L p ClusterIndex: Lưu tr các k t qu phân c m 2.5.8 Thi t k cơ s d li u 2.5.8.1 Các b ng d li u Document, Dictionary, Cluster, DocumentIndex, ClusterIndex 2.5.8.1 Mô hình cơ s d li u quan h Hình 2.13: Mô hình cơ s d li u quan h
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2