intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1

Chia sẻ: Le Nhu | Ngày: | Loại File: PDF | Số trang:40

72
lượt xem
17
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Một ngưòi sử dụng nhập các thông bắt đầu sử dụng hệ thống với các chức năng tương ứng với quyền của mình 2 Phân quyền Người quản trị hệ thống tin về tên sử dụng và mật khẩu để use Actor Mô tả Điều kiện tiên quyết Người quản trị hệ thống sử dụng PMA để cấp quyền sử dụng các chức năng cho các nhóm người sử cho mỗi người sử dụng thuộc từng nhóm. 3 Quản lý Người quản các tham trị hệ thống số thống hệ dụng và cấp tên sử dụng, mật khẩu Người quản trị...

Chủ đề:
Lưu

Nội dung Text: Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1

  1. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép IC M N Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng iã n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này. Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con nghiên c u h c t p. Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c qua. m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n a chúng tôi. c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót, mong nh n c s thông c m và góp ý c a th y cô và các b n. Tháng 7 n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u 1 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  2. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên 2 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  3. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên 3 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  4. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép CL C DANH SÁCH CÁC B NG...................................................................................8 DANH SÁCH CÁC HÌNH V ..............................................................................8 Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11 Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................11 1. Gi i thi u v tìm ki m thông tin ......................................................................11 1.1 Khái ni m v tìm ki m thông tin ................................................................11 1.2 M t s v n trong vi c tìm ki m thông tin: .............................................11 2. H tìm ki m thông tin – IRS ............................................................................12 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................13 4. So sánh IRS v i các h th ng thông tin khác ...................................................14 4.1 H qu n tr c s d li u (DBMS)..............................................................15 4.2 H qu n lý thông tin (IMS) ........................................................................15 4.3 H h tr ra quy t nh (DSS)....................................................................16 4.4 H tr l i câu h i (QAS) ............................................................................16 4.5 So sánh IRS v i các h th ng thông tin khác..............................................17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN ............18 1. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................18 2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19 2.1 Mô hình không gian vector ........................................................................19 2.2 Tìm ki m Boolean .....................................................................................21 2.3 Tìm ki m Boolean m r ng .......................................................................22 2.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23 2.4.1 M r ng cho s t tu ý ......................................................................23 2.4.2 Thêm toán t t ng ..........................................................................24 2.5 Mô hình xác su t........................................................................................24 2.6 ánh giá chung v các mô hình .................................................................25 3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................25 3.1 Tách t t ng cho t p các tài li u ............................................................25 3.2 L p ch m c cho tài li u .............................................................................25 3.3 Tìm ki m ...................................................................................................26 3.4 S p x p các tài li u tr v (Ranking) ..........................................................26 4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t .....................................................................................................................26 4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................27 4.2 V n b ng mã ti ng Vi t .........................................................................27 4 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  5. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.3 Các khó kh n khác .....................................................................................27 Ch ng 3: TÁCH T T NG........................................................................29 1. Tách t trong Ti ng Anh .................................................................................29 2. Tách t trong Ti ng Vi t .................................................................................29 2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................29 2.1.1 Ti ng...................................................................................................29 2.1.2 T .......................................................................................................30 2.2 Tách t t ng ti ng Vi t .........................................................................30 3. Các ph ng pháp tách t ti ng Vi t .................................................................30 3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30 3.1.1 Mô t ...................................................................................................30 3.1.2 Áp d ng tách t ti ng Vi t ...................................................................31 3.2 Longest Matching [1.4]..............................................................................37 3.3 K t h p gi a fnTBL và Longest Matching.................................................37 Ch ng 4: L P CH M C ..................................................................................38 1. Khái quát v h th ng l p ch m c ...................................................................38 2. Ph ng pháp l p ch m c [1.1] ........................................................................38 2.1 Xác nh các t ch m c .............................................................................38 2.2 Các ph ng pháp tính tr ng s c a t ........................................................40 2.2.1 T n s tài li u ngh ch o ....................................................................40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42 2.3 L p ch m c t ng cho tài li u ti ng Anh................................................43 3. L p ch m c cho tài li u ti ng Vi t ..................................................................45 4. T p tin ngh ch o tài li u ...............................................................................46 4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................46 4.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47 Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49 Ch ng 5: PHÂN TÍCH.......................................................................................49 1. S UseCase h th ng ..................................................................................49 2. S L p ........................................................................................................51 2.1 S các l p th hi n ................................................................................51 2.2 S các l p x lý ....................................................................................52 3. Tách t ............................................................................................................53 3.1 S UseCase...........................................................................................53 3.2 S Tu n t ............................................................................................53 5 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  6. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 3.3 S C ng tác...........................................................................................54 3.4 S L p ..................................................................................................54 4. L p ch m c .....................................................................................................55 4.1 S UseCase...........................................................................................55 4.2 S Tu n t ............................................................................................56 4.2.1 T o m i ch m c .................................................................................56 4.2.2 C p nh t ch m c .................................................................................57 4.3 S C ng tác...........................................................................................58 4.3.1 T o m i ch m c .................................................................................58 4.3.2 C p nh t ch m c .................................................................................59 4.4 S L p ..................................................................................................60 5. Tìm ki m .........................................................................................................61 5.1 S UseCase...........................................................................................61 5.2 S Tu n t ............................................................................................61 5.3 S C ng tác...........................................................................................62 5.4 S L p ..................................................................................................63 Ch ng 6: THI T K VÀ CÀI T ..................................................................64 1. C u trúc l u tr d li u....................................................................................64 1.1 T p tin l u n i dung tài li u .......................................................................64 1.1.1 C u trúc DTD / XSD ...........................................................................64 1.1.2 Tài li u XML ......................................................................................66 1.2 T p tin sau khi tách t tài li u ....................................................................67 1.2.1 C u trúc DTD / XSD ...........................................................................67 1.2.2 Tài li u XML ......................................................................................68 1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........70 1.3.1 C u trúc DTD / XSD ...........................................................................70 1.3.2 Tài li u XML ......................................................................................71 1.4 T p tin ch m c o ( Inverted ). ................................................................71 1.4.1 C u trúc DTD / XSD ...........................................................................71 1.4.2 Tài li u XML ......................................................................................73 1.5 T p tin sau khi tách t câu h i....................................................................74 1.5.1 C u trúc DTD / XSD ...........................................................................74 1.5.2 Tài li u XML ......................................................................................75 1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList ...........................................................................................................76 1.6.1 C u trúc DTD / XSD ...........................................................................76 1.6.2 Tài li u XML ......................................................................................77 1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................77 1.7.1 C u trúc DTD / XSD ...........................................................................77 6 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  7. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 1.7.2 Tài li u XML ......................................................................................79 1.8 T p tin ch a t ng quan gi a câu h i và các tài li u .............................80 1.8.1 C u trúc DTD / XSD ...........................................................................80 1.8.2 Tài li u XML ......................................................................................82 2. Chi ti t các l p i t ng ................................................................................83 2.1 Các l p trong quá trình tách t ...................................................................83 2.1.1 S các l p ......................................................................................83 2.1.2 L p tách t ghép..................................................................................83 2.1.3 L p tách t ..........................................................................................86 2.1.4 L p giao di n tách t ...........................................................................89 2.2 Các l p trong quá trình l p ch m c ...........................................................91 2.2.1 S các l p .......................................................................................91 2.2.2 L p l p ch m c...................................................................................92 2.2.3 L p giao di n t o m i ch m c ............................................................94 2.2.4 L p giao di n c p nh t ch m c ...........................................................96 2.3 Các l p trong quá trình tìm ki m................................................................98 2.3.1 S các l p .......................................................................................98 2.3.2 L p tìm ki m .......................................................................................99 2.3.3 L p giao di n tìm ki m ..................................................................... 105 3. M t s màn hình giao di n khác .................................................................... 109 3.1 Màn hình chính c a ch ng trình............................................................. 109 3.2 Màn hình tìm ki m nhi u câu h i ............................................................. 110 3.3 Màn hình tìm ki m chính ( giao di n Web) .............................................. 112 3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................ 113 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web).................................. 114 Ph n 3 : T NG K T ..............................................................................................115 1. Ch ng trình th nghi m............................................................................... 115 2. ánh giá k t qu t c ............................................................................. 115 3. H ng phát tri n............................................................................................ 116 TÀI LI U THAM KH O ................................................................................. 117 1. Sách............................................................................................................... 117 2. Lu n v n........................................................................................................ 117 3. Website ......................................................................................................... 117 7 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  8. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17 ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47 ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o .........................................................48 ng 5-1 Danh sách các Actor...............................................................................................50 ng 5-2 Danh sách các UseCase ..........................................................................................50 DANH SÁCH CÁC HÌNH V Hình 1-1 Môi tr ng c a h tìm ki m t hông tin.....................................................................13 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14 Hình 2-1 H tìm ki m thông tin tiêu bi u ...............................................................................18 Hình 3-1 Quá trình h c ..........................................................................................................35 Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36 Hình 4-1 Các t c s p theo th t ....................................................................................39 Hình 4-2 Quá trình ch n t làm ch m c ................................................................................45 Hình 5-1 S Use-case c a h th ng...................................................................................49 Hình 5-2 S các l p th hi n .............................................................................................51 Hình 5-3 S các l p x lý .................................................................................................52 Hình 5-4 S Use-case tách t ............................................................................................53 Hình 5-5 S tu n t tách t ...............................................................................................53 Hình 5-6 S c ng tác tách t .............................................................................................54 Hình 5-7 S l p tách t .....................................................................................................54 Hình 5-8 S use-case l p ch m c .....................................................................................55 Hình 5-9 S tu n t t o m i ch m c ................................................................................56 Hình 5-10 S tu n t c p nh t ch m c ............................................................................57 Hình 5-11 S c ng tác t o m i ch m c ............................................................................58 Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59 Hình 5-13 S l p l p ch m c ...........................................................................................60 Hình 5-14 S use-case tìm ki m .......................................................................................61 Hình 5-15 S tu n t tìm ki m..........................................................................................61 Hình 5-16 S c ng tác tìm ki m .......................................................................................62 Hình 5-17 S l p tìm ki m ...............................................................................................63 Hình 6-1 S l p tách t .....................................................................................................83 Hình 6-2 L p tách t ghép.....................................................................................................83 8 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  9. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Hình 6-3 L p tách t .............................................................................................................86 Hình 6-4 L p giao di n tách t ..............................................................................................89 Hình 6-5 Màn hình tách t .....................................................................................................89 Hình 6-6 Màn hình chi ti t tách t .........................................................................................90 Hình 6-7 S l p l p ch m c .............................................................................................91 Hình 6-8 L p l p ch m c ......................................................................................................92 Hình 6-9 L p giao di n t o m i ch m c................................................................................94 Hình 6-10 Màn hình t o m i ch m c ....................................................................................95 Hình 6-11 L p Màn hình c p nh t ch m c ............................................................................96 Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97 Hình 6-13 S l p tìm ki m ...............................................................................................98 Hình 6-14 L p x lý tìm ki m ...............................................................................................99 Hình 6-15 L p giao di n tìm ki m .......................................................................................105 Hình 6-16 Màn hình tìm ki m .............................................................................................106 Hình 6-17 Xem t khóa câu h i ...........................................................................................106 Hình 6-18 Xem t khóa tài li u ...........................................................................................107 Hình 6-19 Màn hình chính...................................................................................................109 Hình 6-20 Màn hình tìm ki m nhi u câu h i ........................................................................110 Hình 6-21 Giao di n t ìm ki m trên Web ..............................................................................112 Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114 9 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  10. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép U Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google, Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm ki m “hi u” và x lý t t các v n b n tí ng Vi t. Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing) cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c. Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t. 10 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  11. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Ph n 1 : TÌM HI U LÝ THUY T NG QUAN V TÌM KI M THÔNG TIN Ch ng 1: 1. Gi i thi u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà ng i tìm ki m quan tâm. 1.2 ts v n trong vi c tìm ki m thông tin: t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t. nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t nhi u th i gian. 11 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  12. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan n yêu c u. 2. tìm ki m thông tin – IRS nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1] Sau ây là Salton (1989): “H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.” Kowalski (1997) : “H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình nh, âm thanh, video và nh ng it ng a ph ng ti n khác.” Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng 12 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  13. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và tr v cho ng i s d ng. 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u (REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u. Hình 1-1 Môi tr ng c a h tìm ki m thông tin Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài li u ph i qua m t b c trung gian. 13 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  14. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u. 4. So sánh IRS v i các h th ng thông tin khác th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u (DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i (QAS) và h tìm ki m thông tin (IR). 14 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  15. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.1 qu n tr c s d li u (DBMS) t c h th ng thông tin t ng nào c ng d a trên m t t p các m c cl u tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d li u. DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle. 4.2 qu n lý thông tin (IMS) qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v cho vi c qu n lý thì ta g i nó là h qu n lý thông tin. 15 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  16. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.3 h tr ra quy t nh (DSS) h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a ra nh ng quy t nh thay cho con ng i. th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan nh. 4.4 tr l i câu h i (QAS) tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên quan l i a ra câu tr l i thích h p. Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h th ng này. 16 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  17. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.5 So sánh IRS v i các h th ng thông tin khác IRS DBMS QAS MIS Các ph n t i dung có ki u d Các s ki n Tìm ki m trong các tài rõ ràng. li u ã c li u. nh ngh a. Gi ng DBMS nh ng h tr thêm nh ng Các s ki n Các v n b n Các ph n t rõ ràng và các th t c( Tính u tr ngôn ng t li u ki n th c ng, tính nhiên. ng b ng. trung bình, ng quát. phép chi u…) Các câu truy Các câu truy Các câu truy lý n không n có c u n không chính xác. trúc. gi i h n. ng 1-1 So sánh IRS v i các h th ng thông tin khác 17 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  18. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép ng 2: XÂY D NG M T H TH NG TÌM KI M Ch THÔNG TIN 1. Ki n trúc c a h tìm ki m thông tin. [1.3] t h th ng thông tin tiêu bi u nh sau: Hình 2-1 H tìm ki m thông tin tiêu bi u th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v . 18 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  19. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép (1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n thì câu truy v n c ng c phân tích thành các t riêng bi t. (2) ph n l p ch m c : các t trích c t các v n b n thu th p cs c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th hi n c n i dung c a v n b n. (3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng. 2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2] c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m b n: 2.1 Mô hình không gian vector Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i. 19 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
  20. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng cs m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là ánh 1 vào thành ph n t ng ng n u t ó x u t hi n, và ánh 0 n u t ó không xu t hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh phân nh sau: Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh sau: i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o (Inverse Document Frequency) liên quan n các t c cho: n: s t phân bi t trong t p tài li u tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s ) dfj : s tài li u có ch a t tj d idfj = log10 trong ó d là t ng s tài li u df j Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên 20 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2