intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:14

72
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động.KIM là một công nghệ còn khá mới mẻ không những trên thế giới mà cả Việt Nam.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Tìm hiểu công nghệ kim xây dựng ứng dụng chú giải ngữ nghĩa tự động

  1. B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG PH M AN BÌNH TÌM HI U CÔNG NGH KIM XÂY D NG NG D NG CHÚ GI I NG NGHĨA T Đ NG Chuyên ngành : Khoa h c máy tính Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - 2010
  2. 2 3 M Đ U 1. LÝ DO CH N Đ TÀI Công trình ñư c hoàn thành t i V i nhi u t trang web phân b trên h u h t các qu c gia, Đ I H C ĐÀ N NG World Wide Web (WWW) là môi trư ng t t cho vi c bi u di n và truy c p thông tin d ng s . Tuy nhiên, lư ng thông tin kh ng l ñó cũng t o ra nh ng khó khăn to l n trong vi c tìm ki m, chia s thông tin trên WWW. Hi n nay thông tin trên WWW ñư c bi u di n ch Ngư i hư ng d n khoa h c: PGS. TS. Phan Huy Khánh y u dư i d ng ngôn ng t nhiên. Cách bi u di n ñó phù h p v i con Ph n bi n 1 : TS. Nguy n M u Hân ngư i nhưng gây ra nhi u khó khăn cho các chương trình h tr tìm ki m, chia s và trao ñ i thông tin. Máy tính không “hi u” ñư c Ph n bi n 2 : TS. Tăng T n Chi n thông tin và d li u bi u di n dư i d ng thích h p v i con ngư i. Đ gi i quy t v n ñ này, nhi u t ch c nghiên c u và kinh doanh ñã ph i h p nghiên c u và phát tri n Web có ng nghĩa. Theo Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t Tim Berner Lee giám ñ c t ch c World Wide Web Consortium, nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 14 ñ ng th i là cha ñ c a WWW, Web có ng nghĩa là s m r ng c a tháng 10 năm 2010. web hi n t i b ng cách thêm vào các mô t ý nghĩa cho n i dung c a trang web dư i d ng mà máy tính có th hi u ñư c, do ñó có th x lý thông tin hi u qu hơn. Như v y web có ng nghĩa s bao g m các thông tin ñư c bi u di n theo cách truy n th ng cùng v i ng nghĩa c a các thông tin này ñư c bi u di n m t cách tư ng minh. Vi c thêm ph n ng nghĩa cung c p thêm tri th c cho các chương trình, * Có th tìm hi u lu n văn t i : giúp nâng cao ch t lư ng phân lo i, tìm ki m và trao ñ i thông tin. S ra ñ i c a web ng nghĩa là m t bư c ti n vư t b c so - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng v i k thu t web thông thư ng và h a h n m t th h web tương lai. - Trung tâm H c li u - Đ i h c Đà N ng Các phát tri n g n ñây c a công ngh thông tin và truy n thông ñã t o ra nh ng kh năng ñ thu th p m t lư ng l n d li u mà chúng có liên quan v i nhau v m t khái ni m. Tuy nhiên, ña s nh ng m i quan h này ñư c con ngư i “nh ” ch không ñư c lưu tr theo m t
  3. 4 5 cách mà giúp cho máy tính có th hi u ñ x lý.Thách th c này t o ra ng nghĩa t ñ ng” và ñưa ra m t s nh n ñ nh, k t qu th c hi n m t hư ng nghiên c u ñó là t o ra kh năng cho phép con ngư i t o, ñ ng th i ñ xu t các hư ng phát tri n c a lu n văn trong tương lai. lưu gi , s p x p, ghi ph chú và truy xu t kho d li u cá nhân r t l n 3. Đ I TƯ NG VÀ PH M VI NGHÊN C U c a m i ngư i trong quá kh theo hình th c như m t nh t ký cu c Đ i tư ng nghiên c u c a lu n văn là d li u d ng văn b n s ng ñư c cá th hóa và tr giúp cho b nh c a con ngư i. ñư c bi u di n trên môi trư ng www. Lu n văn t p trung vào nghiên Hi n nay, có nhi u hư ng nghiên c u khác nhau v web ng c u h th ng qu n lý thông tin và tri th c KIM, sau ñó xây d ng ng nghĩa, như chu n hóa ngôn ng bi u di n d li u và siêu d li u trên d ng chú gi i ng nghĩa t ñ ng. web, chu n hóa ngôn ng bi u di n ontology và phát tri n ng nghĩa 4. PHƯƠNG PHÁP NGHIÊN C U cho web. Đ i v i hư ng nghiên c u phát tri n ng nghĩa cho web, Lu n văn s d ng các phương pháp nghiên c u sau : ngư i ta tìm cách b sung ng nghĩa vào các trang web, trong khi có Th nh t, t ng h p các k t qu nghiên c u t các tư li u liên hàng t trang web như v y trên toàn c u. Do ñó, vi c xây d ng các quan v web ng nghĩa, chú gi i ng nghĩa, KIM. h th ng t ñ ng chuy n ñ i các trang web truy n th ng sang các Th hai, phân tích ñánh giá các phương pháp và ñ xu t các trang web có ng nghĩa là vô cùng c n thi t, mang l i nhi u l i ích và gi i pháp l a ch n ñ xây d ng ng d ng có hi u qu nh t. ý nghĩa to l n. Đ th c hi n ñi u này, chúng ta c n phân tích và trích T nh ng gi i pháp l a ch n ñã ñ xu t, ch n ra m t phương l c các ng nghĩa và ghi t ñ ng xu ng các trang web dư i d ng các pháp hi u qu ñ áp d ng cho vi c xây d ng ng d ng chú gi i ng chú gi i. Đó là lý do tôi ch n ñ tài: nghĩa t ñ ng. “ Tìm hi u công ngh KIM 5. Ý NGHĨA KHOA H C VÀ TH C TI N C A Đ TÀI Xây d ng ng d ng chú gi i ng nghĩa t ñ ng” Đ tài t p trung nghiên c u, tìm hi u v công ngh KIM và tìm hi u kh năng ng d ng công ngh KIM. KIM là m t công ngh 2. M C TIÊU VÀ NHI M V còn khá m i m không nh ng trên th gi i mà còn c Vi t Nam. Lu n văn t p trung vào nghiên c u nh ng n i dung sau ñây: Đ tài ñ xu t m t hư ng ti p c n m i trong tăng cư ng ng Th nh t, nghiên c u các n i dung lý thuy t liên v web ng c nh vào các trang Web b ng cách b sung các chú gi i t ñ ng vào nghĩa, chú gi i ng nghĩa cho trang web. các trang web, nh m tăng thêm hi u qu tìm ki m, trích l c, chia s , Th hai, nghiên c u tìm hi u h th ng qu n lý thông tin và ... thông tin trên web. tri th c KIM. Đ tài cũng góp ph n nâng cao kh năng t ch c và tri n T nh ng lý thuy t, ki n th c thu ñư c sau khi nghiên c u khai thành công h th ng web ng nghĩa trong th c t , giúp ngư i s nh ng n i dung trên, lu n văn t p trung “xây d ng ng d ng chú gi i d ng h th ng d dàng tìm ki m ñư c các thông tin mong mu n chính xác hơn và hi u qu hơn.
  4. 6 7 6. B C C C A LU N VĂN CHƯƠNG 1 - WEB NG NGHĨA VÀ H TH NG Lu n văn g m 3 chương, sau ph n m ñ u gi i thi u v lý do CHÚ GI I NG NGHĨA ch n ñ tài, m c tiêu và nhi m v , ñ i tư ng và ph m vi nghiên c u, 1.1. CÁC V N Đ LIÊN QUAN Đ N WEB NG NGHĨA phương pháp nghiên c u , ý nghĩa khoa h c và th c ti n c a ñ tài là: 1.1.1. S h n ch World Wide Web Chương 1, “Tìm hi u web ng nghĩa và h th ng chú gi i 1.1.2. S ra ñ i c a Web ng nghĩa ng nghĩa” gi i thi u sơ b nh ng n i dung t ng quan nh t v s ra 1.1.2.1. Web ng nghĩa ñ i c a WEB ng nghĩa, ki n trúc, ngôn ng c a WEB ng nghĩa. Theo Tim- Berners Lee, ‘‘ Web ng nghĩa là s m r ng c a Trong ph n này cũng trình bày t ng quan v phương pháp truy v n Web hi n t i, cho phép ngư i dùng có th truy tìm, ph i h p, s d ng d li u trong RDF. l i và trích l c thông tin m t cách d dàng và chính xác ’’. Bên c nh ñó, chương này cũng t p trung trình bày v chú 1.1.2.2. M t s khái ni m liên quan gi i ng nghĩa, mô hình t ng quát cho h th ng chú gi i ng nghĩa t Ph n này trình bày v Meta data và ontology. ñ ng, các phương pháp tách t . 1.1.3. Ki n trúc c a Web ng nghĩa Chương 2, “Tìm hi u h th ng qu n lý thông tin và tri Web ng nghĩa là s m r ng c a web hi n t i có b sung th c KIM” . Trong chương này, lu n văn gi i thi u v h thông thêm ng nghĩa vào d li u trên web. qu n lý thông tin và tri th c KIM, ñi sâu vào n n t ng, c u hình, ki n T sơ ñ ki n trúc c a web ng nghĩa trên ta th y có b y trúc c a KIM. Quá trình trích l c thông tin ng nghĩa, chú gi i và t ng ki n trúc. V i h th ng web hi n t i là ñang t ng th hai. khôi ph c cũng như tính kh thi và giá tr to l n c a KIM. 1.1.3.1. Unicode: là b ng mã chu n chung ch a ñ y ñ các Chương 3, “Xây d ng ng d ng chú gi i ng nghĩa t ký t nh m ñáp ng tính nh t quán toàn c u c a web. ñ ng”. Trong chương này t p trung nghiên c u phân tích xây d ng 1.1.3.2 URI (Uniform Resource Identifier):là m t chu i ki n trúc t ng th c a h th ng g m các thành ph n liên quan, cách theo hình th c chu n cho phép nh n di n các tài nguyên duy nh t. v n hành c a h th ng, t ki n trúc t ng th ñã xây d ng ti p t c 1.1.3.2. XML: ch a các ñ nh nghĩa v XML namespace và tri n khai thi t k các thành ph n ñã phân tích, xây d ng cơ s d XML Schema nh m có m t cú pháp chung ñư c s d ng trong web li u, ng d ng chú gi i ng nghĩa t ñ ng. ng nghĩa. XML là ngôn ng ñánh d u tài li u ch a các thông tin có Ph n k t lu n, t ng h p nh ng k t qu nghiên c u chính c u trúc. M t tài li u XML ch a các element, các element này có th c a lu n văn, ch ra m t s h n ch chưa hoàn thi n cài ñ t. Đ ng l ng nhau và có th có các thu c tính và n i dung. XML namespace th i, lu n văn cũng ñ xu t m t s hư ng nghiên c u c th ti p theo cho phép ch ñ nh s khác nhau c a các t v ng ñánh d u trong m t c a tác gi lu n văn. tài li u XML.
  5. 8 9 ng gi ng như SQL nhưng s d ng các b ba RDF, tài nguyên ñ so kh p các thành ph n truy v n và tr k t qu cho câu truy v n ñó. 1.1.3.7. Logic: Vi c bi u di n các tài nguyên dư i d ng các b t v ng ontology giúp máy có th l p lu n ñư c. Cơ s c a vi c l p lu n ch y u d a vào logic. Chính vì v y, các ontology ñư c ánh x sang logic. 1.1.3.8: Proof: T ng này ñưa ra các lu t ñ suy lu n. C th t các thông tin ñã có ta có th suy ra các thông tin m i. Đ có ñư c suy lu n này thì cơ s là FOL. T ng này hi n nay các nhà nghiên c u ñang xây d ng các ngôn ng lu t cho nó như SWRL, RuleML. 1.1.3.9: Trust: Đ m b o s tin c y c a các ng d ng. 1.1.4. Ngôn ng cho Web ng nghĩa Ngôn ng bi u di n d li u và tri th c là m t khía c nh quan Ki n trúc Web ng nghĩa tr ng c a Web ng nghĩa. Có nhi u ngôn ng cho Semantic Web, 1.1.3.3. L p RDF - RDF Schema: ñ nh d ng bi u di n d h u h t d a trên XML hay s d ng XML làm cú pháp. M t s ngôn li u n ng c t c a web ng nghĩa là RDF. RDF là m t khung bi u ng s d ng RDF và RDFschema. di n thông tin tài nguyên dư i d ng m t hình nh. 1.1.4.1. XML và XML Schema RDFS (RDF Schema) là m t ngôn ng ontology ñơn gi n, là XML là m t siêu ngôn ng s d ng ñ bi u di n các ngôn m t ngôn ng cơ s c a web ng nghĩa. RDFS là ngôn ng mô t b ng web ng nghĩa khác. XML cho phép ñ c t và ñánh d u các tài t v ng trên các b ba RDF. li u mà máy tính có th ñ c ñư c. Nó gi ng v i HTML ñi m ch a 1.1.3.4. OWL: các ontology chi ti t hơn có th ñư c t o ra các chu i ký t , các th dùng ñ ñánh d u n i dung tài li u, và d v i OWL. OWL là m t ngôn ng b t ngu n t hình th c bi u di n li u XML ñư c lưu tr dư i d ng văn b n thu n túy. Không gi ng logic và c u trúc hơn RDFS. Nó ñư c nhúng vào RDF nh m cung như HTML, XML có th ñư c s d ng ñ bi u di n các tài li u có c p thêm các t v ng ñư c chu n hóa, do ñó nó gi ng như RDFS. c u trúc tùy ý, và không có các th c ñ nh. 1.1.3.5. RIF: Đ cung c p các lu t cho các ngôn ng RDF M i XML Schema cung c p m t khung làm vi c c n thi t và OWL. Các lu t ñư c chu n hóa cho web ng nghĩa. cho vi c t o ra m t danh m c tài li u XML. Schema mô t các th , 1.1.3.6. SPARQL : ñ truy v n d li u RDF, RDFS và các các element và các thu c tính c a m t tài li u XML c a danh m c ontology OWL cùng v i các cơ s tri th c. SPARQL là m t ngôn ch ñ nh, c u trúc tài li u ñúng, các ràng bu c, và các lo i d li u cơ
  6. 10 11 s . Ngôn ng XML schema cũng cung c p m t s h tr b h n ch object domain . Tương t , có hai lo i thu c tính c a OWL: nh ng ñ i v vi c ch ñ nh s lư ng xu t hi n các element con, các giá tr m c tư ng này quan h v i nh ng ñ i tư ng khác ñư c ch ñ nh b ng ñ nh, ... Cú pháp mã hóa ngôn ng XML schema là XML. owl:ObjectProperty và nh ng ñ i tư ng quan h v i nh ng giá tr 1.1.4.2. RDF và RDF Schema c a ki u d li u ñư c ch ñ nh b i owl:DatatypeProperty. Cú pháp Khung bi u di n tài nguyên RDF là ngôn ng cung c p mô dành cho các l p và các thu c tính tương t như DAML và OIL. hình bi u di n d li u v “nh ng gì t n t i trên web” có nghĩa là tài Ngày nay, OWL là ngôn ng ñư c s d ng ñ bi u di n các nguyên dư i d ng b ba: “ch ñ – thu c tính – ñ i tư ng” và ontology và là ngôn ng web ng nghĩa mà máy tính có th ñ c và m ng ng nghĩa. Bi u di n tài nguyên trong RDF là m t danh sách hi u d li u và ñưa ra các suy lu n t nó. Thêm vào ñó nó ñưa ra các các m nh ñ g m các b ba, bao g m ch ñ là tài nguyên web, các lu t và các ñ nh nghĩa tương t như RDF, OWL cũng cho phép ch rõ thu c tính c a ch ñ và ñ i tư ng. Đ i tư ng có th là văn b n ho c các ràng bu c và các m i quan h gi a các tài nguyên, bao g m tài nguyên khác. M i m t ñ c t RDF cũng có th ñư c bi u di n lư ng s , các ràng bu c v mi n và ph m vi, các lu t h p nh t, lu t dư i d ng các hình nh ñư c g n nhãn tr c ti p (m ng ng nghĩa). phân tách, lu t ngh ch ñ o và lu t ngo i ñ ng t . RDF Schema cung c p t v ng d a trên cơ s XML ñ ch M t ñ c ñi m quan tr ng c a t v ng OWL là s phong phú rõ các l p và các m i quan h gi a chúng, ñ nh nghĩa các thu c tính ñ mô t các m i quan h gi a các l p, thu c tính và ñ i tư ng. và k t h p các thu c tính v i các l p, cho phép t o các nguyên t c 1.1.4.4. SPARQL phân lo i. SPARQL s d ng ñ truy v n d li u web. Chính xác hơn nó RDF và RDF schema cung c p m t mô hình chu n ñ mô t là m t ngôn ng truy v n RDF. Đ hi u rõ v SPARQL, chúng ta hãy v tài nguyên web, nhưng nh ng mô hình này thư ng c n ch rõ ng xem các tài nguyên RDF dư i d ng các m ng ng nghĩa. SPARQL nghĩa c a tài nguyên web. RDFS ñư c so sánh khá ñơn gi n v i các ñư c s d ng ñ : trích l c thông tin t các lư c ñ RDF, trích l c các ngôn ng bi u di n tri th c ñ y ñ . lư c ñ con c a RDF, xây d ng các lư c ñ RDF m i d a trên các 1.1.4.3. OWL thông tin có ñư c khi truy v n các lư c ñ RDF. OWL k th a tr c ti p c a DAML, là m t ngôn ng web SPARQL truy v n so kh p các khuôn m u lư c ñ v i lư c ng nghĩa ñư c ghép hai ngôn ng ontology khác là DAML và OIL. ñ ñích c a truy v n. Khuôn m u gi ng như các lư c ñ RDF, nhưng Các t v ng OWL bao g m các element và thu c tính c a có th ch a các bi n ñư c ñ t tên trong không gian c a các node XML ñư c ñ nh nghĩa ñúng. Chúng ñư c s d ng ñ ñ nh nghĩa ho c các liên k t / v ng . Khuôn m u lư c ñ ñơn gi n nh t tương t mi n các b ba và các m i quan h gi a chúng trong m t ontology. như m t b ba RDF ñơn. Các khuôn m u lư c ñ ñơn gi n có th Th c t , t v ng c a OWL ñư c xây d ng d a trên t v ng c a ñư c k t h p s d ng các toán t khác nhau t o thành các khuôn m u RDF. OWL ñư c chia thành hai thành ph n là datatype domain và lư c ñ ph c t p hơn.
  7. 12 13 1.2. H TH NG CHÚ GI I CHO WEB NG NGHĨA li u Web ñich. Giai ño n này g m 3 pha: Phân tích văn b n, l p ch 1.2.1. Chú gi i ng nghĩa m c và khôi ph c tài li u, trích l c thông tin tr v . Chú gi i là nh ng bình lu n, ghi chú, gi i thích, nh ng nh n 1.2.2.3. M t s phương pháp phân tích câu xét ngoài mà có th ñư c gán cho m t tài li u hay m t ph n ñư c Hi n nay t n t i 2 hư ng ti p c n chính cho vi c tách t : ch n c a tài li u - Hư ng ti p c n d a trên t (Word - based approaches ): 1.1.2. Mô hình t ng quát cho h th ng chú gi i ng nghĩa t M c tiêu c a hư ng ti p c n này là tách thành các t hoàn ch nh ñ ng trong câu. Nó có các hư ng chính: d a vào th ng kê (statistics-base), 1.2.2.1. C u trúc d a vào t ñi n (dictionarry - base), hybrid ( k t h p nhi u phương pháp, hy v ng ñ t ñư c nh ng ưu ñi m c a các phương pháp này). Chú gi i - Hư ng ti p c n d a trên ký t (Character- based approaches): Chia các văn b n ra các m t ký t ñơn (unigram) ho c nhi u ký t (n-gram) ñ th c hi n tách t . Hi n nay phương pháp tách văn b n theo t ng ký t ñơn không còn s d ng n a. Đ i v i cách n-gram, văn b n ñư c chia thành các chu i, m i chu i t 2 ñ n B ph n phân tích Tài li u g c 3 ký t tr lên. Cách ti p c n này cho k t qu n ñ nh hơn, d th c Tài li u chú gi i hi n trong ng d ng và nh t là ít t n chi phí trong l p ch m c và th c hi n truy v n. Nh ng k t qu nghiên c u g n ñây cho th y hư ng ti p c n này ñư c xem là s l a ch n thích h p, tuy nhiên ñ Cơ s d chính xác không cao b ng phương pháp d a trên t . Chúng ta có m t li u chú gi i s các phương pháp tách t thông d ng như sau: Phương pháp so kh p t i ña ( Maximum Matching), phương pháp bi n ñ i d a vào 1.2.2.2. Các giai ño n làm vi c c a quá trình chú gi i vi c h c (Transformation-based Learning, TBL), mô hình tách t Quá trình chú gi i ng nghĩa t ng quát bao g m 3 giai ño n. b ng WFST và m ng Neural, phương pháp th ng thê d a trên a. Giai ño n 1 : Ontology mô t mi n ng d ng c n quan Internet. M t s phương pháp l p ch m c và khôi ph c: phương tâm. Thông thư ng ñ th c hi n ñi u này ngư i ta s d ng các công pháp l p ch m c theo t khóa, phương pháp l p ch m c ng nghĩa c so n th o Ontology. Ontology này ñư c chuy n thành các mô t ti m tàng (LSI-Latent Semantic Indexing). d a vào RDF và ch a trong kho ng nghĩa. b. Giai ño n 2 : Nh n d ng s th hi n d li u khám phá trong tài
  8. 14 15 CHƯƠNG 2 - H TH NG QU N LÝ khác bi t v tri t h c gi a các lo i th c th . Ngoài ra, ontology còn THÔNG TIN VÀ TRI TH C KIM ñi vào chi ti t hơn như m t ph n m r ng c a các lo i th c th có 2.1. GI I THI U KIM t m quan tr ng trong th gi i th c. Có ontology này làm cơ s , Ph n này gi i thi u sơ lư c v KIM. chúng ta có th d dàng m r ng các mi n, ñ c u hình các chú gi i 2.2. H TH NG KIM ng nghĩa cho các ng d ng c th . 2.2.1. Ki n trúc KIM S phân b c a các th c th thư ng ñư c g i thay ñ i r t N n t ng KIM bao g m các ngu n tài nguyên tri th c chính nhi u qua các lĩnh v c khác nhau. M c dù có s khác nhau v s th c, KIM Server cùng v i các front end. KIM Server bao g m các phân b c a các lo i nhưng có nhi u lo i th c th chung xu t hi n thành ph n chính sau: kho ng nghĩa, chú gi i ng nghĩa, persistence trong t t c các kho ng li u như Ngư i, t ch c, ñ a ñi m, ti n b c, tài li u, l p ch m c và truy v n. ngày tháng, ...Đ nh v và bi u di n các lo i cơ s này thích h p là KIM ñư c xây d ng d a trên cơ s các n n t ng mã ngu n m t trong các m c tiêu ñ ng sau vi c thi t k KIMO. Hơn n a, KIM m m nh m : GATE, Sesame và Lucene tương ng v i ba lĩnh v c Ontology ñ nh nghĩa các lo i th c th c th hơn n a . khác nhau: kho RDF(S), HLT (ñ c bi t là IE) và IR. Tài nguyên tri S m r ng v chuyên môn hóa ontology ñư c xác ñ nh d a th c ñư c lưu tr trong kho RDF c a Sesame, cung c p cơ s h t ng trên cơ s nghiên c u các lo i th c th trong kho ng li u tin t c lưu tr và kh năng truy v n. Kho Sesame ñư c n p v i hàng tri u t ng h p bao g m c chính tr , th thao và tài chính. Hi n nay, KIMO câu l nh RDF(S). bao g m kho ng 250 l p và kho ng 100 thu c tính và quan h . Các GATE làm cơ s cho quá trình trích l c thông tin và cũng l p ñ nh là Entity, EntitySource, và LexicalResource ñư c s d ng cho vi c qu n lý n i dung và chú gi i. Nó cung c p các 2.2.3. Cơ s tri th c KIM công ngh phân tích văn b n thi t y u, trên nh ng công ngh này 2.2.3.1. Cơ s tri th c ñ nh nghĩa s n c a KIM KIM ñã ñư c xây d ng v i các thành ph n m r ng nh n th c v KIM bao g m hơn 200.000 th c th , ñư c thu th p t m t s ng nghĩa, ñ c bi t cho quá trình trích l c thông tin c a KIM. lư ng l n ngu n d li u, và kho ng 36000 ñ a ñi m bao g m các l c Máy ph c h i thông tin Lucene ñã ñư c thêm vào ñ l p ch ñ a, các vùng mi n trên toàn c u, các qu c gia cùng v i các th ñô, m c, ph c h i thông tin và ñánh giá n i dung liên quan theo các th c 4400 thành ph , núi, sông l n, ñ i dương, bi n ... th có tên, ñi u này cho phép các phương th c truy c p ng nghĩa. Các t ch c có t m quan tr ng to l n ñã ñư c xây d ng s n 2.2.2. KIM Ontology (KIMO) trong cơ s tri th c c a KIM. Bao g m các t ch c l n trên th gi i KIM Ontology cung c p m t ontology t i thi u nhưng ñ y ñ , như liên h p qu c, NATO, OPEC, hơn 140000 công ty qu c t , 140 thích h p cho mi n m và m c ñích chung là chú gi i ng nghĩa. sàn giao d ch th trư ng ch ng khoán, v i t ng s 147000 t ch c. KIMO là m t ontology m c cao ñơn gi n, b t ñ u v i m t s cơ s Cu i cùng, ñ cho phép quá trình trích l c thông tin mà các
  9. 16 17 th c th và các m i quan h m i, không ph i là m t ph n c a cơ s li u t t ñ chú gi i ng nghĩa. Ngoài ra, không có b t kỳ corpora tri th c KIM ñư c nh n di n, m t t p h p các tài nguyên t v ng ñư c chú thích b i con ngư i nào có các chú gi i tuân theo m t h (GATE) cũng ñư c bi u di n trong cơ s tri th c c a KIM. Nó bao th ng các th c th ñư c ñ t tên mà có th ñư c ánh x t i KIMO và g m các h u t t ch c, tên ngư i, th i gian, ti n t ti n t ,... do ñó cung c p m t tiêu chu n vàng cho các ñánh giá chú gi i ng 2.2.3.2. Đi u khi n ch t lư ng và ñ bao ph cơ s tri th c nghĩa. c a KIM 2.2.4.2 Ti p c n trích l c thông tin truy n th ng và tùy bi n Cơ s tri th c c a KIM ñư c xác th c l p ñi l p l i nhi u trích l c thông tin trong KIM l n b ng cách s d ng m t quá trình xây d ng cơ s tri th c bao g m Khác bi t gi a quá trình trích l c thông tin ng nghĩa và trích các th c th và các quan h m t cách ñ c l p. l c thông tin truy n th ng là không phát hi n ra lo i c a th c th a. Xác minh ch t lư ng, cơ s tri th c ñ nh nghĩa s n c a KIM ñư c trích xu t nhưng nh n di n th c th . Đi u này cho phép các Đ bao ph tri th c KIM ñư c ñ m b o v i quá trình x lý th c th ñư c truy tìm thông qua các tài li u và các ñ c t c a chúng và phân tích thư ng xuyên các tiêu ñ tin t c, s d ng các b thu ñư c làm giàu thông qua quá trình trích l c thông tin. th p tin t c – m t d ch v thu th p kho ng t 500 ñ n 2000 ñ u câu Nh ng gì mà quá trình trích l c thông tin truy n th ng ti p chuy n m t ngày t kho ng 20 ngu n tin t c ph bi n toàn c u. c n là cung c p chú thích cho các văn b n tương. Tuy nhiên, ki u chú b. T m hi u bi t và nh n th c – các tài nguyên tin t c và cách gi i này không liên quan ñ n ng nghĩa. M c dù nh ng lo i này bi u th c giao ti p c a con ngư i thông qua các phương ti n di n là quan tr ng ñ i v i các ki u th c th ñư c ñ t tên trong mi n thông tin ñ i chúng ñ c l p, nhưng m t ngư i ñư c ñào t o trung bình có th phân lo i Vi c s d ng các ngu n tin cho vi c làm giàu cơ s tri th c các th c th thành các lo i c th . KIM ñã t o ra nh ng khác bi t to c a KIM có th là m t s l a ch n gây tranh cãi do các ngu n tin l n b ng cách thêm ng nghĩa vào quá trình trích l c thông tin. KIM trên th gi i không bao gi trung l p, mà là m t cách khác xoay liên k t các chú gi i mà nó ñưa ra, không ch là các ñi m c a quá quanh vi c h u h t các tin t c khá thành ki n và khăng khăng ñ n trình phân lo i mà là m t mô hình chính th c v toàn b các mi n m t m c ñ nh t ñ nh mà thay ñ i ph thu c vào ñ t nư c, chính tr , tương ng: các ontology, các logic n i b , các lu t và các quan h . xã h i và chuyên môn c a ngu n tin tương ng, ... Hơn th n a, hư ng ti p c n này cho phép nh n di n các th c th c 2.2.4. Trích l c thông tin trong KIM th di n ra cùng v i chú gi i. 2.2.4.1 Đánh giá quá trình trích l c thông tin trong KIM Quá trình trích l c thông tin trong KIM d a trên n n t ng M c ñ nh, trích l c thông tin trong KIM d a trên t ñi n ng GATE. M t s các thành ph n x lý ngôn ng t nhiên ñư c s d ng nghĩa, phân tích văn b n và các ng pháp so kh p m u. Lý do ñ ñ xác ñ nh t , xác ñ nh t lo i cho t , ... và nh ng thành ph n khác ñánh giá l i corpora c a các th c th ñư c ñ t tên là không có các s ñư c s d ng tr c ti p trong KIM. T ñi n ng nghĩa KIM s tra c u
  10. 18 19 các thành ph n tìm ki m thông qua các bí danh th c th và các ngu n m c không t nó s d ng tr c ti p cơ s tri th c ñ c t th c th mà t v ng khác. Ng pháp so kh p khuôn m u trong GATE ñã ñư c ch ñư c s d ng trong quá trình ph c h i thông tin ñ i v i các truy s a ñ i ñ x lý thông tin l p th c th và cho phép t ng quát hóa các v n có c u trúc. lu t. Các nguyên t c n n t ng là ñơn gi n – m t tham chi u ñ n m t L i ích c a vi c ti n x lý này là: Có th tìm th y tham chi u ñ n th c th c a m t l p c th , có th so kh p m t khuôn m u ñư c ch m t th c th trong văn b n mà không quan tâm ñ n bí danh có ñư c ra v i m t l p t ng quát hơn. s d ng hay không, m c ñ liên quan v i các th c th tương ng là 2.2.5. L p ch m c và khôi ph c thông tin cao hơn. KIM cung c p vi c ñánh ch m c ñ i v i các chú gi i ng Đ chính xác ph c h i thông tin c a KIM v n chưa ñư c nghĩa, ñư c phát sinh cho m t tài li u t c là l p ch m c ñ i v i siêu ñánh giá so v i các c máy ph c h i thông tin truy n th ng, ñây là d li u. Phương pháp l p ch m c này cho phép các phương th c truy m t ch ñ s ñư c nghiên c u trong tương lai. Tuy nhiên, KIM có c p tin t c (ñã ñư c b sung ng nghĩa). Do ñó ngư i dùng có th ch ti m năng ñ th c hi n t t hơn, không ch hư ng t i vi c gi m các tài ñ nh truy v n, bao g m các ràng bu c liên quan ñ n lo i th c th , li u không liên quan trong k t qu trong khi v n ph c h i thông tiên m i quan h gi a các th c th , các thu c tính c a th c th . liên quan (nâng cao ñ chính xác như v i m t h th ng l p ch m c Bư c ñ u tiên trong quá trình l p ch m c là ti n x lý v các th c th ñư c ñ t tên) mà còn hư ng t i vi c tăng s lư ng tài m t ng nghĩa cho m i tài li u s ñư c ñưa vào kho ng li u c a các li u liên quan c a các th c th mà không ch a các bí danh, ñư c s tài li u cho vi c ph c h i thông tin. Quá trình ti n x lý tìm ra các t d ng cho các th c th gi i h n v tên. ng ph thu c ho c các liên k t c a m t ñ nh danh chu i bên trong 2.2.6. Đ u cu i c a KIM duy nh t (m t chú gi i ng nghĩa) t i các thành ph n văn b n mà KIM Server API cho phép xây d ng giao di n ngư i s d ng chúng ta bi t nghĩa c a nó tùy theo các ontology và cơ s tri th c mà ñ u cu i khác nhau. Các ñ u cu i này có th cho phép truy c p ñ y chúng ta s d ng. ñ ñ n các ch c năng c a KIM Server bao g m: tính năng khôi ph c Siêu d li u này ph c v dư i d ng m t con tr ñ n th c th thông tin, kho ng nghĩa, các d ch v chú gi i ng nghĩa, và cơ s h tương ng trong quá trình ph c h i thông tin. Sau ñó ñ n bư c ti p t ng qu n lý tài li u và siêu d li u. M t s ñ u cu i ñã ñư c xây theo: tài li u ñ l p ch m c ñư c g i t i máy l p khôi ph c thông tin d ng s n trong KIM: plug in cho trình duy t (KIM plug in), KIM Lucene cùng v i các chu i ID và m t th t c l p ch m c ñư c th c Web UI, KIM Explorer và Graph View. hi n. Sau ñó chúng ta có th th c hi n vi c tìm ki m s d ng các 2.2.7. Hi u su t chu i ID này dư i d ng m t ch m c. Vi c l p ch m c c a KIM có T c ñ chú gi i ph thu c vào kích thư c c a tài li u và có m t s khác bi t nh so v i l p ch m c văn b n chu n b i vì KIM xu hư ng tr nên ch m hơn v i các tài li u l n v i ñ ph thu c s d ng nh n di n duy nh t các lo i c th . Tuy nhiên, l p l p ch logarit.
  11. 20 21 CHƯƠNG 3 – XÂY D NG NG D NG CHÚ GI I h th ng c a proton ñó là ti p t c m r ng b ng KIMSO. Các b n th NG NGHĨA T Đ NG h c liên quan khác là m t ph n c a h th ng phân ph i. Chúng ta có 3.1. KI N TRÚC T NG TH C A H TH NG CHÚ GI I th thay th , thay ñ i và b sung thêm cơ s tri th c. 3.1.1. Ki n trúc h th ng 3.2.1. PROTON Trong ng d ng th nghi m này, chúng ta xây d ng cơ s tri Proton là m t c p trên c a Ontology ñ nh nghĩa v 300 l p th c, ñ nh nghĩa các Ontology cho KIM s d ng nó ñ chú gi i ng và 100 thu c tính, bao g m h u h t các khái ni m c n thi t cho vi c nghĩa trên Web. chú thích ng nghĩa, l p ch m c, và ph n h i. Proton ñư c chia Các ngu n d li u v các th c th , các l p ñư c thu th p t thành ba phân h : System module ch a m t meta c p vài nguyên Internet ñư c t ng h p. Nh ng thông tin này ñư c GATE qu n lý b n, Top module là mô-ñun cao nh t chung nh t, khái ni m c p, bao n i dung và nh ng chú gi i, sau ñó ñư c s p x p ch m c và lưu tr g m kho ng 20 l p ñ m b o m t s cân b ng t t c a ti n ích ñ c l p, trong h th ng OWLIM. và cách s d ng d hi u, Upper module - hơn 200 l p c a các th c OWLIM cũng cho phép chúng ta c p nh t d li u t ng th , thư ng xu t hi n trong nhi u tên . d ng t o Ontology th ba. V y nhi m v c a chúng ta là t ng h p d KIMSO và KIMLO là mô-ñun tùy ch n m r ng ontology li u t o các Ontology và ñưa vào nên t ng KIM ñ th c hi n chú gi i. proton, m t ph n c a KIM. 3.1.2. Các thành ph n c a h th ng 3.2.2 M r ng Ontology 3.1.2.1. Server KIM Đ tích h p m t ph n m r ng ontology, các l p m i ph i k Server KIM ñư c xây d ng trên n n t ng Java. Sau khi kh i th a http://proton.semanticweb.org/2006/05/protons#Entity m t ñ ng, KIM server ch y d ch v trên máy ch localhost và c ng 1099. cách tr c ti p ho c gián ti p. 3.1.2.2. Popular Import Thi t k t l p k th a t : Công c này cho phép Import các th c th ñư c nh n d ng - http://proton.semanticweb.org/2006/05/protont#Person t các văn b n Text chúng ta thu th p ñư c qua h th ng thông tin. - http://proton.semanticweb.org/2006/05/protont#Organization Các d ng ñ nh d ng cho phép là .DOC, .HTML, .XML, .TXT … - http://proton.semanticweb.org/2006/05/protont#Location 3.1.2.3 RDF import 3.2.3. Gi i thi u Protégé Công c RDF Import cho phép c p nh t các ngu n tài Protégé là m t công c mã ngu n m Java ñư c phát tri n t i nguyên thu nh p ñư c lên các máy ch ch a ñ nh nghĩa các URI. khoa tin h c y h c Stanford. Protégé - OWL là m t trong các công c 3.2 THI T L P KIM ONTOLOGY VÀ CƠ S TRI TH C chính trong Protégé, là m t thư vi n cho ngôn ng Web Ontology KIM 3 d a trên PROTON Ontology phát tri n trong ph m vi (OWL) và RDF(S). Nó cung c p các l p và các phương th c ñ n p ng nghĩa c a d án SEKT. KIM ph thu c hoàn toàn vào mô-ñun và ghi các t p OWL, cung c p kh năng xây d ng các mô hình d
  12. 22 23 li u OWL và th c hi n l p lu n trên DL. Bên c nh ñó nó còn cung c p m t giao di n ñ ho tr c quan, d s d ng. 3.3.3 C u trúc t ng quát và nguyên lý ho t ñ ng C th Protégé- OWL cung c p các kh năng chính sau: 3.3.3.1 C u trúc t ng quát - So n th o các Ontology cho OWL - Duy trì, phát tri n và ki m tra Ontology Tài li u, văn 3.3 THI T K H TH NG b n HTML 3.3.1 Gi i thi u khái quát Lõi ng d ng M u bi u di n ng d ng phân tích các tài li u ho c văn b n qua vi c s T p h p các th c quy chu n th ñư c phát hi n d ng các m u t ng quy chu n và nh n d ng các thành t ng nghĩa tương ñương, chú thích l p t ñ ng cho các th c th có tên trên các T o th c th Các l p trang web theo mi n Ontology ñã ñư c ñ nh nghĩa. Các thành ph n Ontology Mi n chính c a ng d ng s d ng các thư vi n: Ontology - Thư vi n Web ng nghĩa trên Seasame. G n th c th v i thu c tính Suy di n - Thư vi n khôi ph c thông tin Lucence. - Chú gi i ng nghĩa: Nh n d ng các ñ i tư ng chu n hóa trong văn b n. Văn b n ñã chú - Ontology: Chu n hóa các mô hình ñ máy tính hi u ñư c. C u trúc c a công c bao g m 4 ph n: - Bi u di n m u quy chu n: là m t chu i ñ mô t và so kh p Ph n 1: Là các ngu n văn b n ñ u vào như HTML, email, theo m t s quy t c cú pháp. văn b n g c c n ph i ñư c chú gi i. 3.3.2 Phương pháp Ph n 2: Là ñ u ra c a h th ng, ch ng là nh ng th c th ng d ng làm vi c s d ng các văn b n sau khi ñã chuy n Ontology m i tương ng v i nh ng chú gi i văn b n. Thu c tính c a v ñ nh d ng chung, các mi n ñ c bi t ñư c mô t b i mi n các th c th này ñư c làm ñ y b ng cách phát hi n các th c th Ontology s d ng cho vi c chu n hóa m u cho chú gi i ng nghĩa. Ontology thông qua các m u ñư c ñ nh nghĩa. ng d ng s phát hi n các thành t ontology trong ng d ng ho c Ph n 3: Các mi n th c th c th ñư c ñ nh nghĩa, các m u trong mi n hi n hành c a mô hình Ontology. bi u di n quy chu n, th c th k t qu , các tham chi u t bên ngoài. Ph n 4: Lõi công c g m các gi i thu t chính c a công c như : phát hi n, t o chú gi i, g n các th c th v i các chú gi i tương ng t mi n Ontology ñang xét.
  13. 24 25 3.3.3.2 Nguyên lý ho t ñ ng 3.3.5 Xây d ng ontology danh nhân l ch s Vi t Nam Ho t ñ ng c a ng d ng th c hi n tu n t theo các bư c sau: 3.4. CÀI Đ T TH NGHI M 1. N p văn b n c a m t tài li u. 3.4.1. Môi trư ng 2. Xác ñ nh bi u th c quy chu n n u chúng ñư c tìm 3.4.2. Cài ñ t các công c th y tương ng v i các th ontology theo các thu c tính m u, 3.5. K T QU VÀ ĐÁNH GIÁ chúng ñư c b sung vào t p h p các cá th ontology ñư c 3.5.1. K t qu ch y th nghi m tìm th y. 3.5.2. Đánh giá các k t qu ñ t ñư c 3. N u không có cá th ñư c tìm th y b ng phép so Vi c xây d ng h th ng chú gi i ng nghĩa trong Web ng kh p m u thì thu c tính createInstance ñư c thi t l p, m t cá nghĩa làm gi m thi u ñáng k th i gian, sai sót so v i chú gi i b ng th c a m t ki u l p bao g m thu c tính hasClass thì ch tay, ñ c bi t khi mi n ng li u l n và thay ñ i. ñư c t o ra v i thu c tính rfs:label ch a trong văn b n so H th ng cài ñ t th nghi m thành công Server KIM trên kh p. m t server b t kỳ, c p nh t thành công các d li u có s n trên mi n 4. Quá trình trên l p l i cho t t c các bi u th c quy KIM và PROTON ñ ng th i cho phép ñ nh nghĩa mi n d li u và cơ chu n, k t qu là m t t p các cá th ñư c tìm th y. s tri th c riêng. 5. M t cá th c a l p r ng bi u di n cho văn b n g c ng d ng chú gi i ch y trên h th ng Server Apache Tomcat ñư c t o ra và có th t t c các thu c tính c a l p ontology v i các hàm KIM API có s n cho phép th c hi n nhi u ng d ng trên ñư c phát hi n t l p ñ nh nghĩa. n n khác nhau. 6. Cá th ñư c phát hi n ñư c so sánh v i các ki u Hư ng m r ng c a h th ng là cài ñ t nhi u server KIM thu c tính và n u ki u thu c tính là tương t như ki u cá th , khác nhau, k t n i thông qua môi trư ng Java RMI, cho phép nhi u thì th c th ñư c quy cho thu c tính này. ng d ng khác nhau k t n i trên môi trư ng Internet. 7. Vi c so sánh ñư c th c hi n cho t t c các thu c tính c a m t cá th m i tương ng v i các văn b n/tài li u. 3.3.4 Gi i thi u m t s l p quan tr ng trong ng d ng 3.3.4.1 L p SemanticQuery 3.3.4.2 L p SemanticQueryResult 3.3.4.3 L p DocumentQuery 3.3.4.4 L p DocumentQueryResult
  14. 26 K T LU N Lu n văn ñã gi i thi u v th h s p t i c a Web là Web ng nghĩa, trình bày các lý thuy t liên quan ñ n Web ng nghĩa cũng như h th ng chú gi i ng nghĩa. Bên c nh ñó, h th ng qu n lý thông tin và tri th c KIM cũng ñư c tìm hi u và trình bày khá chi ti t giúp chúng ta có th hình thành khung chung cho vi c tri n khai các ng d ng Web ng nghĩa. Đ c bi t ñ i v i Web ng nghĩa dành cho ti ng vi t, vi c x lý tính toán ñòi h i nhi u quy trình ph c t p như lưu tr và truy xu t trên hàng trăm ngàn th c th nhi u lĩnh v c khác nhau, v i các mi n giá tr khác nhau. Vi c k t h p nhi u k thu t, công c h tr là c n thi t. Nó giúp chúng ta gi m thi u ñáng k th i gian và giúp v n hành d dàng hơn v i nhi u h th ng công c khác nhau.Lu n văn cũng ñã xây d ng thành công h th ng chú gi i ng nghĩa t ñ ng giúp ngư i s d ng ti t ki m ñư c nhi u th i gian, công s c và ti n b c. Lu n văn cũng m ra m t hư ng m i trong vi c khám phá tri th c t kho tri th c kh ng l c a nhân lo i trên Internet, ti p c n tri th c theo lĩnh v c mà mình yêu thích. Tuy nhiên, vì th i gian nghiên c u tìm hi u trong th i gian ng n nên lu n văn v n còn t n t i nh ng ñi m y u như lư ng tri th c trong cơ s d li u còn khiêm t n.T nh ng nhìn nh n trên, tác gi cũng m nh d n ñ xu t các hư ng nghiên c u và phát tri n ti p lu n văn trong tương lai như sau: Th nh t, th nghi m trên nhi u b trích l c khác nhau. Th hai, nâng c p giao di n tương tác v i ngư i dùng ñ thu n ti n hơn cho ngư i s d ng. Th ba, tăng lư ng tri th c trong d li u và m r ng ra các lĩnh v c nghiên c u khác.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2