intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương

Chia sẻ: Minh Vũ | Ngày: | Loại File: PDF | Số trang:13

65
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Một số hướng nghiên cứu và ứng dụng" do Lê Thanh Hương cung cấp cho người đọc các nội dung: Web ngữ nghĩa, những gì có thể làm được, các loại ứng dụng, what needs to be done, aggregation Inference example, application patterns,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương

  1. Web ngữ nghĩa MỘT SỐ HƯỚNG NGHIÊN CỨU VÀ † Mục tiêu: phát triển ỨNG DỤNG Ụ các chuẩn chung và công ô nghệệ cho phép é máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu, và tự động hóa các công việc. Hanoi University of Technology – Master 2006 2 Các loại ứng dụng Những gì có thể làm được † Các dạng dữ liệu bán cấu trúc Nếu dữ liệu đầu vào ở dạng RDF, các hàm sau † Các ứngg dụng ụ g mở: thêm các chức năng g mới với có thể thực hiện các loại dữ liệu cũ và mới † Tích hợp nhiều nguồn dữ liệu † Suy diễn để sinh ra thông tin mới † Ví dụ: † Truy vấn để sinh ra kết quả mong muốn „ Quản lý thông tin cá nhân (Chandler) „ Mạng xã hội (FOAF) Các hàm tổng quát „ Tổ chức thông tin (RSS,PRISM) RDF „ Dữ liệu thư viện/bảo tàng (Dublin Core, Core Aggregation, A ti Results Harmony) Inference, Query Input data RDF 3 4 1
  2. Aggregation + Inference = New Knowledge Aggregation + Inference: Example † Building on the success of XML † Consider three datasets, describing: „ Common syntactic framework for data „ vehicles’ passenger capacities representation, supporting use of common tools „ the capacity of some roads „ But, lacking semantics, provides no basis for „ the effect of policy options on vehicle usage automatic aggregation of diverse sources † Aggregation and inference may yield: † RDF: a semantic framework „ passenger transportation capacity of a given „ Automatic aggregation (graph merging) road in response to various policy options gg g „ Inference from aggregated data sources „ using existing open software building blocks generates new knowledge † Domain knowledge from ontologies and inference rules 5 6 What needs to be done? Benefits † Information design † Greater use of off-the-shelf software g † Data-use strategies and inference rules „ reduced development cost and risk † Mechanisms for acquisition of existing data † Re-use of information designs sources „ reduced application design costs; better † Mechanisms for presentation or utilization of information sharing between applications the resulting information † Flexibility „ systems can adapt as requirements evolve † Open access to information making possible new applications 7 8 2
  3. Lots of Tools (not an Recommendation: Low risk approach exhaustive list!) Categories: Some names: † Focus on information requirements † Triple Stores † Jena, AllegroGraph, Mulgara, „ this is unlikely to be wasted effort g † Inference engines † Sesame, flickurl, … † TopBraid Suite, Virtuoso † Start with a limited goal, progress by steps † Converters † environment, Falcon, Drupal 7, „ adapting to evolving requirements is an † Search engines † Redland, Pellet, … advantage of SW technology; if it can do this † Middleware † Disco, Oracle 11g, RacerPro, for large projects it certainly must be able to do † CMS † IODT, Ontobroker, OWLIM, Talis so for early experimental projects † Semantic Web browsers † Platform, … † Use existing open building blocks † Development † RDF Gateway, RDFLib, Open environments i t † Anzo, DartGrid, Zitgist, Ontotext, † Semantic Wikis † Protégé, … † … † Thetus publisher, SemanticWorks, † SWI-Prolog, RDFStore… † … 9 10 Application patterns To “seed” a Web of Data... † It is fairly difficult to “categorize” applications † Data has to be published, ready for integration pp † Some of the application patterns: p pp g † And this is now happening! „ data integration „ Linked Open Data project „ intelligent (specialized) Web sites (portals) with „ eGovernmental initiatives in, eg, UK, USA, improved local search France,... „ content and knowledge organization „ Various institutions publishing their data „ knowledge representation, decision support „ data registries, repositories „ collaboration tools (eg, social network applications) 11 12 3
  4. Linking Open Data Project † Goal: “expose” open datasets in RDF † Set RDF links among g the data items from different datasets † Set up SPARQL Endpoints † Billions triples, millions of “links” 13 14 Extracting structured data from Example data source: DBpedia Wikipedia † DBpedia is a community effort to extract structured (“infobox”) information from Wikipedia † provide a SPARQL endpoint to the dataset † interlink the DBpedia dataset with other datasets on the Web 15 16 4
  5. Automatic links among open Linking Open Data Project datasets (cont) Processors can switch automatically from one to the other… 17 18 Linking Open Data Project (cont) Linked Open eGov Data 19 20 5
  6. Publication of data (with RDFa): London Gazette Publication of data (with RDFa): London Gazette 21 22 Publication of data (with RDFa & SKOS): Library of Publication of data (with RDFa & SKOS): Library of Congress Subject Headings Congress Subject Headings 23 24 6
  7. Publication of data (with RDFa & SKOS):Economics Publication of data (with RDFa & SKOS):Economics Thesaurus Thesaurus 25 26 Using the LOD cloud on an iPhone Using the LOD cloud on an iPhone 27 28 7
  8. Using the LOD cloud on an iPhone You publish the raw data, W3C use it… † Yahoo’s SearchMonkey † Search based results may be customized via small applications † Metadata embedded in pages (in RDFa, eRDF, etc) are reused † Publishers can export extra (RDF) data via other formats 29 30 Google’s rich sniplet Find experts at NASA † Expertise locater for nearly 70,000 NASA civil servants † Embedded metadata (in microformat or RDFa) † over 6 or 7 geographically distributed databases, data is used to improve search result page sources,, and web services… „ at the moment only a few vocabularies are recognized, but that will evolve over the years 31 32 8
  9. Public health surveillance A frequent paradigm: (Sapphire) intelligent portals † Integrated biosurveillance system (biohazards, bioterrorism, disease control, etc) † “Portals” collecting data and presenting them † Integrates multiple data sources to users † new data can be added easily † They can be public or behind corporate firewalls † Portal’s internal organization makes use of semantic data, ontologies „ integration with external and internal data „ better queries, often based on controlled vocabularies or ontologies… 33 34 Help in choosing the right drug regimen Portal to aquatic resources † Help in finding the best drug regimen for a specific case, per patient † Integrate data from various sources (patients, (patients physicians, Pharma, researchers, ontologies, etc) † Data (eg, regulation, drugs) change often, but the tool is much more resistant against change 35 36 9
  10. eTourism: provide personalized itinerary Integration of “social” software data † Internal usage of wikis, blogs, RSS, etc, at EDF † Integration of † ggoal is to manage g the flow of information relevant l tddata t iin Zaragoza (using better RDF and † Items are integrated via ontologies) „ RDF as a unifying format † Use rules on the „ simple vocabularies like SIOC, FOAF, MOAT (all RDF data to public) provide a proper itine a itinerary „ internal data is combined with linked open data like Geonames „ SPARQL is used for internal queries † Details are hidden from end users (via plugins, extra layers, etc) 37 38 Integration of “social” software Improved Search via Ontology data (GoPubMed) † Search results are re-ranked using ontologies † Related terms are highlighted, usable for further search 39 40 10
  11. New type of Web 2.0 “Review Anything” applications † New Web 2.0 applications come every day g to look at Semantic Web as † Some begin possible technology to improve their operation „ more structured tagging, making use of external services „ providing extra information to users „ etc. † Some examples: Twine, Revyu, Faviki, … 41 42 Faviki: social bookmarking, Other application areas come to semantic tagging the fore † Social bookmarking system (a bit like † Content management del.icio.us) but with a controlled set of tags † g Business intelligence „ tags are terms extracted from † Collaborative user interfaces wikipedia/Dbpedia † Sensor-based services „ tags are categorized using the relationships stored in Dbpedia † Linking virtual communities „ tags can be multilingual, DBpedia providing the † Grid infrastructure linguistic bridge † Multimedia data management † The tagging process itself is done via a user † Etc interface hiding the complexities 43 44 11
  12. CEO guide for SW: the “DON’T- CEO guide for SW: the “DO-s” s” † Start small: Test the Semantic Web waters with a pilot † Go it alone: The Semantic Web is complex, and it's best project […] before investing large sums of time and to get help. money. money † Forget privacy: Just because you can gather and † Check credentials: A lot of systems integrators don't correlate data about employees doesn’t mean you really have the skills to deal with Semantic Web should. Set usage guidelines to safeguard employee technologies. Get someone who‘s savy in semantics. privacy. † Expect training challenges: It often takes people a † Expect perfection: While these technologies will help while to understand the technology. […] you find and correlate information more quickly, they’re † Find an ally: It can be hard to articulate the potential far from perfect. Nothing can help if data are unreliable benefits so find someone with a problem that can be benefits, in the first place. solved with the Semantic Web and make that person a † Be impatient: One early adopter at NASA says that the partner. potential benefits can justify the investments in time, money, and resources, but there must be a multi-year commitment to have any hope of success 45 46 Web ngữ nghĩa Web ngữ nghĩa † Nghiên cứu về Web ngữ nghĩa: † SWAD: làm thế nào để nhúng ngữ nghĩa một „ Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu cách tự động vào các tài liệu Web? (XML) và siêu dữ liệu (RDF) trên Web. ¾ trích tự động ngữ nghĩa của mỗi tài liệu Web „ Chuẩn hoá các ngôn ngữ biểu diễn Ontology ¾ Chuyển sang các mẫu chung sử dụng ngôn ngữ cho Web có ngữ nghĩa. web ngữ nghĩa „ Phát triển nâng cao Web có ngữ nghĩa ‰ Việc tìm kiếm hiệu quả hơn. (Semantic Web Advanced Development - ‰ Ví dụ: tìm thành phố Sài Gòn: trả về các tài liệu SWAD). có TP.HCM hoặc Sài Gòn như một thành phố, chứ không phải các tài liệu chứa từ “Sài Gòn” như trong “Đội bóng Cảng Sài Gòn”, “Xí nghiệp may Sài Gòn”, hay “Cty Saigon Tourist”. 47 48 12
  13. KIM - Knowledge and Information Management VN-KIM † KIM của Ontotext Lab, Bulgaria † CSTT được xây dựng trên nền của Sesame, m㠄 Trích rút thông tin từ các tin tức quốc tế nguồn mở quản lý tri thức theo RDF „ Ontology có ~250 lớp, 100 thuộc tính. † Các tài liệu Web có chú thích ngữ nghĩa được „ CSTT có ~ 80,000 thực thể về các nhân vật, đánh chỉ mục và quản lý bằng mã nguồn mở thành phố, công ty, và tổ chức Lucene(mã nguồn mở bằng Java, cung cấp các † VN-KIM: trích rút thực thể trong các trang báo chức năng truy vấn hiệu quả) điện tử tiếng Việt, bao gồm: † Khối trích rút thông tin tự độngđược phát triển dựa „ CSTT về các nhân vật, ậ , tổ chức,, núi non,, sông g trên GATE ngòi, và địa điểm phổ biến ở Việt Nam. † Tham khảo: „ Khối trích rút thông tin tự động http://www.dit.hcmut.edu.vn/~tru/VN- „ Khối tìm kiếm thông tin và các trang Web về các KIM/index.htm thực thể 49 50 Where are we now? † Semantic Web is new technology „ about 10 years after the original WWW † Many applications are experimental † The goals may be inevitable... „ Applications working together with users’ information, not owning it „ drawing background knowledge from the Web p „ less dependence on hand-coded bespoke p software † … but the particular technology is not 51 13
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2