intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Nghiên cứu và triển khai linked data cho các ứng dụng web ngữ nghĩa

Chia sẻ: Bình Bình | Ngày: | Loại File: PDF | Số trang:14

58
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này trình bày các khái niệm và các kỹ thuật nền tảng của Linked Data, mô tả cách xuất bản Linked Data lên Web. Phần cuối đưa ra ví dụ minh họa việc xuất bản Linked Data và liên kết đến các nguồn dữ liệu khác trên Web.

Chủ đề:
Lưu

Nội dung Text: Nghiên cứu và triển khai linked data cho các ứng dụng web ngữ nghĩa

TẠP CHÍ KHOA HỌC, Đại học Huế, Số 65, 2011<br /> NGHIÊN CỨU VÀ TRIỂN KHAI LINKED DATA<br /> CHO CÁC ỨNG DỤNG WEB NGỮ NGHĨA<br /> Lê Thị Thanh Tâm, Trường Cao đẳng Công nghiệp Huế<br /> Hoàng Hữu Hạnh, Lê Mạnh Thạnh<br /> Đại học Huế<br /> <br /> TÓM TẮT<br /> Web ngữ nghĩa là xu thế phát triển trong việc biểu diễn dữ liệu để khắc phục các hạn<br /> chế của Web hiện tại và hướng đến một thế hệ Web đáp ứng tốt hơn nhu cầu của con người và<br /> các ứng dụng. Linked Data là thuật ngữ chỉ cách thức liên kết các nguồn dữ liệu trên Web hay<br /> đơn giản là sử dụng Web để kết nối các dữ liệu từ nhiều nguồn khác nhau, là một trong những<br /> cách tạo dựng nền tảng cho Web ngữ nghĩa. Vấn đề đặt ra là làm sao để chúng ta có thể chia sẻ<br /> các dữ liệu trên Web dễ dàng như chia sẻ các tài liệu trên Web ngày nay. Bài báo này trình bày<br /> các khái niệm và các kỹ thuật nền tảng của Linked Data, mô tả cách xuất bản Linked Data lên<br /> Web. Phần cuối đưa ra ví dụ minh họa việc xuất bản Linked Data và liên kết đến các nguồn dữ<br /> liệu khác trên Web.<br /> <br /> 1. Giới thiệu<br /> Mặc dù Web đã mang lại những lợi ích to lớn cho đến tận hôm nay. Tuy nhiên,<br /> những công nghệ đó chỉ áp dụng cho Web của tài liệu như hiện tại mà không thể áp<br /> dụng cho một thế hệ Web mới, Web dữ liệu (Web of Data). Thông thường, dữ liệu được<br /> xuất bản lên Web đã được định sẵn dưới dạng thô XML hay bằng HTML, mà bỏ qua<br /> nhiều cấu trúc và ngữ nghĩa của nó, dẫn đến thông tin thu được thiếu chính xác và đầy<br /> đủ. Trong Web siêu văn bản, tính tự nhiên của các mối quan hệ giữa hai tài liệu liên kết<br /> không rõ ràng vì định dạng dữ liệu HTML không hiệu quả khi biểu diễn các hạng mục<br /> riêng biệt được mô tả trong một tài liệu cụ thể và kết nối bởi liên kết định kiểu đến các<br /> mục liên quan. [1, 3]<br /> Xuất phát từ ý tưởng của Tim Berner-Lee năm 1998: “Web ngữ nghĩa không chỉ<br /> đưa dữ liệu lên Web. Nó còn là những liên kết để người hay máy có thể duyệt được dữ<br /> liệu trên Web. Với các dữ liệu được liên kết, khi bạn có một vài thứ bạn có thể tìm thấy<br /> những dữ liệu khác liên quan” [3]. Vấn đề đặt ra là làm sao để chúng ta có thể chia sẻ<br /> các dữ liệu (có cấu trúc) trên web dễ dàng như chia sẻ các tài liệu trên web ngày nay.<br /> Thuật ngữ Linked Data được Tim Berner-Lee đưa ra trong các ghi chép về kiến<br /> trúc Linked Data Web của mình. Thuật ngữ này chỉ cách thức (kiểu) để xuất bản và liên<br /> kết các dữ liệu có cấu trúc trên web. Giả định cơ bản của Linked Data là lợi ích và giá<br /> trị của dữ liệu tăng lên khi nó được liên kết với các dữ liệu khác [3, 9].<br /> 179<br /> <br /> Trong khi thành phần chính của Web hiện nay (hay còn gọi là web siêu liên kết)<br /> là tài liệu HTML được kết nối bởi các siêu liên kết không định kiểu (không xác định<br /> kiểu dữ liệu hay kiểu quan hệ), Linked Data dựa vào tài liệu chứa dữ liệu dạng RDF<br /> [19]. Tuy nhiên, tốt hơn các tài liệu kết nối đơn giản, Linked Data sử dụng RDF để làm<br /> các câu định kiểu liên kết các tài nguyên trong thế gới thực. Kết quả, những gì chúng ta<br /> tham chiếu trong Web của dữ liệu, có thể thực sự được mô tả như trong thế giới thực<br /> (Web of things), được mô tả bởi dữ liệu trên Web. [7, 8]<br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Liên kết<br /> <br /> Liên kết<br /> <br /> A<br /> <br /> B<br /> <br /> Liên kết<br /> <br /> C<br /> <br /> Liên kết<br /> <br /> D<br /> <br /> E<br /> <br /> Hình 1. Mô hình liên kết dữ liệu trong Web ngữ nghĩa<br /> <br /> 2. Một số khái niệm và thuật ngữ<br /> 2.1. Các nguyên lý của Linked Data<br /> Tim Berner Lee đã đưa ra 4 nguyên lý cơ bản của Linked Data như sau [3,7,11]:<br /> -<br /> <br /> Dùng URI để đặt tên cho mọi thứ, không chỉ là các tài liệu;<br /> <br /> -<br /> <br /> Sử dụng HTTP URI để tìm kiếm tên tài nguyên;<br /> <br /> -<br /> <br /> Khi tìm kiếm phải cung cấp thêm các thông tin hữu ích, sử dụng các kỹ thuật<br /> đã được chuẩn hóa (RDF, SPARQL);<br /> <br /> -<br /> <br /> Có những liên kết đến URI khác cho phép khám phá thêm những tài nguyên<br /> (tri thức) khác.<br /> <br /> Linked Data sử dụng mô hình dữ liệu RDF để xuất bản dữ liệu có cấu trúc trên<br /> Web và sử dụng liên kết RDF để kết nối các dữ liệu từ nhiều nguồn dữ liệu khác nhau.<br /> Điều đó tạo ra các nguồn dữ liệu chung trên Web nơi mà các cá nhân hay tổ chức có thể<br /> đưa dữ liệu lên hay sử dụng dữ liệu về bất cứ thứ gì [2, 8].<br /> 2.2. Tài nguyên<br /> Để xuất bản dữ liệu trên Web, đầu tiên chúng ta phải đặt tên hay định danh các<br /> thứ quan tâm trong lĩnh vực của ứng dụng. Khi mô tả chúng, ta cần quan tâm đến các<br /> thuộc tính và mối quan hệ của chúng với những thứ khác. Trong thuật ngữ của kiến trúc<br /> Web, tất cả các thứ quan tâm được gọi là tài nguyên [8].<br /> 180<br /> <br /> Có hai loại tài nguyên là tài nguyên thông tin và tài nguyên phi thông tin (tài<br /> nguyên thế giới thực hay còn gọi là thực thể thế giới thực) [8]. Tất cả tài nguyên trong<br /> Web tài liệu như các tệp tài liệu, hình ảnh và các tệp phương tiện khác đều là tài nguyên<br /> thông tin. Nhưng nhiều thứ mà chúng ta muốn chia sẻ dữ liệu thì không phải chẳng hạn<br /> như con người, sản phẩm vật lý, nơi chốn, chất đạm, các khái niệm khoa học, v.v…<br /> Tóm lại, tất cả các đối tượng thế giới thực tồn tại bên ngoài Web là các tài nguyên phi<br /> thông tin [8].<br /> 2.3. Định danh tài nguyên<br /> Tài nguyên được định danh bằng URI (Uniform Resource Identifier - định danh<br /> tài nguyên đồng nhất). URI là một chuỗi các ký tự dùng để định danh tài nguyên trên<br /> Internet. Những dịnh danh này có khả năng tương tác với sự biểu diễn của tài nguyên<br /> trên mạng sử dụng giao thức cụ thể và phổ biến nhất là HTTP, do đó, thường gọi là lược<br /> đồ HTTP URI [15, 18].<br /> 2.4. Biểu diễn tài nguyên<br /> Tài nguyên thông tin có sự biểu diễn (hiển thị). Một biểu diễn là chuỗi các byte<br /> trong một định dạng cứng như HTML, RDF, XML hay JPEG. Ví dụ: hóa đơn là một tài<br /> nguyên thông tin, nó có thể được biểu diễn như một trang HTML, một tài liệu PDF in<br /> được hay một tài liệu RDF. Một tài nguyên thông tin đơn có thể có nhiều biểu diễn khác<br /> nhau, như định dạng khác nhau về chất lượng phân giải hay ngôn ngữ tự nhiên. Tài<br /> nguyên phi thông tin không thể được biểu diễn một cách trực tiếp từ URI mà phải thông<br /> qua một tài nguyên thông tin biểu diễn mô tả của chúng [8, 15].<br /> Định danh tài nguyên (URI)<br /> ID<br /> Ứng dụng Web ngữ nghĩa<br /> <br /> Trình duyệt Web<br /> <br /> RDF<br /> <br /> HTML<br /> <br /> URI tài liệu RDF<br /> <br /> URI tài liệu HTML<br /> <br /> Hình 2. Mối quan hệ giữa một tài nguyên và sự biểu diễn nó<br /> <br /> Có hai dạng mẫu HTTP URI để định danh URI là Hash URI (sử dụng phân đoạn #)<br /> và Slash URI (sử dụng dấu / ) để tách việc định danh với sự biểu diễn tài nguyên [8, 15].<br /> 2.4.1. Bí danh URI<br /> Trong một môi trường mở như Web thì thường xảy ra vấn đề nhiều người cung<br /> cấp những thông tin khác nhau cùng chỉ đến một tài nguyên phi thông tin, ví dụ như vị<br /> trí địa lý hay các nhân vật nổi tiếng. Vì họ không biết về nhau nên họ đưa ra những URI<br /> khác nhau cho cùng một đối tượng thế giới thực. Các URI tham chiếu đến cùng một tài<br /> 181<br /> <br /> nguyên phi thông tin, chúng được gọi là các bí danh.<br /> 2.4.2. Tham chiếu URI<br /> Tham chiếu URI hay tham chiếu tài nguyên là tiến trình tìm kiếm một URI trên<br /> Web để lấy thông tin về tài nguyên được tham chiếu [8].<br /> Với tài nguyên thông tin, khi một URI định danh của một tài nguyên thông tin<br /> được tham chiếu, máy chủ của URI đó thường sẽ sinh ra một biểu diễn mới, một hình<br /> ảnh chụp nhanh về trạng thái hiện tại của tài nguyên thông tin và gửi trở lại máy trạm<br /> dùng giao thức HTTP [8, 9, 15].<br /> Tài nguyên phi thông tin không thể được tham chiếu trực tiếp. Vì vậy, kiến trúc<br /> Web sử dụng một bí quyết để làm cho URI định danh các tài nguyên phi thông tin được<br /> tham chiếu. Thay vì gửi một biểu diễn của tài nguyên, máy chủ gửi đến máy trạm một<br /> tài nguyên thông tin mô tả tài nguyên phi thông tin sử dụng mã HTTP 303 See Other.<br /> Điều này gọi là chuyển tiếp 303 (redirect). Bước thứ 2, máy trạm sẽ tham chiếu đến<br /> URI mới này và lấy thông tin mô tả biểu diễn tài nguyên phi thông tin [15].<br /> 3. Xuất bản Linked Data<br /> Web ngữ nghĩa đã tạo nên một lớp ứng dụng mới sử dụng công nghệ Web ngữ<br /> nghĩa và gọi là các ứng dụng Web ngữ nghĩa [8, 13, 15]. Linked Data là cách thức liên<br /> kết dữ liệu trên Web. Vậy để tạo nên ứng dụng Linked Data, cần tìm hiểu cách xuất bản<br /> Linked Data lên Web như thế nào.<br /> Trình duyệt Linked<br /> Data<br /> <br /> Ứng dụng Linked<br /> Data<br /> <br /> Máy tìm kiếm Linked<br /> Data<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Tài nguyên<br /> <br /> Liên kết<br /> <br /> A<br /> <br /> Liên kết<br /> <br /> B<br /> <br /> Liên kết<br /> <br /> C<br /> <br /> Liên kết<br /> <br /> D<br /> <br /> E<br /> <br /> Hình 3. Ứng dụng Web ngữ nghĩa sử dụng Linked Data<br /> <br /> Các ứng dụng Web ngữ nghĩa sử dụng Linked Data đều cần xuất bản dữ liệu lên<br /> Web. Sau đây là tiến trình chung cho việc xuất bản dữ liệu lên Web theo nguyên lý<br /> Linked Data.<br /> 182<br /> <br /> 3.1. Chuẩn bị dữ liệu<br /> Bước đầu tiên để xuất bản Linked Data là chuẩn bị dữ liệu cho ứng dụng. Dữ<br /> liệu của ứng dụng chính là các tài nguyên trên Web, do đó chuẩn bị dữ liệu trước hết<br /> chính là việc thiết kế không gian tên URI cho tập dữ liệu, có thể hiểu đó là cách tạo ra<br /> URI cho dữ liệu của ứng dụng. Và sau đó sẽ tạo mới hoặc chọn để sử dụng lại các bộ từ<br /> vựng có sẵn [8, 15].<br /> TIẾN TRÌNH XUẤT BẢN LINKED DATA<br /> <br /> Chuẩn bị dữ liệu<br /> Tạo và sinh liên kết<br /> Xuất bản dữ liệu<br /> Kiểm thử và gỡ lỗi<br /> Hình 4. Tiến trình xuất bản Linked Data lên Web<br /> <br /> 3.2. Chọn URI<br /> Có hai mẫu HTTP URI dùng để định danh cho đối tượng là slash URI và hash<br /> URI. Vậy có thể chọn một trong hai mẫu HTTP URI để xác định các thực thể trong ứng<br /> dụng. Cả hai mẫu này đều đảm bảo rằng các máy trạm có thể phân biệt giữa URI xác<br /> định thực thể thế giới thực và URI định danh tài liệu Web mô tả những thực thể thế giới<br /> thực tức là tài nguyên thông tin và tài nguyên phi thông tin. Một số tiêu chí thông<br /> thường được đưa ra cho việc định danh đối tượng như sau:<br /> -<br /> <br /> Đặt tên dễ nhớ, ngắn gọn.<br /> <br /> -<br /> <br /> Định danh trong không gian tên của mình. (Tên miền có thể chính là không<br /> gian tên).<br /> <br /> -<br /> <br /> Quan tâm đến tính mềm dẻo và nhất quán của URI vì việc thay đổi URI sẽ<br /> làm vỡ các liên kết đã thiết lập.<br /> <br /> Tài nguyên thông tin thì thường có một địa chỉ Web cụ thể để biểu diễn. Nhưng<br /> một tài nguyên phi thông tin thì không. Một tài nguyên phi thông tin cần xác định 3<br /> định danh URI liên quan:<br /> -<br /> <br /> 1 định danh cho tài nguyên.<br /> <br /> -<br /> <br /> 1 định danh cho tài nguyên thông tin mô tả tài nguyên đó phù hợp cho trình<br /> 183<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2