intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN

Chia sẻ: Japet75 Japet75 | Ngày: | Loại File: PDF | Số trang:0

132
lượt xem
28
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tìm kiếm thông tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong bối cảnh bùng nổ thông tin như hiện nay, gồm có sự ra đời của internet và sáng kiến về thư viện điện tử, nhu cầu tìm kiếm thông tin lại càng phát triển. Nhưng nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này một cách dễ dàng. Thật vậy, có rất nhiều hệ thống tìm kiếm thông tin (Information Retrieval system hay IR system) trên máy tính đang tồn tại để trợ giúp con người....

Chủ đề:
Lưu

Nội dung Text: Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN

  1. TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHÓA 2001 - 2005
  2. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nhận của GVPB Trang 2
  3. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin ĐỀ CƯƠNG CHI TIẾT Thông tin chung về đề tài: Tên đề tài: Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin GVHD: Tiến sĩ Hồ Bảo Quốc Sinh viên thực hiện: 1. MSSV: 0112385 Họ và tên: Tsàn Quế Hương 2. MSSV: 0112387 Họ và tên: Võ Hồ Bảo Khanh Tóm tắt nội dung luận văn: Đề tài gồm 2 phần : 1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng một bảng đánh giá bằng thủ công 2.Xây dựng một hệ thống chương trình trợ giúp việc đánh giá các hệ thống tìm kiếm thông tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm thông tin ; các thành phần đầu ra : kết quả truy vấn, kết quả đánh giá, nội dung tập tài liệu, câu truy vấn Một số từ khóa chính liên quan đến nội dung đề tài: Đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) Lĩnh vực áp dụng: Đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài _ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) _ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text REtrieval Conference) _ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier… _ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt Trang 3
  4. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin _ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux, chương trình viết bằng ngôn ngữ Java Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài Borland Jbuider X Visual Studio . NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point Xác nhận của GVHD Trang 4
  5. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Lời cám ơn  Chúng em xin chân thành cảm ơn các Thầy Cô Khoa Công nghệ Thông tin đã hướng dẫn và giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em. Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hội cho chúng em được nghiên cứu học hỏi về lĩnh vực tìm kiếm thông tin bằng Tiếng Việt, một lĩnh vực tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thống tìm kiếm thông tin”. Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ chúng em để hoàn thành tốt đề tài luận văn này. Nhóm sinh viên thực hiện Tsàn Quế Hương – Võ Hồ Bảo Khanh Trang 5
  6. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin MỤC LỤC MỞ ĐẦU ............................................................................................................ 10 Chương 1 : TỔNG QUAN ................................................................................. 13 1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin ........................13 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin ......................................14 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin........................14 1.2.2. Các tiêu chuẩn được dùng để đánh giá .........................................................15 1.2.3. Các mô hình đánh giá...................................................................................15 1.2.4. Các độ đo dùng để đánh giá .........................................................................18 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá ............................18 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn.............................................20 1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về .............................21 Chương 2 : CƠ SỞ LÝ THUYẾT....................................................................... 22 2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin.......................................22 2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin...........................22 2.1.2. Hệ thống tìm kiếm thông tin.........................................................................25 2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin .............................................25 2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thông tin............................25 2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines) ...........................27 2.1.3. So sánh tìm kiếm thông tin cổ điển và tìm kiếm thông tin trên Web .............29 2.1.4. So sánh tìm kiếm thông tin với tìm kiếm dữ liệu ..........................................30 2.1.5. Công thức trừu tượng trong tìm kiếm thông tin ............................................31 2.1.6. Các mô hình tìm kiếm thông tin cổ điển để sắp thứ tự liên quan ...................32 2.1.6.1. Mô hình Đại số Bool .............................................................................32 2.1.6.2. Mô hình không gian vec-tơ....................................................................33 2.2. Đánh giá các hệ thống tìm kiếm thông tin ...........................................................36 2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thông tin ......................................36 2.2.2. Mô hình đánh giá hướng hệ thống ................................................................37 2.2.2.1. Từ Cranfield đến TREC ........................................................................37 2.2.2.2. Thủ tục đánh giá....................................................................................39 2.2.2.3. Đánh giá sự liên quan............................................................................40 2.2.3. Thực hiện đo khả năng tìm kiếm ..................................................................41 2.2.3.1. Các khái niệm về độ đo và liên quan .....................................................41 2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P)........................................42 2.2.3.3. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ 44 2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .....................44 2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP...................................45 2.2.3.3.3. Đường cong RP cho tập truy vấn ....................................................47 2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị ......................48 2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu ......................................................49 2.2.3.4.1. Các độ liên quan .............................................................................49 2.2.3.4.2. Các vấn đề về độ liên quan .............................................................49 2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ ..........................................51 2.2.3.4.4. Phương pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên quan nhiều cấp độ ..........................................................................................53 Trang 6
  7. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin 2.2.4. TREC và đánh giá theo chuẩn TREC ...........................................................54 2.2.4.1. TREC là gì? ..........................................................................................54 2.2.4.2. Cách xây dựng ngữ liệu của TREC........................................................56 2.2.4.2.1. Xây dựng tập hợp các tài liệu..........................................................57 2.2.4.2.2. Xây dựng các chủ đề.......................................................................57 2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn........................................58 2.3. Ngữ liệu tiếng Việt .............................................................................................59 2.3.1. Từ................................................................................................................60 2.3.1.1. Quan niệm về từ....................................................................................60 2.3.1.2. Quan niệm về hình vị ............................................................................61 2.3.1.3. Khái niệm về cấu tạo từ.........................................................................61 2.3.2. Ranh giới từ .................................................................................................62 Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT ................................................................. 63 3.1. Xây dựng bộ ngữ liệu dùng để đánh giá ..............................................................63 3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt ........................................................63 3.1.1.1. Chuẩn hóa ngữ liệu ...............................................................................63 3.1.1.1.1. Chuẩn hóa dạng ngữ liệu ................................................................63 3.1.1.1.2. Định dạng ngữ liệu .........................................................................64 3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt...........................................................64 3.1.3. Tách từ tiếng Việt ........................................................................................65 3.1.4. Xây dựng bảng đánh giá...............................................................................65 3.1.4.1. Hệ thống SMART .................................................................................66 3.1.4.1.1. Giới thiệu hệ thống SMART...........................................................66 3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART ......................................66 3.1.4.1.3. Mô hình vec-tơ của hệ thống SMART ............................................67 3.1.4.1.4. Sử dụng mô hình vec-tơ..................................................................69 3.1.4.2. Hệ thống Search4Vn .............................................................................73 3.1.4.3. Hệ thống TERRIER ..............................................................................73 3.1.4.4. Hệ thống X-IOTA .................................................................................74 3.1.4.5. Hệ thống LUCENE ...............................................................................74 3.2. Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin ..............................74 3.2.1. Mô tả hệ thống trợ giúp đánh giá..................................................................74 3.2.1.1. Phát biểu bài toán..................................................................................74 3.2.1.2. Mục tiêu................................................................................................75 3.2.1.3. Phạm vi .................................................................................................75 3.2.1.4. Chức năng .............................................................................................75 3.2.1.5. Tính khả dụng .......................................................................................76 3.2.1.6. Hiệu suất ...............................................................................................76 3.2.1.7. Tính bảo mật .........................................................................................76 3.2.2. Phân tích hệ thống đánh giá..........................................................................76 3.2.2.1. Chức năng của hệ thống ........................................................................76 3.2.2.2. Chức năng yêu cầu ................................................................................77 3.2.2.2.1. Chức năng đánh giá một hệ thống IR ..............................................77 3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR .............................................77 3.2.2.2.3. Sơ đồ use case ................................................................................77 3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase .....................................................79 Trang 7
  8. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin 3.3. Thiết kế hệ thống đánh giá ..................................................................................86 3.3.1. Các chức năng của chương trình...................................................................86 3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu” ........................................86 3.3.1.2. Chức năng “Định dạng kết quả trả về”...................................................86 3.3.1.3. Chức năng “Định dạng file index”.........................................................87 3.3.1.4. Chức năng “Thực thi hệ thống IR” ........................................................87 3.3.1.5. Chức năng “Xử lý kết quả trả về” ..........................................................87 3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”.................................................87 3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”..............................................87 3.3.2. Thiết kế hệ thống .........................................................................................88 3.3.2.1. Sơ đồ kiến trúc tổng thể.........................................................................88 3.3.2.1.1. Danh sách các lớp đối tượng...........................................................88 3.3.2.1.2. Lớp đối tượng thể hiện....................................................................88 3.3.2.1.3. Lớp đối tượng xử lý........................................................................91 3.3.2.1.4. Lớp đối tượng lưu trữ .....................................................................99 3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình ............99 3.3.2.2.1. Chức năng “Định dạng tài liệu” ......................................................99 3.3.2.2.2. Chức năng “Định dạng câu hỏi”.................................................... 100 3.3.2.2.3. Chức năng “Thực thi hệ thống” .................................................... 101 3.3.2.2.4. Chức năng “Định dạng kết quả”.................................................... 102 3.3.2.2.5. Chức năng “Định dạng file index” ................................................ 103 3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” ...................... 103 3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” ................ 104 3.3.2.3. Thiết kế dữ liệu – tổ chức lưu trữ......................................................... 105 3.3.2.3.1. Mô hình dữ liệu ............................................................................ 105 3.3.2.3.2. Sơ đồ logic dữ liệu........................................................................ 107 3.3.2.4. Tố chức lưu trữ dữ liệu........................................................................ 110 3.3.2.4.1. System.......................................................................................... 110 3.3.2.4.2. Topic ............................................................................................ 112 3.3.2.4.3. Index_topic................................................................................... 113 3.3.2.4.4. Document ..................................................................................... 114 3.3.2.4.5. Index_Doc.................................................................................... 115 3.3.2.4.6. relevant_TT.................................................................................. 115 3.3.2.4.7. relevant_LT .................................................................................. 116 3.3.2.4.8. evaluation..................................................................................... 117 3.3.2.5. Thiết kế giao diện................................................................................ 119 3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình ................................................... 119 3.3.2.6. Thiết kế màn hình................................................................................ 122 3.3.2.6.1. Màn hình chính (TH_Main) .......................................................... 122 3.3.2.6.2. Màn hình định dạng tài liệu (TH_DDTaiLieu) .............................. 122 3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) .................. 124 3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi).............................. 125 3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) .................. 127 3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR.......................... 128 3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) .............................. 129 3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua).............................. 130 Trang 8
  9. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin 3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex)..................... 131 3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia)........................... 133 3.3.2.6.11. Màn hình xem đồ thị của hệ thống .............................................. 136 3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) ................................... 136 3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) .............................. 138 3.3.2.7. Thiết kế hệ thống lớp đối tượng........................................................... 139 3.3.2.7.1. Các lớp đối tượng xử lý ................................................................ 139 3.3.2.7.2. Các lớp đối tượng lưu trữ.............................................................. 169 Chương 4 : KẾT QUẢ ĐÁNH GIÁ .................................................................. 171 4.1. Ngưỡng đánh giá .............................................................................................. 171 4.2. Đánh giá hệ thống tìm kiếm thông tin search4VN ............................................. 171 4.3. So sánh hệ thống tìm kiếm search4VN và hệ thống Lucene............................... 177 4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thông tin .................. 179 4.4.1. Ưu điểm..................................................................................................... 179 4.4.2. Khuyết điểm .............................................................................................. 179 Chương 5 : KẾT LUẬN .................................................................................... 181 Chương 6 : HƯỚNG PHÁT TRIỂN.................................................................. 182 PHỤ LỤC ......................................................................................................... 183 Tài liệu tham khảo .......................................................................................... 186 Trang 9
  10. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin MỞ ĐẦU Tìm kiếm thông tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong bối cảnh bùng nổ thông tin như hiện nay, gồm có sự ra đời của internet và sáng kiến về thư viện điện tử, nhu cầu tìm kiếm thông tin lại càng phát triển. Nhưng nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này một cách dễ dàng. Thật vậy, có rất nhiều hệ thống tìm kiếm thông tin (Information Retrieval system hay IR system) trên máy tính đang tồn tại để trợ giúp con người. Tuy nhiên, khả năng tìm kiếm thông tin của các hệ thống này chắc chắn khác nhau. Do đó, việc đánh giá các hệ thống tìm kiếm thông tin (Evaluation of Information Retrieval systems) là một nhu cầu không thể thiếu nhằm xác định các hệ thống tìm kiếm thông tin hiệu quả. Việc đánh giá này có ý nghĩa rất lớn đối với sự tồn tại và phát triển của các hệ thống tìm kiếm thông tin. Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ thống để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm kiếm thông tin vào trong thế giới thực của đời sống. Chẳng hạn, khi các hệ thống tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại diện bán hàng của các sản phẩm thông tin mới như sách điện tử, và các phương tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho những người sử dụng và người mua hàng tiềm năng các lợi thế cạnh tranh hay không, sẽ được thỏa mãn nhu cầu thông tin này một cách dễ dàng, chính xác. Khả năng tìm kiếm của hệ thống tìm kiếm thông tin chúng tôi vừa đề cập được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm kiếm và không gian lưu trữ hay còn gọi là hiệu năng; thứ hai là về khả năng tìm Trang 10
  11. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin kiếm hay hiệu quả của kết quả trả về; thứ ba là khả năng về hệ thống tức hệ thống có thỏa mãn nhu cầu thông tin của người dùng hay không. Hiện nay, trên thế giới đã có rất nhiều hệ thống đánh giá các hệ thống tìm kiếm thông tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thông tin tiếng Anh, tiếng Pháp. Đối với tiếng Việt, theo chúng tôi được biết, chưa có một hệ thống nào được dùng để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Nhưng theo xu hướng phát triển của đất nước và nhu cầu tìm kiếm thông tin thì các hệ thống tìm kiếm thông tin tiếng Việt bắt buộc phải tồn tại và phát triển. Vì vậy, Việt Nam chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các hệ thống tìm kiếm thông tin tiếng Việt. Do ý nghĩa to lớn của lĩnh vực nghiên cứu đánh giá này, chúng tôi đã quyết định chọn đề tài đánh giá các hệ thống tìm kiếm thông tin. Chúng tôi nghĩ rằng hệ thống đánh giá của chúng tôi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm thông tin, nhất là hệ thống tìm kiếm thông tin tiếng Việt. Chúng tôi cũng hy vọng hệ thống của chúng tôi sẽ góp phần vào sự phát triển của các hệ thống tìm kiếm thông tin, của tìm kiếm thông tin và của công nghệ thông tin nước ta. Thực hiện đánh giá khả năng tìm kiếm, chúng tôi tập trung vào đánh giá hiệu quả của kết quả tìm kiếm được trả về (cấp độ thứ hai trong khả năng tìm kiếm của hệ thống thông tin ở trên). Hiệu quả của kết quả trả về được định nghĩa là khả năng hệ thống tìm kiếm thông tin tìm được các tài liệu liên quan (Relevant Documents) và loại bỏ đi những tài liệu không liên quan (Irrelevant Documents). Đây là mô hình hướng hệ thống trong nghiên cứu tìm kiếm thông tin. Mô hình này mô hình đánh giá được sử dụng nhiều nhất và hiệu quả nhất trên thế giới. Và để xây dựng hệ thống đánh giá các hệ thống tìm kiếm thông tin tiếng Việt theo mô hình hướng hệ thống, trước hết, chúng tôi cần phải xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt (a Vietnamese Test collection). Bộ ngữ liệu dùng để đánh giá gồm có kho ngữ liệu mẫu bằng tiếng Việt (a Vietnamese Trang 11
  12. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Corpus hay a set of Vietnamese documents), tập câu truy vấn mẫu bằng tiếng Việt (a set of Vietnamese queries), và bảng đánh giá liên quan chuẩn (Relevance Judgment). Chúng tôi tìm hiểu và thực hiện xây dựng bộ ngữ liệu dùng để đánh giá theo tiêu chuẩn của Hội nghị về Tìm kiếm thông tin Văn bản (Text REtrieval Conference hay TREC) của Hoa Kỳ, một trong những Hội nghị hàng đầu trên thế giới về Tìm kiếm Thông tin. Tiếp theo, chúng tôi xây dựng chương trình trợ giúp đánh giá các hệ thống tìm kiếm thông tin, cho phép người dùng thao tác, thực hiện đánh giá các hệ thống một cách dễ dàng. Kết quả trả về của chương trình đánh giá có được dựa vào bộ ngữ liệu mẫu được dùng đánh giá. Kết quả trả về này gồm có kết quả truy vấn của hệ thống tìm kiếm thông tin và kết quả đánh giá. Kết quả đánh giá được tính dựa trên sự kết hợp của hai độ đo: độ bao phủ (Recall) và độ chính xác (Precision). Từ kết quả trả về, chúng ta có thể biết được khả năng tìm kiếm của riêng từng hệ thống tìm kiếm thông tin và so sánh khả năng của các hệ thống tìm kiếm với nhau. Trang 12
  13. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Chương 1 : TỔNG QUAN 1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin Tìm kiếm thông tin liên quan đến việc biểu diễn, lưu trữ, tổ chức và tiếp cận các yếu tố thông tin (một tài liệu có thể có một hoặc nhiều yếu tố thông tin) [1 ]. Theo lý thuyết, không có giới hạn về các loại yếu tố thông tin trong tìm kiếm thông tin. Trên thực tế, các loại yếu tố thông tin ngày càng trở nên đa dạng cùng với sự phát triển của xã hội. Ngoài ra, một tập hợp các yếu tố thông tin được gọi là hữu dụng khi và chỉ khi nó đầy đủ và luôn được cập nhật. Đầy đủ ở đây có nghĩa là tập hợp này phải chứa một tỉ lệ lớn các yếu tố thông tin được xem là có khả năng liên quan đến các lĩnh vực xác định. Hơn nữa, việc biểu diễn và tổ chức các yếu tố thông tin nên cung cấp cho người dùng cách truy cập dễ dàng nhất đến thông tin mà người đó quan tâm. Nhưng không may là tính chất của nhu cầu thông tin người dùng không phải đơn giản. Chúng ta xem xét một ví dụ về một nhu cầu thông tin hiển nhiên của người sử dụng trong ngữ cảnh tìm kiếm World Wide Web hay chỉ là Web: Tìm tất cả các trang hay tài liệu chứa thông tin về bệnh ung thư phổi và nguyên nhân dẫn đến ung thư phổi, các tài liệu được xem là liên quan phải vừa nói đến các triệu chứng ung thư phổi, vừa nói đến nguyên nhân dẫn đến căn bệnh này gồm cả tác hại của việc hút thuốc và ô nhiễm môi trường. Từ ví dụ trên, chúng ta thấy rõ ràng là sự mô tả đầy đủ nhu cầu thông tin người dùng không thể được sử dụng trực tiếp để tìm kiếm trên bình diện của các phương tiện tìm kiếm Web (Web Search Engine) hay hệ thống tìm kiếm thông tin (IR system) hiện nay. Thay vào đó, người sử dụng phải dịch nhu cầu thông tin của mình sang một câu truy vấn có thể được xử lý bằng phương tiện tìm kiếm hay hệ thống tìm kiếm thông tin. Điều này tạo ra một tập các từ khóa tóm tắt mô tả nhu cầu thông tin người dùng hay còn gọi là câu truy vấn. Dựa trên câu truy vấn của người sử dụng, mục đích chính của hệ thống tìm kiếm thông tin là tìm kiếm các thông tin hữu ích hay liên quan cho người sử dụng. Trang 13
  14. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Vậy có thể nói một cách tổng quát, hệ thống tìm kiếm thông tin là một hệ thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thông tin từ một kho ngữ liệu lớn. Để tìm kiếm thông tin, hệ thống tìm kiếm phải thực hiện các công việc sau. Trước hết, hệ thống tìm kiếm xử lý tài liệu thô thành những tài liệu được tách từ, phân đoạn (tokenized documents) và sau đó lập chỉ mục (index) dựa trên vị trí của từ. Khi người dùng đưa vào câu truy vấn, hệ thống tìm kiếm thông tin cũng sẽ xử lý các câu truy vấn thành ngôn ngữ chỉ mục mô tả các yếu tố thông tin cần tìm kiếm và thực hiện đối chiếu với chỉ mục tài liệu để tìm ra các tài liệu liên quan. Cuối cùng, các tài liệu liên quan sẽ được trả về cho người dùng theo một danh sách được sắp xếp theo độ ưu tiên chính xác giảm dần (ranked list). 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin Khi nhu cầu tìm kiếm thông tin phát triển, có rất nhiều mô hình, thuật toán, hệ thống tìm kiếm thông tin ra đời. Do đó, việc đánh giá các mô hình, thuật toán, hệ thống tìm kiếm thông tin là điều bắt buộc phải làm. Chúng ta so sánh một hệ thống (có thể là một hệ thống mới) với các hệ thống khác đã tồn tại về phương diện: tính hiệu quả, chi phí, thời gian , tốc độ xử lý… Hệ thống tìm kiếm thông tin thường thực hiện hai quá trình: quá trình lập chỉ mục và quá trình tìm kiếm. Mỗi một quá trình sẽ có nhiều phương pháp để thực hiện, đánh giá hệ thống cũng có thể dùng để xác định tính tối ưu của các phương pháp trên. Lý do khác để tiến hành đánh giá là để so sánh các thành phần của hệ thống. Do hệ thống gồm nhiều thành phần, đánh giá hệ thống để xác định cách mỗi thành phần của hệ thống thực thi để khi có sự thay đổi một thành phần bởi một thành phần khác thì sự thay đổi đó ảnh hưởng đến hệ thống như thế nào, từ đó ta có thể quyết định có nên thay đổi thành phần đó không. Trang 14
  15. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Đánh giá để tìm kiếm thành phần nào là tốt nhất cho hàm xếp thứ tự (dot- product, cosine…); thành phần nào là tốt nhất cho lựa chọn thuật ngữ (loại bỏ stopword, phương pháp lấy gốc từ stemming …); thành phần nào là tốt nhất trong lựa chọn phương pháp đánh giá thuật ngữ (term weighting) như TF, IDF … (các thành phần này sẽ được nói rõ hơn trong chương sau). So sánh để biết người sử dụng cần danh sách các tài liệu trả về (ranked list) dài cỡ bao nhiêu để họ có thể nhìn dễ dàng nhất. Đánh giá để biết hệ thống nào thật sự tốt, người dùng có thể tin tưởng kết quả trả về được. 1.2.2. Các tiêu chuẩn được dùng để đánh giá Hiện nay, trên thế giới có ba tiêu chuẩn được dùng để đánh giá hệ thống tìm kiếm thông tin. Thứ nhất là tiêu chuẩn về tính hiệu quả tức sự chính xác, tính đầy đủ của kết quả trả về so với mục đích tìm kiếm của người sử dụng, và giá trị vẫn có thể đoán được trong các tình huống khác có nghĩa là khi đưa vào các câu truy vấn khác, tập tài liệu khác thì hệ thống vẫn có thể tìm ra kết quả chính xác. Thứ hai là tiêu chuẩn về hiệu năng, gồm có tốc độ tìm kiếm của thuật toán, khả năng lưu trữ, thời gian trả về cho người sử dụng, thời gian lập chỉ mục, kích thước chỉ mục… Thứ ba là tiêu chuẩn về khả năng sử dụng hệ thống tức là có thể nghiên cứu, học hỏi trên hệ thống tìm kiếm, người không biết tin học hay các chuyên gia tin học đềi có thể sử dụng hệ thống. 1.2.3. Các mô hình đánh giá Theo chúng tôi được biết, trên thế giới có tất cả bốn mô hình đánh giá các hệ thống tìm kiếm thông tin. Chúng bao gồm : đánh giá hộp kính, đánh giá hộp đen, đánh giá hướng hệ thống, đánh giá hướng người dùng hay còn gọi là đánh giá nghiên cứu người dùng [ 2]. Đánh giá hộp kính (glass box evaluation) : đánh giá hệ thống dựa trên việc đánh giá tất cả mọi thành phần của hệ thống. Có nghĩa là khi biết rõ các thành phần của hệ thống, chúng ta tiến hành đánh giá các thành phần đó. Trang 15
  16. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Đánh giá hộp đen (black box evaluation) : đánh giá hệ thống bằng cách xem hệ thống như là một thực thể hợp nhất, không đánh giá chính xác các thành phần bên trong hệ thống. Đánh giá hướng hệ thống (system-oriented evaluation) là xu hướng đánh giá chính từ khi các hệ thống tìm kiếm và lập chỉ mục tự động được phát triển vào những năm 1960. Một trong những mục đích chính của hướng đánh giá này là kiểm tra các hệ thống tự động cũng như các thủ tục thủ công thực thi như thế nào. Ngoài ra, mô hình này còn đánh giá so sánh các cách thực hiện liên quan đến các ngôn ngữ chỉ mục, xử lý tìm kiếm của hệ thống của các hệ thống khác nhau hay đánh giá so sánh các lược đồ chỉ mục tự động khác nhau. Đánh giá hướng hệ thống có một điểm lợi là điều kiện môi trường kiểm tra được quản lý chặt chẽ, sử dụng phương pháp đánh giá theo lô hay còn gọi là đánh giá dựa trên tập câu truy vấn; có nghĩa là hệ thống tìm kiếm thông tin lần lượt thực hiện các câu truy vấn, tìm kiếm trên tập dữ liệu đã được xây dựng và ghi lại kết quả những tài liệu nào liên quan đến câu truy vấn nào rồi đem so sánh với Bảng Đánh giá liên quan chuẩn (Relevance judgment) đã được xây dựng. Với mỗi câu truy vấn tính toán độ chính xác và độ bao phủ dựa trên kết quả trả về và bảng đánh giá liên quan chuẩn để nhận xét hiệu quả tìm kiếm của hệ thống tìm kiếm thông tin. Hướng đánh giá này được thực hiện rất phổ biến ở các dự án, hội nghị về nghiên cứu hệ thống tìm kiếm thông tin như: Cranfield , MEDLARS, SMART, STAIRS và TREC. Đánh giá hướng người dùng (user studies evaluation): Hướng nghiên cứu người dùng ra đời vào những năm 1970 khi mà nhiều hệ thống tìm kiếm thông tin thương mại ra đời. Mục đích chính của hướng nghiên cứu này là nhằm xác định cách thức tìm kiếm của người sử dụng [ 3]. Hướng đánh giá này còn cho phép xem xét hệ thống ở khía cạnh người dùng; tức là đánh giá về mặt tương tác với người sử dụng như giao diện của hệ thống tìm kiếm thông tin, thời gian hệ thống tìm kiếm đối với một câu truy vấn, Trang 16
  17. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin mức độ hài lòng của người sử dụng… Hướng nghiên cứu này cho rằng nhu cầu của người dùng được thoả mãn tương đương với hiệu quả của hệ thống. Chỉ khi nhu cầu thông tin người dùng được thỏa mãn, khi ấy tìm kiếm thông tin mới được gọi là có ích. Hội nghị quốc tế về Tìm kiếm Thông tin trong Ngữ cảnh (Information Seeking in Context) được tổ chức như là một diễn đàn cho các nhà nghiên cứu lĩnh vực này khám phá các phương pháp và các kết quả nghiên cứu. Một hội nghị khác mới được thành lập tên là Nhóm Quan tâm Đặc biệt (Special Interest Group - SIG) đến tìm kiếm, nhu cầu và sử dụng thông tin của Xã hội Hoa Kỳ về Khoa học Thông tin (American Society of Information Science). Những hội nghị này cũng tương tự như TREC trong việc cố gắng khuyến khích nghiên cứu hướng người dùng, để phát triển mối liên hệ giữa các nhà nghiên cứu trong kỹ thuật, giáo dục và chính phủ, và để xác định, cải tiến các kỹ thuật tìm kiếm thích hợp. Nhưng các hội nghị này khác nhau ở chỗ các hội nghị mới chưa có phương pháp luận đánh giá chuẩn nào được xúc tiến. Đánh giá hướng người dùng có đóng góp rất lớn đến lĩnh vực tìm kiếm thông tin. Đóng góp này gồm có việc xác định cách thức tìm kiếm thông tin của con người, nối liền khoảng cách giữa nhu cầu thông tin giữa các cá nhân và các hệ thống tìm kiếm thông tin, dẫn đến một thế hệ mới của các hệ thống tìm kiếm thông tin bao gồm các giao diện đồ hoạ máy tính-người sử dụng. Hiện nay, trong số bốn mô hình trên thì hai mô hình đánh giá hướng hệ thống và hướng người dùng đang được sử dụng chính và rộng rãi nhất. Trong phạm vi đề tài của chúng tôi, chúng tôi chỉ sử dụng mô hình đánh giá hướng hệ thống vì mô hình đánh giá hướng người dùng cần có sự hợp tác của rất nhiều người dùng để lấy thông tin phản hồi sau khi sử dụng hệ thống tìm kiếm thông tin đó hoặc cần phải tham gia trao đổi về hiệu năng tìm kiếm tại các hội nghị. Nhưng các hội nghị dành cho mô hình đánh giá hướng người dùng đa số chưa có một phương pháp luận cụ thể nào dùng để đánh giá. Ngoài ra, với mô hình hướng hệ thống, chúng Trang 17
  18. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin tôi có thể xây dựng ứng dụng để đánh giá nhiều hệ thống tìm kiếm thông tin một cách tự động. 1.2.4. Các độ đo dùng để đánh giá Độ bao phủ (Recall) và độ chính xác (Precision) là 2 đơn vị đo cơ bản nhất để đánh giá chất lượng một hệ thống tìm kiếm thông tin [4 ]. Độ bao phủ là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng số các tài liệu liên quan thật sự. Trong khi đó, độ chính xác là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng số tài liệu được trả về. Có nhiều phương pháp sử dụng một hoặc các độ đo này để tính toán đánh giá, chẳng hạn phương pháp Độ chính xác trung bình (Mean Average Precision – MAP) chỉ sử dụng độ chính xác, không quan tâm đến độ bao phủ. Phương pháp đo dựa trên giá trị đơn Swet’s E-Measure hoặc chiều dài tìm kiếm trung bình thì cũng chỉ sử dụng một giá trị để tính toán. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ sử dụng cả hai độ đo độ bao phủ và độ chính xác. Chúng tôi thực hiện đánh giá theo phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ bởi vì phương pháp này khá đơn giản, dễ thực hiện tính toán, đo và đánh giá. Ngoài ra, phương pháp này trực quan với cách biểu diễn đồ thị của các điểm bao phủ, chính xác từ đó dễ dàng thấy hiệu quả tìm kiếm của riêng từng hệ thống và so sánh các hệ thống đánh giá với nhau. 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá Theo mô hình hướng hệ thống, trước hết phải xây dựng bộ ngữ liệu dùng để đánh giá (test collection). Bộ ngữ liệu dùng để đánh giá gồm có tập các tài liệu mẫu, tập câu truy vấn mẫu, và bảng đánh giá liên quan chuẩn. • Tập tài liệu dùng để đánh giá được thu thập từ các nguồn khác nhau, gồm nhiều chủ đề khác nhau. Tập tài liệu này phải là những tài liệu mẫu bao quát càng nhiều lĩnh vực càng tốt, phản ánh được các vấn đề đa dạng khác nhau, các phong cách văn chương khác nhau … Điều này có nghĩa là tập Trang 18
  19. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin tài liệu mẫu này phải có kích thước lớn, vì vậy tập tài liệu này còn được gọi là kho ngữ liệu mẫu. • Tập câu truy vấn mẫu là những câu hỏi được tạo ra phù hợp với tập tài liệu mẫu. Tập câu truy vấn này sau đó sẽ được sử dụng để tìm kiếm. • Bảng đánh giá liên quan chuẩn là bảng chứa thông tin về số thứ tự câu hỏi và các tài liệu liên quan thật sự của câu hỏi đó. Bảng Đánh giá liên quan chuẩn được dùng như là bảng đối chiếu để tính độ bao phủ và độ chính xác. Có nhiều cách khác nhau để tạo bảng đánh giá liên quan chuẩn hay bảng Relevance judgment. Các phương pháp này gồm có: Phương pháp đánh giá toàn bộ, phương pháp này thường không khả thi vì tỉ lệ tập câu hỏi*tập tài liệu là quá lớn. Phương pháp này rất tốn chi phí. Phương pháp Pooling hay còn gọi là phương pháp lấy một số tài liệu liên quan nhất để làm bảng đánh giá liên quan chuẩn. Phương pháp này sử dụng tốt cho đánh giá nhiều hệ thống tìm kiếm thông tin. Phương pháp này đòi hỏi phải có một sự đa dạng các hệ thống tìm kiếm thông tin. Bước đầu tiên của phương pháp này là tìm thấy các tài liệu liên quan cho mỗi hệ thống. Các hệ thống khác nhau tìm thấy các tài liệu liên quan khác nhau. Bước tiếp theo là tổng hợp các kết quả của tất cả các hệ thống lại và lấy phần giao của các bảng đánh giá liên quan của các hệ thống. Nhưng phần giao này có thể chỉ là một số lượng nhất định các tài liệu gần như chính xác nhất. Việc đánh giá dựa trên phương pháp này thật sự khách quan khi đánh giá các hệ thống không được chọn để giao lấy bảng Đánh giá liên quan chuẩn. Phương pháp đánh giá hướng dẫn chỉ tìm kiếm thỉnh thoảng cho kết quả tốt. Phương pháp này cho phép tương tác giữa nghiên cứu truy vấn, tìm kiếm, đánh giá. Tăng cường thêm bằng cách xem lại, điều chỉnh, đánh giá lại. Nói chung, khi sử dụng phương pháp này, người đánh giá Trang 19
  20. Luận văn : Đánh giá các hệ thống tìm kiếm thông tin phải thao tác bằng tay rất nhiều, xem các tài liệu trả về có thật sự là liên quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn. Các đánh giá dựa trên những thành phần đã biết, phương pháp này tốn ít chi phí nhất. Phương pháp này cho phép thay đổi câu hỏi để tìm ra một tài liệu đã biết. 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn Kể từ năm 1992, khi Hội nghị về Tìm kiếm thông tin Văn bản (Text REtrieval Conference hay TREC) của Hoa Kỳ ra đời, mô hình hướng hệ thống mới thật sự phát triển. Bởi vì hằng năm, TREC tổ chức hội nghị để kêu gọi tham gia đánh giá các hệ thống tìm kiếm thông tin, đặc biệt kêu gọi đánh giá theo mô hình hướng hệ thống. Nhờ đó mà mỗi năm khối lượng, kích thước bộ ngữ liệu dùng để đánh giá tăng lên rất đáng kể cùng với sự phát triển về số lượng các tổ chức, trường Đại học tham gia TREC. TREC được xem là Hội nghị lớn nhất thế giới về đánh giá các hệ thống tìm kiếm thông tin và là một trong những Hội nghị có uy tín trong lĩnh vực tìm kiếm thông tin. TREC xây dựng bảng đánh giá liên quan chuẩn theo phương pháp Pooling. TREC còn đưa ra các tiêu chuẩn, định dạng cho ngữ liệu rất rõ ràng, và dễ tuân theo. Vì vậy, chúng tôi quyết định chọn phương pháp xây dựng ngữ liệu theo tiêu chuẩn và cách làm của TREC. Chúng tôi định dạng câu hỏi và tài liệu theo tiêu chuẩn định dạng mà TREC đưa ra, đồng thời làm bảng đánh giá liên quan chuẩn theo phương pháp Pooling hay phương pháp lấy một số tài liệu liên quan nhất để làm bảng Đánh giá liên quan giống TREC vì cách tạo bảng đánh giá khách quan mà nó mang lại và không phải tốn nhiều thời gian, chi phí. Tuy nhiên, đối với tiếng Việt, việc xây dựng bộ ngữ liệu đánh giá phức tạp hơn là xây dựng bộ ngữ liệu tiếng Anh, tiếng Pháp trong trường hợp dùng các hệ thống tìm kiếm phổ biến, nổi tiếng sẵn có cho tiếng Anh, Pháp để tìm kiếm thông tin tiếng Việt. Bởi vì đặc thù loại hình ngôn ngữ khác nhau giữa tiếng Anh, Pháp và tiếng Việt. Chẳng hạn, trong tiếng Anh, Pháp mỗi từ là một từ đơn, cách nhau bởi Trang 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2