LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT

Chia sẻ: Lan Lan | Ngày: | Loại File: PDF | Số trang:62

Thêm vào BST

Báo xấu

102
lượt xem 25
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đã được quan tâm nghiên cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là hệ thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới dạng một danh sách. Tại...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: LUẬN VĂN: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠ I HỌC H Ệ CHÍNH QUY Ngành: C ông nghệ Thông tin HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thanh Sơn PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠ I HỌC H Ệ CHÍNH QUY Ngành: C ông nghệ Thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2010
Lời cảm ơn Trước tiên, tôi xin gử i lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụ y, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Qu ỳnh – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thự c hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Ngh ệ đ ã tạo cho tôi những điều kiện thuận lợi để họ c tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm Sislab đ ã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Cuối cùng, tôi muốn gử i lời cảm ơn tới gia đình và b ạn bè, những người thân yêu luôn bên cạnh, động viên tôi trong suố t quá trình thực hiện khóa luận tố t nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Thanh Sơn
Tóm tắt Nh ờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet mộ t cách hiệu qu ả và d ễ dàng, hệ thống hỏi đáp nói chung đ ã được quan tâm nghiên cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là h ệ thống hỏi đáp, nh ận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới dạng mộ t danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói chung, cũng như về h ệ thống hỏ i đáp danh sách nói riêng tập trung cho miền dữ liệu tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ họ c, … Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho h ệ thống hỏi đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây d ựng hệ thống hỏi đáp danh sách đã được áp d ụng trên thế giới cũng như một số phương pháp nâng cao ch ất lượng kết quả trả lời cho dạng hệ thống hỏi đáp n ày. Trên cơ sở các nghiên cứu nói trên, kết hợp với việc kh ảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt sử dụng lu ật Wrapper và luật ngữ n ghĩa. Thự c nghiệm mô hình cho kết quả khá kh ả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứ a hẹn nhiều tiềm năng nghiên cứu mới.
Mục lục Lời m ở đ ầu .................................................................................................................. 1 Chương 1. Giới thiệu h ệ thống hỏ i đáp danh sách ........................................................ 3 1.1. Hệ thống hỏi đáp ............................................................................................... 3 1 .1.1. Giới thiệu chung .......................................................................................... 3 1 .1.2. Mộ t số vấn đề cần quan tâm ........................................................................ 4 1 .1.3. Các bước xử lý chung .................................................................................. 5 1 .1.4. Tiêu chu ẩn đánh giá..................................................................................... 6 1 .1.5. Phân loại...................................................................................................... 7 1.2. Hệ thống hỏi đáp danh sách ............................................................................. 10 1 .2.1. Giới thiệu ................................................................ ................................ .. 10 1 .2.2. Mộ t số hướng tiếp cận xây dựng hệ thống hỏ i đáp danh sách..................... 10 1 .2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏ i đáp danh sách ............... 11 Chương 2. Các nghiên cứu liên quan ................................................................ ......... 13 2.1. Mộ t số h ệ thống hỏi đáp danh sách điển hình ................................................... 13 2 .1.1. Hệ thống hỏi đáp danh sách FADA ................................ ........................... 16 2 .1.2. Hệ thống hỏi đáp Ephyra ........................................................................... 20 2.2. Nâng cao chất lượng trả lời cho h ệ thống hỏi đáp danh sách ............................ 23 Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏ i đáp danh sách tiếng Việt ........................................................................................................... 28 3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏ i đáp danh sách tiếng Việt ........................................................................................................................ 28 3.2. Pha 1: Hỏi đáp danh sách tiếng Việt ................................................................ 29 3 .2.1. Tìm kiếm câu trả lời dựa vào các m ẫu quan hệ thượng hạ danh ................. 29 3 .2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách .............................................. 30 3.3. Pha 2: Mở rộng th ực thể .................................................................................. 32
3 .3.1. Xây dựng các luật Wrapper ...................................................................... 33 3 .3.2. Các phương pháp xếp hạng được sử dụng.................................................. 35 3 .3.3. Mô hình pha 2: mở rộng thực thể............................................................... 35 Chương 4. Th ực nghiệm và đánh giá ................................................................ ......... 39 4.1. Thực nghiệm pha hỏi đáp danh sách ................................................................ 39 4 .1.1. Dữ liệu thực nghiệm .................................................................................. 39 4 .1.2. Kết quả thực nghiệm.................................................................................. 40 4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏ i đáp danh sách tiếng việt .......................................................................... 42 Kết lu ận ................................................................ ................................ ..................... 47 Phụ lục....................................................................................................................... 49 Tài liệu tham khảo ..................................................................................................... 51
Danh sách các bảng Bảng 1. 5 kết quả cao nh ất tại TREC-12 (Voorhees, 2003) ........................................ 13 Bảng 2. Các lớp trang web ......................................................................................... 17 Bảng 3. Hiệu su ất củ a tập kiểm thử trong TREC-12................................................... 20 Bảng 4. Cây kế thừ a thực thể tên và các mẫu loại ...................................................... 22 Bảng 5. Kết quả thự c thi SEAL với các thu ật toán đánh giá và số lượng tập mồi khác nhau ................................................................ ................................ ........................... 25 Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng ....................... 26 Bảng 7. Độ chính xác trung bình của Ephyra ............................................................. 27 Bảng 8. Độ đo trung b ình F1 của Ephyra .................................................................... 27 Bảng 9. Một số mẫu quan h ệ thượng h ạ danh trong tiếng Anh và tiếng Việt. ............. 30 Bảng 10. Ví dụ về câu hỏ i danh sách và từ khóa tương ứng ....................................... 39 Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt ............................... 40 Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi.................. 42 Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi.................. 43 Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào ....................... 44
Danh sách các hình Hình 1. Các bước chung của hệ thống hỏ i đáp ............................................................ 5 Hình 2. Xu hướng trong nghiên cứu về h ệ thống hỏi đáp ............................................. 8 Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm ................................................ 22 Hình 4. Mô hình thực nghiệm nâng cao ch ất lượng kết quả trả lời trong .................... 28 Hình 5. Ví dụ về quan hệ thượng hạ d anh. ................................................................. 29 Hình 6. Mô hình pha 1 - Hỏi đáp d anh sách tiếng Việt ................................ ............... 30 Hình 7. Ví dụ cấu trúc web ........................................................................................ 33 Hình 8.Ví dụ văn b ản bán cấu trúc ............................................................................. 34 Hình 9. Mô hình pha 2 - Mở rộng thực thể ................................................................ 36
Danh sách các biểu đồ Biểu đồ 1. Kết qu ả của mỗi lo ại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007..... 15 Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả ... 40 Biểu đồ 3. Độ chính xác của các kết quả trong thự c nghiệm pha hỏi đáp danh sách tiếng Việt ................................................................................................................... 41 Biểu đồ 4. So sánh độ chính xác câu trả lời ................................................................ 44 Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường h ợp ................... 45
Lời mở đầu Internet ngày nay, một m ặt đ ã trở thành kho tài nguyên thông tin khổng lồ và phong phú, nhưng m ặt khác, việc thông tin được tổ chức dưới dạng không cấu trúc hoặc bán cấu trúc cũng khiến cho việc nắm bắt thông tin trở nên khó khăn. Máy tìm kiếm đ ã hỗ trợ khá đắc lự c cho người dùng, tuy nhiên, để có thông tin mong muốn, người dùng ph ải tự tìm trong các trang web mà máy tìm kiếm trả về. Đây là một công việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi máy tìm kiếm thường là rất lớn . Chính vì vậy hệ thống hỏ i đáp đã ra đ ời, nhằm mụ c đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các văn b ản. Các câu hỏi củ a người dùng thường rất đa d ạng và yêu cầu các lo ại câu trả lời cũng khác nhau. Một trong những hướng nghiên cứu mới và đang được chú ý hiện nay chính là về hệ thống hỏi đáp danh sách. Thay vì ch ỉ có một kết quả trong câu trả lời, hệ th ống hỏ i đáp danh sách thường phải trả về câu trả lời là một danh sách các kết quả. Đây chính là đặc điểm khác biệt nhất giữa hệ thống h ỏi đáp danh sách và các hệ thống hỏ i đáp khác. Trả về câu trả lời chứa đ ầy đủ và chính xác các kết qu ả chính là một trong những mục tiêu được chú trọng nh ất được hướng đến khi xây d ựng hệ thống hỏ i đáp danh sách. Tuy nhiên, đó cũng chính thách thức lớn nhất mà các nhà nghiên cứu gặp phải. Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt thực hiện việc kh ảo sát, nghiên cứu một số phương pháp đã được sử dụng trong một số hệ thống hỏ i đáp danh sách, cũng như tìm hiểu một vài nghiên cứu về việc nâng cao ch ất lượng trả lời cho h ệ thống hỏ i đáp danh sách, từ đó đưa ra phương pháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt. Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính: (1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào các luật thượng hạ danh (hyponym). (2) Pha nâng cao ch ất lượng cho câu trả lời của pha hỏi đáp danh sách dựa vào các phương pháp mở rộng thự c th ể. Nộ i dung củ a khóa lu ận bao gồm các chương sau: Chương 1. Giới thiệu h ệ thống hỏ i đáp danh sách. Chương 1 trình bày những nội dung cơ b ản về hệ thống hỏi đáp nói chung và hệ thống hỏi đáp danh sách nói riêng. Chương 2 . Các nghiên cứu liên quan. Chương 2 điểm qua mộ t số các nghiên cứu liên quan trên th ế giới cũng như tại Việt Nam về hệ thống hỏi đáp nói chung, cũng 1
như hệ thống hỏi đáp danh sách nói riêng và bài toán mở rộng thực thể. Khóa luận tập trung tìm hiểu các phương pháp được áp dụng trong hai h ệ thống hỏi đáp danh sách tiêu biểu là FADA và Ephyra. Cùng với đó, chương này cũng giới thiệu về các nghiên cứu đã có để nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách, trong đó tập trung cho hướng nâng cao b ằng mở rộng thực thể. Chương 3. Đề xuất mô hình nâng cao ch ất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho h ệ thống hỏi đáp danh sách tiếng Việt mà khoá lu ận đ ề xuất. Mô hình này gồ m 2 pha chính là pha hỏ i đáp danh sách và pha mở rộng thực th ể. Chương 4 . Thự c nghiệm và đánh giá. Tiến hành thực nghiệm để kiểm tra ch ất lượng của phương pháp đã đề xuất bằng cách thự c nghiệm riêng pha hỏi đáp danh sách và thực nghiệm có sử dụng bước nâng cao kết quả trong mô hình, từ đó đưa ra đánh giá. Kết luậ n và hướng phát triển khóa luận: Tóm lược những nội dung chính củ a khóa luận.Đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới dự a vào các định hư ớng kh ắc phục mộ t vài h ạn ch ế vẫn còn tồn tại. 2
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách 1.1. Hệ thống hỏi đáp 1.1.1. Giới thiệu chung Sự phát triển ngày càng mạnh mẽ của World Wide Web đã đ ưa ra thách thức khai phá các thông tin trên web m ột cách hiệu qu ả hơn. Tuy kết qu ả trả về của các máy tìm kiếm ngày càng được n âng cao chất lượng nhưng kết quả vẫn là danh sách các tài liệu có chứ a câu truy vấn. Người dùng muốn có thông tin thì phải tự tìm trong các trang web đó. Đây là mộ t công việc tốn rất nhiều thời gian và công sứ c b ởi số lượng các trang web được trả về bởi máy tìm kiếm thường là rất lớn . Chính vì vậy hệ thống hỏi đáp đã ra đời, nh ằm mục đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các văn bản. Khái niệm hệ thống hỏi đáp: Hệ thống hỏi đáp là hệ thống đuợc xây d ựng đ ể thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác và ngắn gọn [30]. Nhiệm vụ của hệ hỏi đáp là tự động tìm ra câu trả lời cho câu hỏ i dưới dạng ngôn ngữ tự nhiên. Để tìm được câu trả lời, hệ hỏi đáp phải sử dụng các nguồn dữ liệu có cấu trúc như cơ sở dữ liệu ho ặc một tập các văn bản không có cấu trúc. Tuy nhiên, như đã biết, ngôn ngữ tự nhiên chứa các yếu tố nhập nhằng, đa ngh ĩa, việc xác định đư ợc ngữ nghĩa củ a câu hỏ i cũng như tìm ra câu trả lời là m ột thách thức không nhỏ. Không những vậy, giữa câu hỏi và câu trả lời còn tồn tại các quan h ệ “ngầm” hay phụ thuộ c ngữ cảnh. Ví dụ câu hỏi “Ai là tác giả của Dế m èn phiêu lưu ký ?” Một câu trả lời là: “Tô Hoài đã viết tác ph ẩm văn xuôi Dế m èn phiêu lưu ký”. Ho ặc câu hỏi là “Beethoven sinh năm nào?” Thì một câu trả lời là “Ludwig van Beethoven (1770-1827)” Để tìm được câu trả lời cho câu hỏi “Ai là tác giả của Dế mèn phiêu lưu ký?”, h ệ thống cần có cơ ch ế để biết được rằng “tác giả của một tác ph ẩm là người viết tác phẩm đó” hoặc cần học được các mẫu thường gặp củ a câu trả lời (các mẫu về ngày tháng năm sinh, về thời gian, đ ịa chỉ….) tương ứng với từng lo ại câu hỏi. Các hệ thống 3
hỏi đáp h iện nay sử d ụng các công cụ xử lý ngôn ngữ tự nhiên như bộ gán nhãn từ lo ại (POS Tagger), b ộ nhận dạng thực thể định danh (Named Entity Recognizer), bộ phân tích ngữ pháp (Parser)… và các tài nguyên ngôn ngữ như Wordnet [11], ontology [23] để phân tích câu hỏi và trích xuất câu trả lời. Hệ thống hỏi đáp đang nhận được rất nhiều sự quan tâm của các nhà nghiên cứu và các doanh nghiệp công nghệ thông tin, có ý ngh ĩa cả về khoa học lẫn th ực tiễn. Rất nhiều hội nghị thường niên về trích chọn thông tin và khai phá dữ liệu dành một chủ đề riêng cho các nghiên cứu về hệ thống hỏi đáp TREC1, CLEF2. Hiện đ ã có mộ t số h ệ thống hỏi đáp ra đời. Một số hệ thống hỏi đáp tiêu biểu được biết đ ến như: Answer.com3, START4, Ask Jeeves5, Webclopedia [9], FADA [14], Ephyra [22],... trong đó, FADA, Ephyra là các hệ thống hỏ i đáp danh sách sẽ được giới thiệu chi tiết hơn ở chương 2. 1.1.2. Một số vấn đề cần quan tâm Năm 2002, John Burger và cộng sự [7] đã đưa ra mộ t số vấn đề cần quan tâm khi xây d ựng mộ t hệ th ống hỏ i đáp như sau:  Loại câu hỏi: Đầu vào củ a hệ thống hỏi đáp là câu hỏ i củ a người dùng dưới d ạng ngôn ngữ tự nhiên. Câu hỏ i trong ngôn ngữ tự nhiên rất đa dạng, nhiều ẩn ý, nhiều nhập nhằng và phụ thuộc vào ngữ cảnh hỏi. Mộ t số loại câu hỏi đ ang đư ợc quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện, đ ịnh nghĩa, danh sách, quá trình, cách thức, lý do… Mỗi loại câu hỏ i có những đặc trưng và khó khăn riêng, đòi hỏ i ph ải có các chiến lược đ ể trả lời chúng.  Xử lý câu hỏi: Một câu hỏ i có thể được diễn đạt bằng nhiều cách khác nhau. Vì th ế, việc xử lý câu hỏi là xác đ ịnh được các câu hỏi tương tự, các quan hệ n gữ pháp, lo ại câu hỏ i, đồng th ời có th ể chuyển mộ t câu hỏi phức tạp thành chuỗi các câu hỏ i đơn giản hơn.  Ng ữ cảnh: Câu hỏ i thường được gắn với ngữ cảnh và câu trả lời cũng được đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về n gữ cảnh 1 TREC: Text REtrieval Conference. http://trec.nist.gov/ 2 CLEF: The Cross-Language Evaluation Forum. http://www.clef-campaign.org/ 3 http://www.answers.com/ 4 http://start.csail.mit.edu/ 5 http://ask.com/ 4
giúp hệ thống hỏ i đáp hiểu câu hỏi mộ t cách rõ ràng, loại bỏ được các nhặp nhằng và tăng tính chính xác khi trả lời câu hỏi.  Nguồn dữ liệu: một hệ thống hỏi đáp cho dù có hoạt động thông minh đến đ âu cũng không thể tìm được chính xác câu trả lời nếu như câu trả lời đó không nằm trong tập dữ liệu. Chính vì thế, hệ thống hỏi đáp cần phải có n guồn dữ liệu phong phú, có thể là sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có đ ộ tin cậy và thông tin chính xác cao.  Trích xuấ t câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp củ a câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ liệu chứ a câu trả lời, phương pháp tìm kiếm và ngữ cảnh,... Câu trả lời cho n gười dùng cần phải đảm b ảo chính xác và đầy đủ. 1.1.3. Các bước xử lý chung Các hệ thống hỏi đáp hiện nay có kiến trúc khác nhau tùy thuộc vào lo ại hệ thống hỏi đáp. Tuy nhiên các hệ thống hỏi đáp đ ều bao gồm ba bước cơ bản n hư h ình 1 [5]. Sự khác nhau giữ a các hệ thống hỏi đáp là ở quá trình xử lý trong từng bư ớc, đặc biệt là ở cách tiếp cận trong việc xác định câu trả lời. Câu Thu thập Phân tích Trích xuất Câu hỏi trả lời tài liệu câu hỏi câu trả lời Hình 1. Các bước chung của hệ thống hỏi đáp Bước1 - Phân tích câu hỏ i: Đây là bước đầu tiên củ a h ệ hỏi đáp. Đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên. Tại bước này, hệ thống phân tích câu hỏi đ ể tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bư ớc trích xu ất câu trả lời Bước2 - Thu thập tài liệu: Bước này sử dụng câu truy vấn đư ợc tạo ra ở bước phân tích câu hỏ i, truy vấn trên các công cụ tìm kiếm để tìm các tài liệu phụ c vụ cho việc tìm kiếm câu trả lời. Bước3 - Trích xuấ t câu trả lời: Bước này phân tích tập tài liệu đ ã thu th ập đư ợc ở bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để tìm kiếm, trích chọn và đưa ra câu trả lời chính xác nhất cho câu hỏi của người dùng. 5
1.1.4. Tiêu chuẩn đánh giá Năm 2002, John Burger và cộng sự [7] đã tổng kết mộ t số tư tưởng chung cho việc nghiên cứu hệ thống hỏi đáp. Theo đó mộ t hệ thống hỏi đáp được ngư ời dùng đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn sau:  Tính hợp lý về thời gian (Timeliness): hệ thống cần đưa ra câu trả lời trong khoảng thời gian hợp lý, ngay cả khi có nhiều người dùng cùng truy nhập h ệ thống. Hệ thống cần luôn cập nhật dữ liệu để có thể cung cấp cho người dùng câu trả lời chính xác, kể cả đối với những câu hỏi mang tính ch ất thời sự .  Tính chính xác: tính chính xác của hệ thống hỏ i đáp là cực kì quan trọng, việc đưa ra câu trả lời sai còn tai hại hơn là không đưa ra câu trả lời. Chính vì thế, khi nghiên cứu về hệ thống h ỏi đáp cần tập trung vào việc đánh giá tính đúng đắn của câu trả lời. Trong đó bao gồm cả các phương pháp để phát h iện các trường hợp mà tập dữ liệu được xét không ch ứa câu trả lời. Các thông tin mâu thuẫn trong d ữ liệu cũng cần được tìm ra và các thông tin này cần được xử lý mộ t cách phù hợp và nhất quán. Để đạt được tính chính xác, h ệ thống hỏ i đáp cần kết hợp chặt ch ẽ các n guồn tri thức (world knowledge) và cơ chế “bắt chước” việc suy lu ận thông thường.  Tính khả dụng: thông thường, tri thức trong hệ thống hỏi đáp cần đáp ứ ng được như cầu của người dùng. Các ontology trên từng miền cụ thể và ontology trên miền m ở cần được tích hợp trong h ệ thống. Để tìm ra câu trả lời thì các h ệ hỏi đáp thường xét trên nhiều dữ liệu khác nhau. Thông tin về câu trả lời có thể nằm trong d ữ liệu văn b ản, trong cơ sở dữ liệu, trong các đoạn phim hay các nguồn đa phương tiện khác. Mộ t hệ thống phải đáp cần có khả n ăng khai phá câu trả lời từ các nguồn dữ liệu khác nhau và đưa ra câu trả lời ở b ất k ỳ đ ịnh dạng nào mà người dùng mong muốn. Hơn nữ a, hệ thống hỏ i đáp nên có khả năng cho phép người dùng mô tả ngữ cảnh của câu hỏi và n ên cung cấp các thông tin giải thích, trích d ẫn nguồn cho câu trả lời.  Tính hoàn chỉnh: khả năng đưa ra đư ợc câu trả lời hoàn ch ỉnh cho câu hỏi của người dùng chính là điều mà các hệ thống hỏ i đáp hướng tới. Trong nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thứ c…), các phần của câu trả lời nằm rải rác trong một văn b ản, thậm chí trong nhiều văn 6
b ản. Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết đ ể tạo ra câu trả lời hoàn chỉnh.  Tính thích hợp: Câu trả lời cho mộ t câu hỏi của người dùng cần phải thích h ợp với ngữ cảnh cụ thể. Thông thường mộ t số trường hợp, hệ thống hỏ i đáp có khả n ăng giao tiếp (interactive Q&A) có th ể là cần thiết, trong đó chuỗi các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà người dùng đang hỏ i. Việc đánh giá một h ệ th ống hỏi đáp cần hướng tới người dùng bởi ý kiến người dùng là đánh giá tốt nhất cho tính thích hợp củ a một h ệ thống hỏi đáp. Các tiêu chu ẩn trên được xem xét đến với mong muốn xây d ựng được một h ệ thống hỏ i đáp hoàn ch ỉnh. Tuy nhiên, không ph ải hệ thống nào cũng có khả năng thông minh và hoàn thiện như th ế. Các nghiên cứu về hệ thố ng hỏi đáp hiện nay đang tập trung vào xây d ựng hệ thống hỏi đáp có tính chính xác cao và có khả năng sử dụng nguồn dữ liệu web khổng lồ trên Internet. 1.1.5. Phân loại Dự a trên các tiêu chí khác nhau mà có các cách phân loại hệ thống hỏi đáp khác nhau như: phân lo ại theo miền ứng dụng, theo kh ả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 1.1.5.1. Phân loại theo miền ứng dụng (domain) Khi phân loại theo miền ứng dụng, h ệ thống hỏi đáp được phân làm hai loại đó là Hệ thống hỏ i đáp miền đóng và Hệ thống hỏi đáp miền mở. Hệ thống hỏi đáp miền đóng (Closed Domain Question Answering): Hệ thống tập trung vào trả lời các câu hỏ i liên quan đến một miền dữ liệu cụ thể (giáo dục, y tế, du lịch ...). Xây dựng h ệ thống hỏi đáp miền đóng được coi là bài toán dễ h ơn so với xây d ựng hệ thống hỏi đáp miền mở vì việc xử lý ngôn ngữ tự nhiên thường dễ hơn rất nhiều do có thể sử dụng các tri thứ c miền (thường là ontology của miền cụ thể). Hệ thống hỏi đáp miền mở (Open Domain Question Answering): hệ thống hỏi đáp miền mở trả lời các câu hỏi liên quan đ ến bất kì miền dữ liệu nào. Khó khăn cho hệ thống miền mở đó chính là việc xây dựng các tri th ức nền cho việc trả lời cũng như phân tích câu hỏi, các phương pháp hiện nay thường sử dụng một số các ontology khái quát hay các m ạng tri thức như: wikipedia, bách khoa từ điển... Các dạng câu hỏi cho hệ thống hỏi đáp miền mở là rất đa dạng và câu trả lời không bó h ẹp trong mộ t miền 7
dữ liệu cụ thể n ào cả. Chính vì thế m à đòi hỏi của hệ thống hỏ i đáp miền mở là ph ải bao quát được dữ liệu thuộc nhiều lĩnh vực khác nhau. Tuy nhiên cũng chính vì lý do đó mà dữ liệu cho việc trích rút câu trả lời trong hệ thống hỏi đáp miền mở là rất phong phú và d ễ thu thập. Hệ thống hỏi đáp Miền mở Miền đóng Dữ liệu có cấu trúc D ữ liệu phi cấu trúc (text) Web Tậ p dữ liệu lớn Một văn bản đơn Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp Các nghiên cứu hiện nay về hệ thống hỏ i đáp đang tập trung vào xây d ựng h ệ thống hỏi đáp trên miền m ở, sử dụng nguồn dữ liệu phi cấu trúc và bán cấu trúc (kho văn bản lớn hay dữ liệu web) để tìm câu trả lời. Các nghiên cứu mới và các cải tiến những phương pháp cũ đang hướng đến mụ c đích sử dụng nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng lặp để tìm ra câu trả lời đang rất được quan tâm [5] (Hình 2 ). 1.1.5.2. Phân loại theo hướng tiếp cận Hướng tiếp cận nông (shallow): Nhiều phương pháp sử dụng trong h ệ hỏi đáp dùng các kĩ thu ật dựa trên từ khóa đ ể lựa chọn các câu, đọ an văn trong các văn bản thu thập được, sau đó lọc lấy câu trả lời. Phương pháp xếp hạng cho các câu trả lời thường được d ựa trên đ ặc trưng cú pháp như là thứ tự từ hoặc vị trí từ và đặc điểm tương tự với câu hỏi (ví dụ các câu hỏ i về tên người, địa danh, số lượng…). Đối với hướng tiếp cận nông thì có thể sử dụng các m ẫu để tìm ra các câu trả lời với giả thiết mong muốn 8
rằng câu trả lời có cùng cấu trúc giống câu hỏi. Ví dụ với câu hỏi “What is a X” thì ta có mẫu là “X is a Y” và có th ể tìm được câu trả lời là Y. Hướng tiếp cận sâu (deep): Trong trường hợp các kĩ thu ật sử dụng từ khóa hoặc biến đổi cấu trúc câu hỏ i là chưa đủ để tìm ra câu trả lời thì cần sử dụng các kĩ thu ật phân tích cú pháp, ngữ n ghĩa, ngữ cảnh phức tạp hơn đ ể có thể trích chọn hay xây dựng câu trả lời. Các kĩ thu ật đó bao gồm nhận dạng thự c th ể (named -entity recognition), trích xu ất mối quan hệ, loại bỏ nhập nhằng ngữ n ghĩa, … Các hệ thống này thường sử dụng các nguồn tri th ức có thể tìm thấy trong ontology như WordNet hay Suggested Upper Merged Ontology (SUMO) để làm tăng thêm kh ả n ăng lập luận thông qua các liên kết ngữ ngh ĩa và định nghĩa. 1.1.5.3. Phân loại theo khả năng trả lời câu hỏi Hệ thống hỏi đáp có kh ả năng trả lời các câu hỏ i liên quan đến sự vật, hiện tượng: hệ thống hỏi đáp thuộ c lo ại này d ựa trên việc trích chọn ra câu trả lời có sẵn trong kho tài liệu để đưa ra câu trả lời. Câu trả lời là các chuỗi ký tự trong một tài liệu. Kỹ thu ật chính được sử dụng là xử lý chuỗi và từ khóa. Hệ thống hỏ i đáp có khả năng lập luận: hệ thống hỏi đáp thuộc loại này có thể trả lời các câu hỏ i có tính chất suy đoán, các câu trả lời có thể có sẵn ho ặc ẩn trong tài liệu. Hệ thống cần trích ra các luận chứng và sử dụng lập luận để tìm mố i quan hệ giữa câu hỏi và câu trả lời. Hệ thống hỏi đáp có khả năng giao tiếp với người dùng: hệ thống h ỏi đáp thuộ c loại này có kh ả năng trả lời các câu hỏi d ạng chuỗi và có khả n ăng lập luận để hiểu được đầy đ ủ câu hỏi và tìm câu trả lời thích hợp. Ví dụ các câu hỏi của người dùng như: “Nhạ c sĩ Beethoven sinh năm nào?Ở đâu?Bắ t đầu sáng tác nhạ c năm nào?”. Hệ thống hỏi đáp trả lời các câu hỏ i yêu cầu khả năng tổng hợp: câu trả lời thường nằm trong nhiều tài liệu khác nhau, chính vì thế m à h ệ thống cần có khả năng tìm kiếm các ph ần củ a câu trả lời và kết hợp thành mộ t câu trả lời hoàn chỉnh. Câu hỏi thường là về d anh sách, về cách thức, nguyên nhân ... Hệ thống hỏ i đáp danh sách thuộc loại này. Khóa lu ận Phương pháp nâng cao chất lượng kết quả trả lời trong h ệ hỏi đáp danh sách tiếng Việt tập trung vào phương pháp đ ể nâng cao chất lượng cho hệ hỏ i đáp danh sách. Phần tiếp theo sẽ giới thiệu chi tiết hơn về h ệ thống hỏi đáp danh sách. 9
1.2. Hệ thống hỏi đáp danh sách 1.2.1. Giới thiệu Khái niệm: Hệ thống hỏi đáp danh sách là hệ thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới d ạng một danh sách. [28] Ví dụ câu hỏi: “Kể tên các thành phố củ a Việt Nam ?” Câu trả lời là “Hà Nội, Hải Phòng, Thanh Hóa, Nghệ An, …” Như đã thảo luận ở trên, bài toán xây dựng hệ hỏi đáp đã được nhiều hội nghị thường niên về trích chọn thông tin, khai phá dữ liệu dành mộ t chủ đề riêng. Cụ th ể đối với hộ i nghị TREC thì hệ thống hỏ i đáp được giới thiệu đầu tiên đó là TREC-8 (1999) [10]. Hệ hỏi đáp danh sách đ ã được đề cập đến tại TREC 2001 và TREC 2002, tuy nhiên chưa được nhiều nhà nghiên cứu quan tâm bởi họ còn tập trung vào chủ đ ề chính đó là về factoid Question Answering. Đến TREC 2003 thì hệ hỏi đáp danh sách đã được đưa vào làm một trong cách chủ đề chính, đ ây cũng là mộ t sự thúc đẩy cho việc nghiên cứu về h ệ thống hỏ i đáp danh sách. Có th ể kể đ ến mộ t số h ệ thống hỏ i đáp danh sách tiêu biểu như: FADA, Ephyra.  Năm 2004, Hui Yang và Tat-Seng Chua đã giới thiệu h ệ thống FADA, m ột hệ thống hỏi đáp danh sách dựa vào việc phân tích câu hỏ i, phân cụm, phân lớp các văn bản web và trích xu ất nội dung đ ể tìm các câu trả lời khác nhau và đáng tin cậy.  Hệ thống hỏi đáp danh sách Ephyra được N. Schlaefer, P. Gieselmann và G. Sautter giới thiệu tại hộ i nghị TREC 2006 [22]. Ephyra là mộ t hệ thống hỏi đáp miền mở mềm d ẻo, có thể kết hợp nhiều kĩ năng phân tích câu hỏi và trích chọn câu trả lời các nhau, cũng như kết hợp các nguồn tri thức khác nhau. Kĩ thuật được sử dụng trong Ephyra bao gồm họ c và khớp mẫu, phân tích loại câu trả lời và sử dụng các bộ lọ c đ ể loại bỏ dư thừa. 1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách Hệ hỏ i đáp nói chung cũng như h ệ hỏi đáp danh sách nói riêng đang nhận đư ợc nhiều sự quan tâm của các nhà nghiên cứu. Đã có nhiều hướng tiếp cận khác nhau được đưa ra để giải quyết bài toán cho hệ hỏ i đáp danh sách như hướng tiếp cận tìm câu trả lời cho h ệ hỏi đáp danh sách dự a trên Giả thuyết phân phố i [19]; hay việc so sánh và khớp các cụm từ cho loại câu trả lời, xung quanh mộ t ngữ cảnh của các từ khóa của câu hỏi hay từ đồng nghĩa; hệ thống hỏi đáp danh sách FADA dự a vào phân 10
tích câu hỏi, phân cụm, phân lớp các văn b ản web và trích chọn nội dung đ ể tìm ra các câu trả lời khác nhau và đáng tin cậy; hay hướng tiếp cận sử dụng quan hệ thượng h ạ danh (hyponym) [5]… Như đã bàn luận ở trên, mộ t thách thứ c khi nghiên cứu và xây d ựng hệ thống hỏi đáp danh sách là làm sao có thể trả về được danh sách đầy đủ các kết qu ả trả lời. Đây là thách thức rất lớn vì có thể trong tập tài liệu mà hệ thống thu thập về để xử lý không chứa đủ tất cả các kết qu ả trả lời, hoặc h ệ thống không trích chọn được tất cả các kết quả trả lời có trong tập văn bản thu th ập được. Hiện nay, các nhà nghiên cứu và xây dựng hệ th ống hỏi đáp danh sách cố gắng đ ể có th ể trả về tập kết quả đầy đ ủ nh ất có thể. R. Wang và cộng sự [25][28] đã đề xuất ý tưởng nâng cao chất lượng cho tập câu trả lời củ a h ệ thống hỏ i đáp danh sách (làm đầy đủ h ơn tập kết quả trả lời) bằng cách áp dụng phương pháp mở rộng thực th ể đối với tập kết quả trả lời được trả về từ h ệ thống hỏi đáp danh sách. 1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách Ngoài nh ững vấn đ ề, những yêu cầu, thách thức chung củ a h ệ thống hỏi đáp, việc nghiên cứu và xây dựng hệ thống hỏ i đáp danh sách còn gặp phải những khó khăn, thách thứ c riêng. Xác định từ khóa câu hỏi: Mộ t vấn đ ề khi phân tích câu hỏi trong hệ thống hỏi đáp danh sách đó chính là xác định đúng được từ khóa của câu hỏi. Các câu hỏi trong hệ thống h ỏi đáp danh sách thường yêu cầu trả về một danh sách các thực thể có một hoặc mộ t vài đặc điểm chung. Thông thường, từ khóa trong câu hỏi danh sách chính là đặc điểm chung đó. Ví dụ câu hỏ i: “Kể tên các hãng điện tho ại?” Thì từ khóa trong câu hỏi này là “hãng điện thoại” và các thực thể trong danh sách câu trả lời có đ ặc điểm chung đó là đ ều là “hãng điện tho ại”. Hay câu hỏi “Tên các loài động vật có vú?” thì câu trả lời được trả về ph ải là danh sách các thực thể (tên) có cùng một đặc điểm đó là “động vật có vú”. Chính vì th ế việc xác định được từ khóa của câu hỏi trong hệ thống hỏi đáp danh sách là một bước rất quan trọng và có ảnh hưởng đến các bước sau củ a hệ thống hỏi đáp cũng như đ ến kết qu ả câu trả lời cuối cùng. Khả năng tổng hợp: Không giống như nhiều hệ hỏi đáp khác, câu trả lời củ a h ệ hỏi đáp danh sách thường không nằm tại một tài liệu mà nằm rải rác ở nhiều tài liệu khác nhau. Chính vì thế, h ệ thống hỏi đáp danh sách cần phải có khả năng trích chọn và tổng hợp được câu trả lời từ thông tin ở rất nhiều các nguồn tài liệu khác nhau. 11