Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu một số bài toán trong hỏi đáp cộng đồng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

21
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của luận án "Nghiên cứu một số bài toán trong hỏi đáp cộng đồng" là đi giải quyết các thách thức trên qua việc đề xuất các mô hình học sâu kết hợp với cơ chế chú ý được đề xuất cho một số bài toán CQA giúp nâng cao hiệu quả các mô hình dự toán.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu một số bài toán trong hỏi đáp cộng đồng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HÀ THỊ THANH NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG Ngành: Hệ thống thông tin Mã số: 9480104 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2021
Công trình được hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: HD1: PGS.TS. Nguyễn Thị Kim Anh HD2: TS. Nguyễn Kiêm Hiếu Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội. Vào hồi .. giờ .., ngày ... tháng ... năm ... Có thể tìm hiểu luận án tại: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam.
MỞ ĐẦU 1. Bối cảnh nghiên cứu Nhu cầu đặt câu hỏi và tìm kiếm câu trả lời của người dùng hàng ngày là rất lớn. Nguồn thông tin lớn nhất hiện nay là thông tin tìm kiếm trên mạng thông qua các trang web. Trong đó hệ thống hỏi đáp cộng đồng (Community Question Answering - CQA) là một trong những hệ thống hiệu quả và phổ biến trong việc tìm kiếm thống tin trên web. Một người dùng muốn có câu trả lời họ phải đăng câu hỏi lên hệ thống và chờ các thành viên khác tham gia trả lời. Qua thời gian, hệ thống hỏi đáp cộng đồng chứa lượng thông tin rất lớn và hữu ích. Từ đó hệ thống phát sinh các bài toán cần giải quyết giúp cho người dùng truy cập thông tin một cách thuận tiện hơn, rút ngắn thời gian truy cập và tìm kiếm thông tin. Thứ nhất, trong hệ thống hỏi đáp cộng đồng, khi một câu hỏi được đưa lên hệ thống, nếu câu hỏi thú vị và được nhiều người quan tâm thì câu hỏi đó sẽ nhận được rất nhiều câu trả lời. Thậm chí có những câu hỏi có đến hàng trăm câu trả lời. Bên cạnh thuận lợi là người hỏi sẽ nhận được nhiều phản hồi về câu hỏi của mình thì điều này cũng có bất lợi đó là người hỏi cũng như những người dùng khác quan tâm tới câu hỏi phải mất khá nhiều thời gian để đọc qua tất cả các câu trả lời và chọn cho mình câu trả lời tốt nhất. Do đó hệ thống CQA cũng cần có công cụ hỗ trợ người dùng giúp người dùng có thể lựa chọn ra các câu trả lời đúng nhất với thời gian nhanh nhất. Do đó bài toán lựa chọn câu trả lời được đặt ra để giải quyết vấn đề này. Thứ hai, theo thống kê thì có ít nhất 78% câu trả lời tốt nhất của câu hỏi được sử dụng lại khi câu hỏi tương tự được hỏi lại. Trong số đó chỉ có 48% câu hỏi là có duy nhất một câu trả lời tốt nhất, còn lại trong số đó có chứa nhiều câu trả lời liên quan hoặc những câu trả lời không đầy đủ. Nguyên nhân của việc câu trả lời không đầy đủ có thể do câu hỏi chứa nhiều ý hỏi. Hơn nữa mỗi người dùng có tri thức về từng lĩnh vực khác nhau, cách tiếp cận và quan điểm khác nhau dẫn tới câu trả lời khác nhau. Người hỏi phải mất thời gian đọc và tổng hợp các ý kiến để thu được câu trả lời chứa đầy đủ chứa các thông tin mình cần. Do đó, một cách tiếp cận hiệu quả đó là kết hợp nhiều câu trả lời để sinh ra một đoạn tóm tắt giúp tạo ra câu trả lời hoàn chỉnh. Thứ ba, khi một câu hỏi được đăng lên hệ thống hỏi đáp cộng đồng thì không phải câu hỏi nào cũng nhận ngay được câu trả lời từ cộng đồng. Có câu hỏi khi đăng lên hệ thống sau vài giờ có thể nhận được câu trả lời nhưng có những câu hỏi phải mất vài ngày. Để khắc phục tình trạng chậm trễ này, bài toán tìm câu hỏi tương đồng trong kho dữ liệu được đặt ra có thể giải quyết vấn đề này. Người dùng hi vọng rằng những câu trả lời của các câu hỏi tương đồng có thể là câu trả lời của câu hỏi mới. Hơn nữa, hệ thống mà dữ liệu được tích lũy qua nhiều năm trở lên rất lớn thì khả năng người dùng hỏi lại những câu hỏi trước đó là rất cao. Do đó bài toán tìm câu hỏi tương đồng càng trở lên có ý nghĩa. Để giải quyết các vấn đề trên, rất nhiều nghiên cứu đã được đề xuất. Khi giải quyết những bài toán này, các nhà nghiên cứu phần lớn giải quyết thách thức lớn nhất đó là khoảng cách từ vựng (lexical gap) giữa câu hỏi với câu hỏi, giữa câu hỏi với câu trả lời. Các nghiên cứu tập trung vào hướng: khai thác đặc trưng từ vựng, đặc trưng kĩ thuật về cú pháp và ngữ nghĩa của câu. Thời gian gần đây các nghiên cứu tập trung vào đề xuất mô hình mạng nơ ron học sâu với kiến trúc Siamese, mô hình dựa trên so sánh tổng hợp (compare-aggregate) đến các mô hình dựa trên cơ chế chú ý (attention). Bên cạnh đó các mô hình dựa vào các mô hình ngôn ngữ và các mô hình riêng biệt cho hệ thống hỏi đáp cũng được đề xuất. Tất cả các nghiên cứu này đều với mục đích học ra được ngữ nghĩa và mối quan hệ giữa câu hỏi với câu hỏi và câu hỏi với câu trả lời để đưa ra dự đoán tốt nhất. 2. Động lực thúc đẩy Từ bối cảnh trên, vai trò của ba bài toán: Bài toán tìm câu trả lời tốt nhất, bài toán tóm tắt câu trả lời và bài toán tìm câu hỏi tương đồng trong hệ thống hỏi đáp cộng đồng là rất quan trọng. Việc cải thiện chất lượng dự đoán của ba bài toán tương ứng với việc phát triển chức năng hỗ trợ người dùng, giúp người dùng cảm thấy tiện lợi nhất khi sử dụng hệ thống hỏi đáp cộng đồng. Nhận thức được điều này, các bài toán trong hệ thống hỏi đáp cộng đồng là mục tiêu nghiên cứu của luận án. Mặc dù có rất nhiều nghiên cứu trên các bài toán NLP cũng như các bài toán của hệ thống hỏi đáp 1
cộng đồng và đề xuất được rất nhiều giải pháp cải tiến để nâng cao hiệu suất và độ chính xác của mô hình nhưng vẫn còn khoảng cách rất lớn giữa hiệu quả thực tế của mô hình đạt được với mong muốn của người dùng. Dữ liệu trên hệ thống hỏi đáp cộng đồng vẫn có rất nhiều thách thức. Một trong những thách thức đó là dữ liệu văn bản trên các mạng xã hội. Dữ liệu này thường nhiều nhiễu, câu ở dạng văn nói, nhiều từ viết sai chính tả, viết tắt. Hơn nữa, có những câu trả lời hoặc câu hỏi chứa nhiều nội dung không liên quan. Lý do này làm cho thách thức về khoảng cách từ vựng giữa câu hỏi với câu hỏi và câu hỏi với câu trả lời càng khó và phức tạp. Một lý do khác, các nghiên cứu về các bài toán hỏi đáp cộng đồng phần lớn được thực hiện trên tập dữ liệu tiếng Anh. Nghiên cứu về hệ thống hỏi đáp cộng đồng trên dữ liệu tiếng Việt còn hạn chế. Đặc biệt là trên các miền dữ liệu cụ thể. Các nghiên cứu khác cũng chỉ ra rằng khi làm việc trên miền dữ liệu cụ thể giúp cho mô hình học tốt hơn trên mô hình dữ liệu mang nhiều chủ đề chung chung. Cuối cùng là các nghiên cứu phần lớn tập trung vào cải thiện hiệu năng về độ chính xác của mô hình mà chưa chú ý nhiều về thời gian. Cụ thể đó là yêu cầu về thời gian phản hồi khi câu hỏi mới được đăng lên. Đây cũng là yêu cầu cần thiết của các hệ thống phần mềm để thỏa mãn yêu cầu của người dùng một cách tốt nhất và thuận tiện nhất. 3. Mục tiêu và phạm vi nghiên cứu Mục tiêu chính của luận án là đi giải quyết các thách thức trên qua việc đề xuất các mô hình học sâu kết hợp với cơ chế chú ý được đề xuất cho một số toán trong hệ thống CQA giúp nâng cao hiệu quả của các mô hình dự đoán. Các mô hình học sâu là mô hình end-to-end mà từ dữ liệu thô đầu vào đi các các lớp ẩn trong mạng nơ ron và đưa ra kết quả đầu ra. Trong mô hình này, việc học đặc trưng ngữ nghĩa của văn bản và lớp dữ đoán được tích hợp và học một cách đồng thời thay vì thực hiện một cách tuần tự. Các mô hình này đã được chứng minh phù hợp với dữ liệu cộng đồng trong các bài toán hỏi của hệ thống hỏi đáp CQA. Trong phạm vi nghiên cứu của luận án, các thông tin từ người dùng chuyên gia không được khai thác sử dụng. Kết quả đạt được của luận án góp phần giải vào việc phân tích tổng thể các mô hình học sâu ứng dụng vào các bài toán của hệ thống CQA. Các mục tiêu được thể hiện cụ thể qua các đóng góp dưới đây. 4. Các đóng góp chính của luận án Để thực hiện mục tiêu trên của đề tài, luận án tập trung vào các đề xuất sau đây: • Thứ nhất, luận án đã đề xuất mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát (supervised attention) để giúp mô hình học trọng số chú ý tốt hơn từ đó giúp cho mô hình dự đoán tốt hơn. Thực nghiệm chứng minh rằng mô hình đề xuất giúp xác định các nội dung quan trọng của câu hỏi và câu trả lời. Qua đó, các phần không liên quan tới nội dung chính (phần dư thừa) cũng được mô hình phát hiện. Từ đó, mô hình đề xuất giúp cho quá trình dự đoán câu trả lời tốt hơn so với mô hình gốc ban đầu. • Đề xuất thứ hai là một phương pháp tóm tắt câu trả lời. Cụ thể, mô hình học không giám sát LSTM-AE để học ra biểu diễn của câu mà không cần dữ liệu có nhãn được đề xuất. Mô hình này khai thác ngữ nghĩa và cú pháp của câu thông qua trật tự từ trong câu. Mô hình đề xuất cho chất lượng tóm tắt tốt tương đương với phương pháp học biểu diễn có giám sát và thậm chí cho chất lượng tốt hơn trên một số độ đo mà không mất công gán nhãn dữ liệu. Thuật toán MMR được sử dụng để trích rút các câu tóm tắt giải quyết thách thức về sự đa dạng và trùng lặp dữ liệu trong tóm tắt. • Thứ ba, mô hình BERT được sử dụng cho bài toán tìm kiếm câu hỏi tương đồng trên tập dữ liệu tiếng Việt giúp cải thiện hiệu năng về độ chính xác của mô hình. Đồng thời, mô hình SBERT được đề xuất sử dụng vào bài toán tìm câu hỏi tương đồng giúp giảm thời gian phản hồi lại người dùng về các câu hỏi tương đồng khi câu hỏi mới được đăng lên hệ thống. Mô hình SBERT giải quyết mục tiêu về mặt thời gian phản hồi của hệ thống mà vẫn đảm bảo độ chính xác cao. Các mô hình đề xuất trong luận án có ưu điểm hơn so với các mô hình đã có xét trên một số độ đo như độ đo MAP, MRR (đối với bài toán tìm kiếm câu trả lời và bài toán tìm kiếm câu hỏi tương đồng), Rouge-N đối với bài toán tóm tắt câu trả lời. Hơn nữa, mô hình kết hợp tại chương 2 và mô hình đề xuất tại chương 4 còn có tính giải thích tốt hơn thông qua việc trực quan hóa các trọng số chú ý của từng từ trong câu. 2
Trên đây là các đóng góp của luận án. Luận án tập trung giải quyết một số thách thức cơ bản của các bài toán trong hệ thống hỏi đáp cộng đồng qua việc đề xuất các mô hình học sâu kết hợp với cơ chế chú ý. Các mô hình này được trình bày cụ thể trong các chương của luận án. 5. Bố cục của luận án Với các đóng góp của luận án trình bày ở mục trên, luận án bao gồm 4 chương với bố cục như sau: • Chương 1: Chương này trình bày cách khái quát một số hệ thống tìm kiếm thông tin bao gồm: hệ thống hỏi đáp tự động và hệ thống hỏi đáp cộng đồng cùng với các thách thức cơ bản trong từng hệ thống. Nội dung tiếp theo giới thiệu về một số bài toán của hệ thống hỏi đáp cộng đồng được đề cập chính trong luận án và các mô hình học sâu cơ bản. Những mô hình này là nền tảng để đề xuất một số mô hình cải tiến áp dụng vào các bài toán này. • Chương 2: Mô hình match-LSTM được đề xuất sử dụng vào bài toán lựa chọn câu trả lời. Thực nghiệm cho thấy rằng cơ chế chú ý (attention) theo hướng từng từ (word-by-word) làm việc không hiệu quả trên mô hình gốc đối với cặp dữ liệu câu hỏi và câu trả lời trong mạng xã hội. Vì vậy, ngữ nghĩa của từ vựng từ tri thức bên ngoài được tận dụng để hướng dẫn mô hình học ra trọng số chú ý của cặp từ trong câu hỏi và câu trả lời. Thực nghiệm cho thấy mô hình được đề xuất đã học được trọng số chú ý có ý nghĩa hơn, đồng thời qua đó giúp cho mô hình làm việc tốt hơn so với mô hình gốc. Mô hình cũng cho kết quả tương đương và tốt hơn so với kết quả của các đội đứng đầu trên tập dữ liệu của cuộc thi Semeval 2017. Tính hiệu quả của mô hình được giải thích thông qua việc trực quan hóa các trọng số chú ý học được giữa từng từ của câu hỏi với các từ trong câu trả lời. • Chương 3: Tiếp theo chủ đề về vấn đề xác định chất lượng câu trả lời, bài toán tóm tắt các câu trả lời được đề xuất giải quyết trong luận án. Chương này trình bày một phương pháp tóm tắt câu trả lời của các câu hỏi non-factoid trong hệ thống CQA. Trong đó, hai mô hình học không giám sát Auto-Encoder và mô hình LSTM-AutoEcoder được đề xuất để học ra biểu diễn câu và sử dụng trong phương pháp tóm tắt câu trả lời. Các biểu diễn câu được sử dụng trong thuật toán MMR (Maximal Marginal Relevance) để tóm tắt câu trả lời theo kiểu trích rút hướng truy vấn. Kết quả cho thấy rằng phương pháp biểu diễn câu không giám sát cho kết quả tương đương và thậm chí còn cao hơn với phương pháp biểu diễn có giám sát. • Chương 4: Chương này trình bày cách xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng trên miền dữ liệu thương mại điện tử. Sau đó mô hình BERT (là mô hình mang lại hiệu năng vượt trội cho các bài toán NLP thời gian gần đây) được sử dụng để đánh giá hiệu năng của mô hình với các tiền huấn luyện trên các tập dữ liệu tiếng Việt khác nhau. Chương này mô tả chi tiết cách thực hiện mô hình BERT cho bài toán tìm kiếm câu hỏi trên tập dữ liệu thương mại điện tử. Cụ thể là khi mô hình BERT được huấn luyện trên cùng miền dữ liệu thương mại điện tử cho kết quả tốt hơn khi dùng BERT huấn luyện trên tập có miền dữ liệu chung chung. Tiếp theo, mô hình SBERT được đề xuất để học biểu diễn ngữ nghĩa của câu sang không gian với số chiều cố định với mục đích giảm thời gian tìm kiếm, giúp cho ứng dụng chạy nhanh hơn đáp ứng yêu cầu của người dùng mà vẫn duy trì được độ chính xác của mô hình BERT. Mô hình SBERT với kiến trúc bộ ba (triplet) học ra biểu diễn của câu, giúp giảm thời gian tìm kiếm câu hỏi tương đồng. Do đó, hệ thống phản hồi lại người dùng nhanh hơn mà vẫn đảm bảo kết quả tốt. Nội dung luận án đã trình bày giải quyết một số bài toán quan trọng trong hệ thống hỏi đáp cộng đồng như tìm kiếm câu hỏi tương đồng, tìm câu trả lời tốt nhất và tóm tắt câu trả lời. Các nội dung trong luận án đã giải quyết được các mục tiêu đã đề ra. 3
Chương 1 TỔNG QUAN VỀ ĐỀ TÀI Chương này trình bày một cách khái quát về hệ thống hỏi đáp tự động và hệ thống hỏi đáp cộng đồng, sự giống và khác nhau giữa hai hệ thống này. Một số bài toán của hệ thống hỏi đáp cộng đồng và các mô hình học sâu cơ bản được trình bày là cơ sở đề xuất một số mô hình cải tiến áp dụng vào các bài toán này. 1.1. Hệ thống hỏi đáp 1.1.1. Định nghĩa hệ thống hỏi đáp 1.1.2. Kiến trúc của hệ thống QA 1.1.3. Các cách tiếp cận tới hệ thống hỏi đáp QA 1.1.4. Thách thức của hệ thống QA 1.2. Hỏi đáp cộng đồng Hỏi đáp cộng đồng (Community Question Answering - CQA) cũng là hệ thống hỏi đáp và tìm kiếm thông tin nhưng tiếp cận theo hướng khác. Trong khi câu trả lời của hệ thống hỏi đáp tự động được lấy ra từ các văn bản thì câu trả lời trong hệ thống CQA nhận được từ cộng đồng người dùng. Những forum này cung cấp giao diện cho phép người dùng đăng câu hỏi về bất cứ chủ đề gì và mong muốn nhận được câu trả lời từ người dùng khác. Những câu trả lời được cung cấp từ người dùng thường rõ ràng và có độ chính xác cao. Những ứng dụng như vậy thường được gọi là hỏi đáp dựa vào cộng đồng. Yahoo!Answer1 là một ví dụ. Đây là trang hỏi đáp cho phép người dùng đặt ra các câu hỏi về tất cả các lĩnh vực để mong nhận được câu trả lời từ cộng đồng và người dùng cũng có thể trả lời câu hỏi của người dùng khá. 1.2.1. Kiến trúc của hệ thống hỏi đáp cộng đồng Hình 1.2.1 mô tả kiến trúc và quá trình tương tác giữa các thành phần trong hệ thống CQA. Hệ thống bao gồm quá trình xử lý câu hỏi, quá trình xử lý câu trả lời và các thành viên tham gia. 1.2.2. So sánh QA và CQA 1.3. Các bài toán trong hệ thống hỏi đáp cộng đồng 1.3.1. Xác định chất lượng của câu trả lời Hệ thống hỏi đáp cộng đồng là hệ thống cho phép người dùng trả lời câu hỏi mà họ quan tâm và muốn chia sẻ kiến thức. Do đó, một câu hỏi khi được đăng lên có thể có nhiều câu trả lời ứng viên. Đây là hệ thống mở, dễ dàng chia sẻ và trao đổi thông tin dẫn tới sự tăng trưởng mạnh mẽ của các loại hệ thống này. Tuy nhiên hệ thống cũng có những điểm hạn chế. Hạn chế thứ nhất đó là nội dung đa dạng về chủ đề nhưng lại thiếu cấu trúc phù hợp với từng loại. Điểm thứ hai liên quan tới những câu trả lời kém chất lượng được tạo ra bởi một số lý do như nhận thức của người dùng về một số lĩnh vực còn hạn chế, thiếu tập trung và không chuẩn bị kĩ càng khi trả lời. Do là người dùng khác nhau nên các câu trả lời có sự khác biệt lớn về chất lượng, cấu trúc và phạm vi câu trả lời. Do đó, hệ thống CQA cần có phương pháp toàn diện khai thác câu trả lời để đưa ra câu trả lời tốt nhất của câu hỏi hoặc gợi ý câu trả lời tốt nhất cho câu hỏi mới. Hệ thống CQA hiện tại có hai bài toán giúp người dùng tổng hợp câu trả lời tốt nhất một cách tự động đó là bài toán xếp hạng các câu trả lời ứng viên theo mức độ liên quan tới câu hỏi và bài toán tóm tắt câu trả lời giúp người dùng có câu trả lời đầy đủ nhất. Hai bài toán này góp phần đáp ứng tiêu chí giảm thời gian cho người dùng khi phải tìm và tổng hợp câu trả lời. 1 https://answers.yahoo.com/ 4
CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI Hình 1.3: Kiến trúc của hệ thống CQA Bài toán tìm câu trả lời tốt nhất trong hệ thống hỏi đáp Forum hỏi đáp cộng đồng ngày càng phổ biến tuy nhiên những website này hầu như không được kiểm soát. Do đó, hệ thống này có điểm hạn chế vì lý do bất kì ai cũng có thể đăng câu hỏi và trả lời câu hỏi. Ưu điểm của việc làm này đó là mọi người có thể tự do hỏi bất kì câu hỏi gì mà mình muốn và mong đợi rằng nhận được câu trả lời tốt và trung thực. Như vậy khi một câu hỏi được đăng lên sẽ có nhiều người dùng vào trả lời cho câu hỏi đó. Người hỏi sẽ phải rất nỗ lực và mất thời gian để đọc tất cả các câu trả lời đó (có những câu hỏi có đến hàng trăm câu trả lời do người dùng khác tham gia trả lời) và hiểu được chúng. Vì vậy việc đề xuất bài toán tự động tìm những câu trả lời tốt nhất trong số các câu trả lời của người dùng đã trả lời cho câu hỏi đó sẽ hỗ trợ cho người dùng có thể đánh giá và tìm được câu trả lời mong muốn một cách nhanh nhất. Bài toán tóm tắt câu trả lời Bài toán thứ hai nằm trong nội dung đánh giá chất lượng câu trả lời đó là bài toán tóm tắt câu trả lời. Các forum hỏi đáp là nguồn dữ liệu giàu tri thức. Nó thường chứa những thông tin về các chủ đề mà khó tìm qua máy tìm kiếm. Các câu trả lời có thể không được chuẩn bị kĩ lưỡng, chứa spam hoặc thậm chí là những câu đùa cợt hoặc quảng cáo. Đặc biệt, một số câu hỏi dạng giải thích, quan điểm hoặc liệt kê (câu hỏi non-factoid) thì câu trả lời nhận được thường không đầy đủ kể cả những câu trả lời tốt nhất. Đây cũng là khó khăn cho người đọc khi phải đọc qua tất cả các câu trả lời này để tổng hợp câu trả lời tốt nhất. Vì lý do này mà bài toán tóm tắt câu trả lời được đặt ra hỗ trợ người dùng tổng hợp câu trả lời một cách tự động. 1.3.2. Bài toán tìm câu hỏi tương đồng Cùng với sự phát triển của các web-forum, ngày càng có nhiều người sử dụng hệ thống này để tìm kiếm câu trả lời cho câu hỏi mà họ cần. Để hệ thống hoạt động tốt hơn và đáp ứng yêu cầu của người dùng, các hệ thống này cũng hướng tới giải quyết thách thức về độ trễ khi chờ câu trả lời từ người dùng. Thực tế cho thấy rằng có những câu hỏi khi đăng lên vài ngày sau mới nhận được câu trả lời, thậm chí là không có ai trả lời. Vấn đề này được giải quyết dựa vào ý tưởng sử dụng các câu trả lời đã có của các câu hỏi trước đó của hệ thống thông qua các câu hỏi tương đồng với câu hỏi mới. Cụ thể là thông qua việc tìm câu hỏi tương đồng của câu hỏi mới và tận dụng câu trả lời có sẵn của những câu hỏi tương đồng này để tìm ra câu trả lời cho câu hỏi mới. Điều này giúp cho hệ thống giảm thời gian chờ như đã đề cập ở phần trên. 1.4. Thách thức của hệ thống hỏi đáp CQA Với các phân tích ở phần trên, thách thức lớn nhất của hệ thống hỏi đáp cộng đồng là vấn đề khoảng cách từ vựng (lexical gap) bao gồm: • Khoảng cách từ vựng giữa các câu hỏi: đây là thách thức quan trọng trong hệ thống hỏi đáp nói chung. Nó liên quan tới sự sai khác trong cách dùng ngôn ngữ tự nhiên khi diễn tả giữa các câu hỏi khác nhau. Trong hệ thống cộng đồng có nhiều người dùng cho nên cách diễn đạt câu hỏi khác nhau (dùng từ vựng khác nhau) nhưng cùng diễn đạt một ý như nhau. Hơn nữa, đây lại là dữ liệu cộng đồng. Các câu hỏi được đặt ra trong hệ thống hỏi đáp cộng đồng sử dụng ngôn ngữ tự 5
CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI Bảng 1.1: Thống kê một số tập dữ liệu CQA được các nhà khoa học dùng để đánh giá mô hình. Train Dev Test Tổng Yahoo!answer 87.390 câu hỏi và 414.446 câu trả lời Trec-QA 1229 80 100 1409 cặp câu hỏi-câu trả lời Quora 404.289 cặp câu hỏi SemEval 2017 267 50 88 405 câu hỏi gốc và 4050 câu trả lời nhiên, chứa nhiều ý hỏi và phức tạp. Do vậy, việc xác định tính tương đồng của hai câu hỏi càng khó khăn. • Khoảng cách từ vựng giữa câu hỏi và câu trả lời: Trong câu hỏi và câu trả lời cũng chứa đặc trưng ngôn ngữ giống thách thức của cặp các câu hỏi nhưng trong câu hỏi-câu trả lời còn có sự sai khác rất lớn do thông tin của câu hỏi và câu trả lời không đối xứng. Ngoài tiêu chí về độ chính xác của các hệ thống dự đoán còn có tiêu chí quan trọng không kém đó là tiêu chí về thời gian phản hồi thông tin của người dùng. Khi tập dữ liệu CQA ngày càng lớn thì việc xác định độ tương đồng ngữ nghĩa của câu hỏi mới với tất cả các câu hỏi trong kho dữ liệu CQA ngày càng trở lên thách thức về mặt thời gian. Vì vậy việc nghiên cứu bài toán tìm câu hỏi tương đồng càng có ý nghĩa. Toám lại, luận án giải quyết hai thách thức lớn nhất là thách thức về khoảng cách từ vựng giứa câu hỏi với câu hỏi và câu hỏi với câu trả lời. Đồng thời luận án cũng đề cập tới giải quyết thách thức về thời gian tìm kiếm trong bài toán tìm câu hỏi tương đồng. Qua đó với việc giải quyết bài toán tìm câu hỏi tương đồng cũng khắc phục độ trễ của hệ thống hỏi đáp cộng đồng như đã đề cập ở trên. 1.5. Tập dữ liệu CQA Sau đây là các tập dữ liệu mà các nhà nghiên cứu đã sử dụng để so sánh và đánh giá các phương pháp mà họ đề xuất. Bảng 1.1 mô tả chung về một số tập dữ liệu Khác biệt lớn nhât giữa tập Trec-QA và các tập dữ liệu còn lại đó là về đặt trưng ngôn ngữ: tập dữ liệu TREC-QA là tập dữ liệu với ngôn ngữ tiếng Anh chuẩn. Các câu hỏi chủ yếu là câu hỏi factoid và các câu hỏi thường ngắn gọn không mô tả được hết những thách thức của hệ thống hỏi đáp cộng đồng. Trong khi đó tập dữ liệu khác như Yahoo!answer, Quora, SemEval ngôn ngữ dùng là ngôn ngữ nói. Đặc biệt hơn, tập SemEval đôi khi người dùng còn dùng ngôn ngữ khác không phải tiếng Anh. Ngoài ra các tập dữ liệu như Yahoo!answer và Quora lại không chia thành các tập huấn luyện, tập phát triển và kiểm thử chuẩn. Mỗi công bố trên tập dữ liệu này lại chia tập dữ liệu thử nghiệm khác nhau nên các phương pháp được đề xuất khó so sánh với nhau. Khác biệt thứ hai là các câu hỏi trong tập CQA chứa nhiều câu hỏi mở với nhiều lĩnh vực khác nhau, còn tập TREC-QA chứa nhiều các câu hỏi factoid có nội dung ngắn gọn và rõ ràng. Khác biệt thứ 3 giữa tập dữ liệu CQA và QA là các tập CQA thường có lượng dữ liệu lớn hơn nhiều so với TREC-QA. Khác biệt cuối cùng đó là trong các tập dữ liệu CQA, tập dữ liệu SemEval có sẵn công cụ đánh giá chuẩn và được công khai. Tập dữ liệu này chứa nhiều miền dữ liệu. Vì vậy, tập dữ liệu này dễ dàng cho việc điều chỉnh và chuyển đổi miền sử dụng. Đây cũng là lý do luận án sử dụng tập dữ liệu này để thử nghiệm bài toán tìm câu hỏi tương đồng và bài toán tìm câu trả lời trong hệ thống hỏi đáp CQA. 1.6. kiến thức nền tảng về học sâu 6
Chương 2 BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG 2.1. Giới thiệu Bài toán tìm câu trả lời (còn gọi là bài toán lựa chọn câu trả lời hay tìm câu trả lời tốt nhất) là một bài toán trong phần đánh giá chất lượng của câu trả lời trong hệ thống hỏi đáp cộng đồng. Trong chương này, mô hình match-LSTM được đề xuất sử dụng vào bài toán lựa chọn câu trả lời. Thực nghiệm cho thấy rằng trọng số chú ý của mô hình gốc làm việc không hiệu quả trên cặp dữ liệu câu hỏi và câu trả lời trong mạng xã hội. Vì vậy, ngữ nghĩa của cặp từ vựng lấy từ tri thức bên ngoài được đề xuất sử dụng để hướng dẫn mô hình học trọng số chú ý của từng từ trong câu hỏi với các từ trong câu trả lời. Mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát học ma trận trọng số chú ý tốt hơn so với mô hình gốc trên tập dữ liệu cộng đồng. Đồng thời, việc học trọng số chú ý tốt giúp cho mô hình dự đoán tốt hơn so với mô hình gốc. Mô hình đề xuất cũng cho kết quả tương đương và tốt hơn so với kết quả đứng đầu trên tập dữ liệu của cuộc thi SemEval 2017. 2.2. Các công trình liên quan 2.3. Mô hình đề xuất Question … Intuitive attetntion weights gkj … Attention Supervised weights αkj Attention Attention-weighted Question … Loss Supervised … Answer … Loss mLSTM … Loss Prediction Max pooling Average pooling model Model Loss function Hình 2.4: Mô hình mở rộng từ mô hình match-LSTM kết hợp với cơ chế chú ý. Đầu tiên, mô hình match-LSTM được áp dụng vào bài toán lựa chọn câu trả lời. Sau đó, mô hình được mở rộng như sau ( hình 2.3): • Đầu tiên, mô hình biLSTM (Bidirectional LSTM) được sử dụng để học ra biểu diễn của từ ở mức độ kí tự. Sau đó, véc tơ này được nối với véc tơ từ nhúng Glove làm đầu vào của mô hình. Từ nhúng được học ở mức độ kí tự đã được chứng minh là học ra được biểu diễn từ nhúng có ý nghĩa cho cả ngôn ngữ hình thức và không hình thức. Trong CQA, ngôn ngữ sử dụng thông thường là ngôn ngữ theo kiểu văn nói, không hình thức. Trong đó, câu có thể chứa các từ viết tắt, lỗi chính tả, biểu tượng cảm xúc, và lỗi chú pháp. Sử dụng thêm từ nhúng ở mức kí tự có thể giúp làm giảm ảnh hưởng của hiện tượng OOV (Out of Vocabulary, trong tập test có thể có những từ không có trong bộ từ vựng của tập huấn luyện). Biểu diễn này mang lại hiệu quả với những tập dữ liệu nhỏ mà số lượng từ không có trong tập từ điển lớn như tập SemEval. Để đạt được ngữ cảnh theo trình tự xuôi và ngược của từ, mô hình biLSTM được sử dụng để học ra biểu diễn của từ. Các nghiên cứu cũng chỉ ra rằng sử dụng từ nhúng ở mức độ kí tự cũng làm tăng hiệu năng của mô hình. • Thứ hai, thay vì chỉ sử dụng véc tơ ẩn cuối cùng của đường mLSTM để dự đoán, hai phép toán lấy Max-pooling và Average-pooling của tất cả các véc tơ ẩn của mLSTM được sử dụng để tổng hợp thông tin của mô hình. Tiếp theo, véc tơ Max-pooling và Average-pooling được nối với nhau để đưa vào dự đoán. 7
CHƯƠNG 2. BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNGTRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG8 Hàm loss − f unction của mô hình gốc và mô hình nâng cao sử dụng hàm cross-entropy như sau: S 1 γ Lmodel = − (y log y + (1 − y)log(1 − y)) + ||W||2 , 2 (2.6) S 2S 1 trong đó S là số lượng các cặp câu hỏi và câu trả lời của tập huấn luyện, γ là tham số điều chỉnh, W là ma trận các tham số của mô hình match-LSTM. • Cuối cùng, cơ chế chú ý có giám sát được tích hợp vào mô hình mở rộng với mục đích học ra gióng các từ trong câu trả lời với các từ trong câu hỏi mang nhiều ý nghĩa hơn. Mô tả chi tiết được trình bày mục 2.3.1 dưới đây. 2.3.1. Cơ chế chú ý có giám sát gkj là kí hiệu trọng số chú ý đích để hướng dẫn mô hình học theo. gkj là tri thức từ bên ngoài. Giá trị này là trọng số chú ý của từ thứ k của câu trả lời với từ thứ j của câu hỏi mà mô hình mong muốn đạt tới, trong đó j gkj = 1. Sự sai khác giữa trọng số chú ý mà mô hình mở rộng hướng tới gkj với trọng số αkj của mô hình học được theo trong công thức như sau: S N M 1 Lsupervised = ( (gkj − αkj )2 ). (2.7) S 1 k=1 j=1 Sau đó, hàm mất mát (2.6) và (2.7) được kết hợp vào mô hình mở rộng như sau: L = Lmodel + λLsupervised , (2.8) trong đó S là số cặp câu hỏi và câu trả lời, λ là hệ số được điều chỉnh để điều khiển sự ảnh hưởng của các mô hình khác khau. Một cách trực giác, chúng ta mong muốn các từ gần nhau về mặt ngữ nghĩa sẽ được gióng phù hợp với nhau trong mô hình đề xuất. Để tính trọng số gkj , hàm tính độ tương tự cosin được sử dụng. Véc tơ biểu diễn từ được học từ mô hình fastText trên tập dữ liệu hỏi đáp cộng đồng SemEval 2016 và SemEval 2017 ngôn ngữ tiếng Anh không gán nhãn. fastText là mô hình học biểu diễn từ qua việc tổng hợp từ các véc tơ n-gram kí tự, trong đó mỗi từ được biểu diễn qua túi n-gram kí tự (ví dụ từ ’where’ biểu diễn qua 3-gram là ’’). Phương pháp biểu diễn này là biểu diễn hiệu quả với tập dữ liệu có nhiều từ không có trong tập từ vựng. Sau đó, trọng số tf.idf được thêm vào công thức tính gkj để nhấn mạnh các từ chứa nội dung trong câu. Công thức cụ thể như sau: gkj = tf.idf (wq )cosine(wt , wq ), j k j (2.9) trong đó wt và wq là các véc tơ từ học từ mô hình fastText. Để tính trọng số tf.idf , mỗi văn bản k j là câu hỏi hoặc câu trả lời trên tập dữ liệu không gán nhãn. Từ đặc biệt < eos > được thêm vào cuối câu hỏi và câu trả lời với mục đích để các từ không chứa nội dung quan trọng trong câu sẽ ánh xạ vào từ đặc biệt này. Cuối cùng trọng số gkj được chuẩn hóa sử dụng hàm softmax: exp(gkj ) gkj = M , (2.10) i=1 exp(gki ) trong đó k = 1..N , j = 1..M , M là số từ của câu hỏi, N là số từ trong câu trả lời. 2.4. Các thử nghiệm và kết quả 2.4.1. Tập dữ liệu Tập dữ liệu SemEval có nhãn được sử dụng để đánh giá mô hình. Dữ liệu trên tập này được lấy từ forum Qatar Living về các chủ đề dành cho những người nước ngoài đã và sẽ tới Qatar. Tập dữ liệu này được chia thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử. Bảng 2.1 là dữ liệu thống kê trên tập dữ liệu này. 8
CHƯƠNG 2. BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNGTRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG Bảng 2.1: Bảng thống kê số cặp câu hỏi-câu trả lời trong tập dữ liệu SemEval CQA. SemEval 2016 SemEval 2017 Train 36.198 39.468 Dev 2.440 3.270 Test 3.270 2.930 Độ dài trung bình của phần nội dung câu hỏi 49.4 45.8 Độ dài trung bình của câu trả lời 38.8 38.0 Kích thước từ điển 61.271 63.758 Bảng 2.3: Kết quả so sánh mô hình đề xuất với các mô hình khác SemEval 2017 SemEval 2016 Models MAP MRR MAP MRR (A) QA-LSTM 86,68 91,01 74,36 83,4 (B) QA-LSTM-CNN 87,17 92,59 74,97 83,56 (C) QA-LSTM-attention 87,39 91,50 75,87 82,88 (D) Enhanced LSTM 87,23 93,04 76,46 83,51 (E) match-LSTM 86,51 92,12 77,70 83,76 — (E) + Max-pooling 86,90 92,13 78,00 83,90 — (E) + Max-pooling + CharRNN 87,10 92,26 78,01 84,11 (F) Enhanced match-LSTM 87,87 92,28 78,10 84,21 (G) Enhanced match-LSTM + sup. att. 88,38 93,13 78,62 84,56 (H) QCN 88,51 - - - (I) KELP 88,43 92,82 79,19 86,42 (J) ECNU 86,72 91,45 77,28 84,09 Ngoài ra tập dữ liệu không có nhãn được cung cấp bởi cuộc thi Sememval 2017 1 bao gồm 189,941 câu hỏi và 1,894,456 câu trả lời với kích thước từ điển là 63,758 từ được dùng để huấn luyện các từ nhúng Word2vec, Glove và fastText sử dụng thử nghiệm trong mô hình. Độ đo MAP(Mean Average Precision) và MRR (Mean Reciprocal Rank) được sử dụng để đánh giá hiệu năng của mô hình với kịch bản được cung cấp bởi cuộc thi SemEval2 . 2.4.2. Chọn các tham số trong các mô hình Mô hình Glove được sử dụng với số chiều là 300 cho lớp đầu vào cho tất cả các mô hình. Những từ không có trong từ điển được khởi tạo một cách ngẫu nhiên. Số chiều của biểu diễn từ ở mức độ kí tự được chọn là 50 trong các mô hình match-LSTM và mô hình mở rộng được học qua mô hình biLSTM. Số chiều của véc tơ ẩn của các đường LSTM trong tất cả các mô hình được thiết lập là 300. Số chiều véc tơ ẩn của đường mLSTM trong mô hình match-LSTM và mô hình mở rộng là 600. Véc tơ từ được học qua mô hình fastText để tính toán độ tương tự trong phần cơ chế chú ý có giám sát là 100. Thuật toán tối ưu Adam được sử dụng với tốc độ học η = 0, 0001 và hai tham số β1 = 0, 9 và β2 = 0, 999. Hệ số điều chỉnh λ và γ được thiết lập là 0,0001, kích thước lô - batch size là 64. Để tránh hiện tượng quá khớp, các kỹ thuật drop-out được sử dụng với tỉ lệ là 30% của tất cả các lớp ẩn và dừng sớm trên tập phát triển tại epoch thứ 32. 2.4.3. Kết quả và các thảo luận Phần này diễn tả chi tiết các kết quả thử nghiệm trên tập dữ liệu SemEval (bảng 2.4.3). Bảng kết quả bao gồm ba phần: từ dòng (A-D) mô tả kết quả thực hiện trên một số mô hình LSTM và CNN đã được đề xuất cho bài toán lựa chọn câu trả lời, từ dòng (E) đến dòng (F) là kết quả mô tả quá trình phát triển từ mô hình match-LSTM đến mô hình đề xuất. Dòng (H-J) là kết quả mới nhất công bố trên tập SemEval tính tới thời điểm mô hình mà mô hình match-LSTM tích hợp cơ chế chú ý có giám sát được đề xuất. Bảng 2.4.3 cho thấy mô hình match-LSTM gốc lúc đầu cho hiệu năng tương đương với các mô hình LSTM và CNN khác ở dòng (A-D). Khi thêm một số mở rộng vào mô hình này như trình bày ở phần 1 https://alt.qcri.org/semeval2017/task3/index.php?id=data-and-tools 2 https://alt.qcri.org/semeval2017/task3/ 9
CHƯƠNG 2. BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNGTRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG Bảng 2.4: Bảng kết quả so sánh mô hình math-LSTM và các mô hình mở rộng từ mô hình này khi thực hiện nối subject+body của câu hỏi SemEval CQA 2017 SemEval CQA 2016 Models MAP MRR MAP MRR match-LSTM (body) 86,51 92,12 77,70 83,76 math-LSTM (subject+body) 86,59 91,68 77,71 83,45 Enhanced match-LSTM (body) 87,87 92,28 78,10 84,21 Enhance match-LSTM (subject+body) 87,81 91,21 78,00 84,20 Enhanced match-LSTM + sup. att.(body) 88,38 93,13 78,62 84,56 Enhanced match-LSTM + sup. att.(sub.+body) 87,89 92,20 78,55 84,45 2.3, độ đo MAP và MRR của mô hình này đều tăng một cách ổn định trên cả hai tập SemEval 2016 và SemEval 2017. Đặc biệt mô hình Enhanced match-LSTM tại dòng (F) cao hơn các mô hình LSTM ở dòng (A) tới (D) ở cả hai tập SemEval CQA 2016 và SemEval CQA 2017. Khi thêm cơ chế chú ý có giám sát (trình bày tại phần 2.3.1) hiệu năng của mô hình tăng đáng kể trên cả hai tập dữ liệu này. Mô hình đề xuất đạt MRR cao nhất trên tập SemEval CQA 2017 là 93, 13% ở dòng (G) so với tất cả các mô hình còn lại. Còn MAP và MRR trên tập SemEval CQA 2016 thấp hơn so với mô hình đứng đầu KELP. Điều này chứng tỏ rằng cơ chế chú ý có giám sát có khả năng học được ngữ nghĩa câu hỏi và câu trả lời tốt hơn so với các mô hình LSTM trước đó. Đặc biệt là cơ chế chú ý có giám sát không những học được nhiều ngữ nghĩa hơn trong việc gióng từ (thảo luận phần 2.4.4 bên dưới) mà còn giúp cho mô hình dự đoán câu trả lời tốt hơn. Cụ thể là mô hình tích hợp đã vượt qua đội KELP với độ đo MRR trên tập SemEval CQA 2017, còn lại độ đo MAP ngang bằng với các kết quả đứng đầu trong hai tập dữ liệu này. Để thăm dò sự ảnh hưởng của phần chủ đề (subject) trong câu hỏi, phần chủ đề được nối với thân của câu hỏi (subject+body) tạo thành nội dung của câu hỏi. Kết quả tại bảng 2.4.3 cho thấy rằng chủ đề của câu hỏi không ảnh hưởng đến kết quả của mô hình đề xuất mà thậm chí kết quả còn thấp hơn trên cả hai mô hình Enhanced match-LSTM và mô hình tích hợp cơ chế chú ý có giám sát. Điều đó chứng tỏ rằng mô hình có khả năng tổng hợp ngữ nghĩa của câu hỏi và câu trả lời tốt hơn các mô hình LSTM trước đó mà không cần phải tích hợp thêm chủ đề của câu hỏi. Cuối cùng, các phương pháp biểu diễn từ bằng mô hình fastText, Word2vec và Glove được sử dụng để tính trọng số chú ý gkj để hướng dẫn mô hình học. Độ tương tự cosin được sử dụng để tính gkj từ hai véc tơ biểu diễn từ. Véc tơ từ được học từ các mô hình khác nhau như fastText, Glove và Word2vec được thử nghiệm. Các mô hình này được huấn luyện trên tập dữ liệu cộng đồng không gán nhãn SemEval 2017 CQA. Bảng 2.4.3 chỉ ra kết quả khi thực hiện trên các biểu diễn này. Kết quả cho thấy rằng, với cách biểu diễn sử dụng fastText cho kết quả tốt nhất, cao hơn hẳn với mô hình Word2Vec và Glove. Nguyên nhân của việc dùng Word2vec và Glove cho kết quả thấp là do bộ từ điển của tập dữ liệu SemEval không nhãn lớn chứa nhiều từ hiếm trong khi fastText hoạt động tốt trên tập dữ liệu CQA do biểu diễn từ được tổng hợp từ các n-gram từ mô hình Word2vec. fastText phù hợp với tập dữ liệu có bộ từ điển lớn (dữ liệu trình bày tại mục 2.4.1), học được ngữ nghĩa tốt hơn do đưa vào hình thái của từ qua n-gram. Bảng 2.5: Bảng so sánh độ đo MAP với trọng số chú ý gkj được tính từ các biểu diễn từ khác nhau để hướng Mô hình MAP fastText 88,38 dẫn mô hình đề xuất học trọng số chú ý trên tập SemEval 2017. Word2vec 85,51 Glove 85,00 2.4.4. Trực quan hóa các trọng số chú ý Hình 2.4.4 và hình 2.4.4 được sử dụng để trực quan hóa ma trận chú ý giữa từ với từ của câu trả lời (tương ứng với trục tung) và câu hỏi (tương ứng với trục hoành). Trực quan hóa các trọng số chú ý của mô hình giúp giải thích về tính hiệu quả của mô hình đề xuất. Nhìn chung, mô hình match-LSTM kết hợp cơ chế chú ý có giám sát học ra trọng số chú ý của từ trong câu trả lời với các từ trong câu hỏi tốt hơn so với mô hình match-LSTM gốc ban đầu. Cụ thể, tại hình 2.4.4 các từ chứa nội dung của trả lời như ‘Pakistanis’, ‘ban’, và ‘get’ và các từ chứa nội dung của câu hỏi như ‘nationalities’, ‘banned’, và ‘apply’ được ánh xạ rất chính xác. Từ ’ban’ và ’banned’ về bản chất có cùng từ gốc giống nhau. Mô 10
CHƯƠNG 2. BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI ĐÚNGTRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG (a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ và tfidf Hình 2.5: Một ví dụ minh họa trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó. (c) Cơ chế chú ý có giám sát với độ tương tự từ (d) Cơ chế chú ý có giám sát với độ tương tự từ và tfidf Hình 2.6: Một ví dụ về trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát với cặp câu hỏi và câu trả lời không tốt của nó. hình đề xuất cũng dự đoán được các từ tương đồng ngữ nghĩa như ‘Pakistanis’ và ‘nationalities’, từ ’get’ và ’apply’. Như vậy, mô hình đề xuất học được những phần quan trọng mang nội dung của câu trả lời và ánh xạ với nội dung liên quan của câu hỏi tốt hơn so với mô hình gốc. 2.5. Kết luận chương 2 Tóm lại, chương 2 đề xuất mô hình match-LSTM kết hợp với cơ chế chú ý có giám sát cho bài toán lựa chọn câu trả lời. Thực nghiệm cho thấy mô hình học được trọng số chú ý tốt hơn với mô hình gốc qua việc trực quan hóa ma trận trọng số chú ý của mô hình. Các kết quả được trình bày trong chương 2 được công bố trong bài báo "Supervised Attention for Answer Selection in Community Question Answering" tại tạp chí IAES International Journal of Artificial Intelligence (IJ-AI)3 của Indonesia trong danh mục Scopus. 3 http://ijai.iaescore.com/index.php/IJAI/article/view/20375 11
Chương 3 TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 3.1. Giới thiệu Tiếp theo chủ đề đảm bảo chất lượng câu trả lời, để giúp người hỏi tổng hợp câu trả lời tốt nhất từ các câu trả lời của người dùng khác, một giải pháp đặt ra là tiến hành tóm tắt các câu trả lời đã có. Chương này trình bày một phương pháp tóm tắt các câu trả lời của câu hỏi non-factoid trong hệ thống CQA. Cụ thể, hai mô hình học biểu diễn câu không giám sát Auto-Encoder và mô hình LSTM- AutoEcoder được đề xuất sử dụng vào quá trình tóm tắt câu trả lời. Kết quả cho thấy rằng phương pháp biểu diễn câu không giám sát cho kết quả tương đương và thậm chí còn cao hơn với phương pháp biểu diễn có giám sát ở một số độ đo. 3.2. Các công trình liên quan 3.3. Biểu diễn câu trong tóm tắt câu trả lời Mô hình tóm tắt câu trả lời được đề xuất như mô tả trong hình: q’ A1 S1 x1 Sentence Sentence Sentence q A2 S2 x2 similarity Extraction Representation measurement Am Sn xn Yahoo webscope MMR Answer Summary Algorithm Hình 3.2: Mô hình tóm tắt câu trả lời cho các câu hỏi non-factoid trong hệ thống CQA 3.3.1. Biểu diễn câu Mạng nơ ron học sâu là kỹ thuật hiệu quả trong việc sinh ra biểu diễn câu mà chứa thông tin về ngữ nghĩa và cú pháp của câu trong một không gian có số chiều thấp. Trong phần này, hai mô hình học sâu không giám sát Auto-Encoder (AE) và LSTM-AE được đề xuất để học biểu diễn câu: Mô hình Auto-Encoder Mô hình chúng tôi sử dụng bao gồm 4 lớp (hình 3.3.1) như sau: Hàm mất mát của mô hình AE có công thức như sau: S n J(x, x ) = x − x = (xi − xi )2 , (3.12) 1 i=1 trong đó S là số câu trong tập dữ liệu, n là số chiều của véc tơ x. Mô hình LSTM-AE Công thức hàm mất mát của mô hình như sau: S T 1 1 J(X, X ) = ( Jt ), (3.17) S T 1 t=1 12
CHƯƠNG 3. TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG Hình 3.3: Mô hình Auto-Encoder, h (khối màu đỏ) được dùng làm véc tơ biểu diễn câu good always are smoothies yogurt fruit Softmax Decoder Encoder Fruit yogurt smoothies are always good ht ct-1 ct x + tanh it x ft lt ot x σ σ tanh σ ht-1 ht et Hình 3.4: Mô hình Long-short-term-memory Auto-Encoder: Lớp mã hóa LSTM cuối cùng (nút màu đỏ) được dùng làm véc tơ biểu diễn câu trong đó Jt là hàm Cross − entropy của từ thứ t trong câu, T là số từ trong câu, S là số câu trong tập huấn luyện. 3.3.2. Trích rút tóm tắt Thuật toán MMR được sử dụng để trích rút các câu trong đoạn tóm tắt (thuật toán 3.) được đề xuất bởi Carbonell và cộng sự. 3.4. Đánh giá mô hình 3.4.1. Tập dữ liệu Tập dữ liệu L6 - Yahoo! Answers Comprehensive Questions and Answers 1 từ Yahoo-Webscope được sử dụng để học biểu diễn câu bằng phương pháp học không giám sát (tập dữ liệu được thống kê trong bảng 3.1) Bảng 3.1: Tập dữ liệu Yahoo Webscope. Thống kê Số lượng Số lượng câu hỏi 87.390 Số lượng câu trả lời 314.446 Số lượng câu được tách từ các câu trả lời 1.662.497 Để đánh giá mô hình tóm tắt, tập dữ liệu kiểm thử trong nghiên cứu của Song et al được sử dụng. Tác giả không công bố tập huấn luyện và tập phát triển. Tập kiểm thử được thực hiện tóm tắt bằng tay do con người thực hiện với độ dài tối đa là 250 từ (chi tiết được thống kê trong bảng 3.2). 1 https://webscope.sandbox.yahoo.com/catalog.php?datatype=l 13
CHƯƠNG 3. TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG Thuật toán 3. Maximal marginal relevance (MMR) Đầu vào: q là biểu diễn của câu hỏi, S là tập các câu được tách ra từ các câu trả lời, L là độ dài tối đa của đoạn tóm tắt. Đầu ra: tập tóm tắt R ⊂ S Khởi tạo: R=∅; Danh sách các câu được sắp xếp; 1: repeat 2: Tìm một câu s bằng thuật toán MMR với siêu tham số 0 ≤ κ ≤ 1, sao cho thỏa mãn công thức: 3: s = arg maxs∈S/R (κ.sim(s, q) − (1 − κ). maxs ∈R sim(s, s ) 4: R=R ∪ s; 5: until | R | > L; 6: return R; Bảng 3.2: Tập test đánh giá thuật toán tóm tắt câu trả lời. Thống kê Số lượng Số lượng câu hỏi Non-factoid 100 Số lượng câu trả lời 361 Số lượng câu tách ra từ các câu trả lời 2.793 Số lượng từ 59.321 Số lượng tóm tắt bằng tay 275 Số lượng trung bình đoạn tóm tắt trên mỗi câu hỏi 2,75 3.4.2. Thiết lập thử nghiệm Đối với mô hình Auto-Encoder, đầu vào là véc tơ có số chiều bằng kích thước của tập từ vựng và sử dụng trọng số tf.idf . Tập từ vựng được tạo ra bằng cách chuyển các từ sang viết thường, loại bỏ từ dừng và những từ hiếm (có số lần xuất hiện dưới 10 lần), đưa từ về dạng gốc và chuẩn hóa số. Mô hình AE có 4 lớp mã hóa và 4 lớp giải mã (hình 3.3.1). Véc tơ h với số chiều là 100 được dùng làm biểu diễn câu. Các tham số trong thuật toán tối ưu Adam được chọn như sau: tốc độ học η = 0, 001, kích thước mỗi lô (batch size) là 128 câu, số epoch là 20. Mô hình được huấn luyện trên tập Yahoo-webscope với thời gian là 8 giờ trên máy tính với CPU 20 core. Từ được biểu diễn bởi Word2vec2 có kích thước là 300 được đưa vào LSTM-AE. Khi một từ không có trong bộ từ điển được huấn luyện trước, nó được lấy mẫu qua phân phối chuẩn. Các dấu câu như dấu phẩy, dấu hai chấm được chuyển thành < dot >. Dấu hiệu kết thúc câu được chuyển thành < eos >. Các siêu tham số trong mô hình LSTM-AE được chọn như sau: tốc độ học η = 0.001, kích thước mỗi lô là 128, số epoch là 20. Thời gian huấn luyện mô hình trên tập Yahoo-webscope mất 3 tuần với máy tính CPU 20 core. Cả mô hình AE và LSTM-AE đều được thực hiện trên Tensorflow. 3.4.3. Kết quả Độ đo ROUGE được dùng để đánh giá mô hình tóm tắt. Trước tiên, mô hình tóm tắt sử dụng hai mô hình biểu diễn câu: biểu diễn câu qua trọng số tf.idf và lấy trung bình các véc tơ từ dùng Word2vec (bảng 3.3). Để lựa chọn kiến trúc của mô hình AE như mô tả trên, kịch bản kiểm thử với một lớp mã hóa - giải mã với số chiều giảm về 1000 chiều, AE hai lớp mã hóa - giải mã với số chiều giảm về 400 chiều, mô hình AE ba lớp mã hóa - giải mã với số chiều giảm về 300 chiều và AE 4 lớp mã hóa - giải mã với số chiều giảm về 100 chiều được tiến hành. Kết quả được thực hiện với tham số κ = 0.3 trên bảng 3.4. Sau đó, mô hình AE, LSTM-AE và mô hình kết hợp hai biểu diễn từ hai mô hình trên bằng cách nối hai biểu diễn từ mô hình AE và LSTM-AE của câu (tạm gọi CONCATE) được đánh giá qua hình 3.4.3. Kết quả được đánh giá qua các tham số κ khác nhau của thuật toán MMR. κ = 0.3 được chọn đại diện cho mô hình để so sánh với các mô hình khác (bảng 3.5). Độ tương đồng ngữ nghĩa của hai câu cũng được thử nghiệm qua việc việc kết hợp tuyến tính độ tương tự cosin của hai biểu diễn của hai mô hình AE và LSTM-AE với công thức như sau: sim(s1 , s2 ) = α.simAE (s1 , s2 ) + (1 − α).simLST M −AE (s1 , s2 ), (3.23) 2 https://github.com/mmihaltz/word2vec 14
CHƯƠNG 3. TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG Bảng 3.3: Kết quả tóm tắt trên hai mô hình cơ bản. Word2Vec Tfidf κ Rouge-1 Rouge-2 Rouge-L Rouge-1 Rouge-2 Rouge-L 0,1 0,621 0,529 0,607 0,532 0,282 0,464 0,2 0,619 0,524 0,606 0,531 0,282 0,463 0,3 0,618 0,523 0,605 0,532 0,281 0,464 0,4 0,615 0,518 0,600 0,530 0,279 0,467 0,5 0,622 0,525 0,604 0,529 0,279 0,464 0,6 0,614 0,513 0,605 0,528 0,278 0,467 0,7 0,610 0,507 0,607 0,529 0,280 0,489 0,8 0,609 0,504 0,610 0,530 0,285 0,488 0,9 0,611 0,505 0,603 0,532 0,288 0,488 1,0 0,608 0,501 0,601 0,532 0,289 0,489 Bảng 3.4: Kết quả tóm tắt khi sử dụng mô hình AE biểu diễn câu với trong trường hợp số lớp mã hóa-giải mã khác nhau với số chiều khác nhau Rouge-1 Rouge-2 Rouge-L AE-1000 chiều 0,670 0,561 0,711 AE-400 chiều 0,682 0,597 0,715 AE-300 chiều 0,669 0,601 0,714 AE-100 chiều 0,762 0,622 0,730 trong đó α là siêu tham số chỉ mức độ ảnh hưởng của hai độ độ đo. Kết quả được trình bày ở bảng 3.6. Hình 3.5: Độ đo ROUGE trên các tham số κ khác nhau trong thuật toán MMR. Như mong đợi, kết quả ở bảng 3.3 cho thấy rằng, mô hình Word2vec cho kết quả cao hơn hẳn mô hình tf.idf nhờ vào thông tin ngữ nghĩa của từ với số chiều thấp (bảng 3.3). Nhưng kết quả tóm tắt ở cả ba độ đo Rouge-1, Rouge-2 và Rouge-L của mô hình Word2vec ở bảng 3.3 thấp hơn các mô hình AE, LSTM-AE và mô hình CONCATE (hình 3.4.3). Lý do là bởi vì mô hình Word2vec là thực hiện qua việc lấy trung bình các trọng số của véc tơ biểu diễn từ. Cách làm này không khai thác được trật tự các từ trong câu cũng như sự tương tác của các từ trong ngữ cảnh cụ thể. Trong khi đó các mô hình 15
CHƯƠNG 3. TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG Bảng 3.5: Bảng so sánh hiệu năng của mô hình LSTM-AE với các mô hình khác. Method Rouge-1 Rouge-2 Rouge-L BestAns 0,473 0,390 0,463 DOC2VEC + sparse coding 0,753 0,678 0,750 CNN + document expansion + sparse coding + MMR 0,766 0,646 0,753 LSTM-AE 0,766 0,653 0,759 AE và LSTM-AE học ra véc tơ biểu diễn câu từ dữ liệu CQA. Với κ < 0, 5 mô hình LSTM-AE có hiệu năng lớn hơn mô hình AE trên tất cả độ đo ROUGE-1, ROUGE-2 và ROUGE-L. Nhưng khi κ > 0, 5 thì mô hình AE lại tốt hơn LSTM-AE trên độ đo ROUGE-1 và ROUGE-2. Điều này có thể do khi κ lớn thì mô hình thiên về độ đa dạng hơn về độ liên quan. Nhìn chung, kết quả của mô hình LSTM-AE cho thấy rằng mô hình này là lựa chọn tốt hơn sử dụng để học biểu diễn câu với bài toán tóm tắt. Mô hình CONCATE về cơ bản mang lại hiệu quả không đáng kể. Do vậy, mô hình LSTM-AE được chọn để tiến hành so sánh hiệu năng tóm tắt câu trả lời với các mô hình hiện đại khác. Bảng 3.5 so sánh hiệu năng của mô hình LSTM-AE với các mô hình khác đã được đề xuất trong các nghiên cứu trước đó trong nghiên cứu của Song với κ = 0, 3. Mô hình biểu diễn DOC2VEC sử dụng véc tơ biểu diễn đoạn để sinh ra biểu diễn câu kết hợp với mã thưa để tìm ra câu nổi bật. Tuy nhiên, phương pháp này không rõ ràng trong trường hợp véc tơ biểu diễn đoạn và véc tơ biểu diễn câu được lấy như thế nào. Trong khi đó mô hình CNN học ra biểu diễn câu từ dữ liệu có nhãn. Nhãn ở đây là câu đó có thuộc đoạn tóm tắt hay không. Hơn nữa mô hình được đề xuất bởi Song còn sử dụng tri thức từ bên ngoài (sử dụng nguồn Wikipedia) để làm giàu ngữ nghĩa cho văn bản ngắn. Các câu được biểu diễn trong không gian số chiều thấp là đầu vào của mã thưa và cuối cùng dùng thuật toán MMR để trích rút các câu tóm tắt. Câu trả lời tốt nhất cũng được lựa chọn để đem ra so sánh với các mô hình tóm tắt để thấy được tầm quan trọng của việc tóm tắt câu trả lời. Kết quả cho thấy rằng biểu diễn câu sử dụng mô hình không giám sát cho kết quả ngang bằng và thậm chí còn tốt hơn các mô hình có giám sát mà không cần phải sử dụng đến dữ liệu có nhãn và không sử dụng tri thức bên ngoài (bảng 3.5). Mô hình LSTM-AE tốt hơn mô hình DOC2VEC do khi sử dụng mô hình DOC2VEC trên ngữ cảnh là đoạn văn các đặc trưng của đoạn được đưa vào như chỉ số đoạn và cửa sổ mẫu của câu. Nguyên nhân là do mô hình LSTM-AE học được thông tin cú pháp và ngữ nghĩa của câu qua lớp ẩn cuối cùng của mô hình LSTM và sử dụng biểu diễn của lớp này làm biểu diễn câu. Hơn nữa, vì mô hình LSTM-AE được huấn luyện trên tập dữ liệu lớn Yahoo-webscope không gán nhãn từ cộng đồng cho nên nó tận dụng được tri thức của câu trên cùng miền dữ liệu với tập kiểm thử. Bảng 3.6: Kết quả tóm tắt khi thực hiện tổng hợp ngữ nghĩa của hai câu qua việc kết hợp tuyến tính hai độ đo tương đồng của cả hai biểu diến AE và LSTM-AE theo công thức 3.4.3 α Rouge-1 Rouge-2 Rouge-L 0,1 0,771 0,661 0,761 0,2 0,771 0,661 0,760 0,3 0,771 0,661 0,760 0,4 0,770 0,660 0,759 0,5 0,770 0,659 0,759 0,6 0,771 0,658 0,759 0,7 0,772 0,662 0,763 0,8 0,772 0,662 0,763 0,9 0,771 0,660 0,759 Cuối cùng, hai phương pháp kết hợp cũng được đánh giá: Thứ nhất, hai véc tơ biểu diễn của câu từ hai mô hình AE và LSTM-AE được nối lại với nhau thành 1 véc tơ (kết quả như hình 3.4.3); Thứ hai, kết hợp tuyến tính độ tương đồng ngữ nghĩa của hai câu từ hai biểu diễn véc tơ như công thức 3.4.3 (kết quả trình bày tại bảng 3.6). Kết quả cho thấy cách kết hợp tuyến tính thứ hai cho kết quả tốt hơn so với nối hai biểu diễn câu thông thường. 16
CHƯƠNG 3. TÓM TẮT CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 3.5. Kết luận chương 3 Tóm lại, chương 3 trình bày một hướng tiếp cận bài toán tóm tắt câu trả lời cho các câu hỏi non- factoid trong hệ thống hỏi đáp cộng đồng. Trong phương pháp này, mô hình học biểu diễn câu không giám sát AE và LSTM-AE được sử dụng để biểu diễn câu. Kết quả chương 3 được trình bày trong bài báo "Unsupervised Sentence Embeddings for Answer Summarization in Non-factoid CQA"3 đăng trên tạp chí Cys trong danh mục Scopus của Mexico. 3 http://www.scielo.org.mx/pdf/cys/v22n3/1405-5546-cys-22-03-835.pdf 17
Chương 4 BÀI TOÁN TÌM CÂU HỎI TƯƠNG ĐỒNG TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG 4.1. Giới thiệu Chương này trình bày phương pháp giải quyết bài toán tìm câu hỏi tương đồng. Đây là bài toán trung gian hỗ trợ cho hệ thống tự động tìm kiếm câu trả lời cho câu hỏi mới. Gần đây, mô hình BERT ra đời là một bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên. Mặc dù có rất nhiều nghiên cứu trên bài toán tìm kiếm câu hỏi tương đồng trên tập dữ liệu tiếng Anh, nhưng lại chưa được nghiên cứu nhiều trên tập dữ liệu tiếng Việt. Chương 4 trình bày các nội dung sau: (i) Xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng trên miền dữ liệu thương mại điện tử. (ii) Đề xuất sử dụng mô hình BERTBase trên tập dữ liệu tiếng Việt. (iii) Đề xuất sử dụng mô hình SBERT với mục đích giảm thời gian tìm kiếm câu hỏi tương đồng qua việc học biểu diễn các câu hỏi đã có sang không gian véc tơ số thực có số chiều cố định. Kết quả cho thấy rằng khi mô hình BERT được huấn luyện trên cùng miền dữ liệu thương mại điện tử cho kết quả tốt hơn khi dùng BERT huấn luyện trên tập có miền dữ liệu chung chung. Đồng thời, mô hình SBERT cho kết quả tìm kiếm nhanh hơn rất nhiều lần so với mô hình BERT trước đó. 4.2. Các nghiên cứu liên quan 4.3. Tập dữ liệu Để thử nghiệm mô hình trên tập dữ liệu tiếng Việt, tập dữ liệu tiếng Việt được xây dựng sử dụng dữ liệu tại website của Thế giới di động1 trong mục hỏi đáp của người dùng về các nội dung liên quan tới mua bán các thiết bị điện tử như điện thoại, máy tính. Sau khi thu thập được bộ câu hỏi, máy tìm kiếm Elasticsearch2 được sử dụng để tạo ra tập dữ liệu thử nghiệm như sau: • Đầu tiên, tập con các câu hỏi được chọn và dùng làm câu hỏi gốc. Mỗi câu hỏi này sẽ được đưa vào máy tìm kiếm coi như là câu truy vấn. • Sau đó, từng câu hỏi từ tập câu hỏi gốc trên được đưa vào máy tìm kiếm. Kết quả trả về một danh sách các câu hỏi liên quan tới câu truy vấn. 10 câu hỏi đầu tiên trong danh sách kết quả được chọn để tiến hành gán nhãn. • Tiếp theo là bước gán nhãn, cứ mỗi câu hỏi gốc có 10 cặp câu hỏi tương ứng với các nhãn là 1 và 0 được gán bởi con người. Một cặp câu hỏi được chọn nhãn là 1 nếu phần trả lời của câu hỏi thứ nhất có thể dùng để trả lời một phần hoặc toàn bộ cho câu hỏi thứ 2 và ngược lại. Công việc gán nhãn được thực hiện bởi bốn thành viên trong nhóm nghiên cứu. Sau đó, các thành viên trong nhóm sẽ tiến hành kiểm tra chéo các kết quả gán nhãn. Kết thúc giai đoạn gán nhãn chéo, chúng tôi tiến hành thống kê kết quả gán nhãn. Kết quả gán nhãn trùng nhau khoảng 80-85%. Những câu gán nhãn không giống nhau được tiến hành rà soát lại và thống nhất kết quả gán nhãn cuối cùng. • Cuối cùng, các câu hỏi gốc mà không có câu hỏi nào tương đồng cũng bị loại khỏi tập dữ liệu. Để làm tăng độ khó của tập dữ liệu, các cặp câu hỏi dễ (là những câu dễ dàng tìm được qua máy tìm kiếm, thường có ít thách thức về khoảng cách từ vựng) cũng được rà soát lại và đưa ra quyết định có bị loại khỏi tập dữ liệu hay không. Sau khi có tập dữ liệu các cặp câu được gán nhãn, tập dữ liệu này được chia tập dữ liệu thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử (cụ thể trong bảng 4.1). Tập dữ liệu thu được có 30% dữ liệu có nhãn 1 có liên quan tới câu hỏi gốc. Đồng thời trong quá trình thu thập dữ liệu, bộ dữ liệu không gán nhãn (bảng 4.2) được giữ lại để huấn luyện các mô hình ngôn ngữ. Tập này dùng để học biểu diễn của từ trong giai đoạn huấn luyện BERT. 1 https://www.thegioididong.com/hoi-dap 2 https://www.elastic.co/elasticsearch/ 18