Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:173

Thêm vào BST

Báo xấu

57
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Toán học "Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt" trình bày các nội dung chính sau: Tổng quan về bài toán phát hiện sao chép; Trích rút từ khóa dựa trên mô hình học sâu; Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy; Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Lê Thanh Hương 2. TS. Nguyễn Chí Thành Hà Nội - 2022
i LỜI CAM ĐOAN Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi. Những nội dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa có tác giả nào công bố trong bất cứ một công trình nào khác. Các tài liệu tham khảo được trích dẫn đầy đủ. Hà Nội, ngày 12 tháng 01 năm 2022 Tác giả Nguyễn Văn Sơn
ii LỜI CẢM ƠN Luận án này được thực hiện tại Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự-Bộ Quốc phòng. Lời đầu tiên, NCS xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Lê Thanh Hương, TS. Nguyễn Chí Thành đã tận tình giúp đỡ, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học để hoàn thành các nội dung luận án. NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Phòng Đào tạo, Viện Công nghệ thông tin là cơ sở đào tạo và đơn vị quản lý đã tạo mọi điều kiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu. NCS xin bày tỏ lòng biết ơn chân thành tới các thầy cô của Viện KH-CN quân sự, các nhà khoa học trong và ngoài quân đội đã giảng dạy, truyền đạt kiến thức và giúp đỡ về chuyên môn trong quá trình học tập, nghiên cứu của NCS. NCS luôn ghi nhớ công ơn của bố mẹ, gia đình và xin dành lời cảm ơn đặc biệt tới vợ con, những người đã luôn ở bên cạnh, động viên và là chỗ dựa về mọi mặt giúp NCS vượt qua khó khăn để hoàn thành công việc. NCS xin chân thành cảm ơn bạn bè, đồng nghiệp và rất nhiều người đã luôn động viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua. Tác giả Nguyễn Văn Sơn
iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. v DANH MỤC CÁC BẢNG............................................................................... vi DANH MỤC CÁC HÌNH VẼ ........................................................................ vii MỞ ĐẦU ........................................................................................................... 1 CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 7 1.1 Tổng quan .................................................................................................... 7 1.1.1 Định nghĩa ................................................................................................ 7 1.1.2 Các hình thức sao chép ............................................................................ 8 1.2. Các kiến thức nền tảng ............................................................................... 9 1.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 10 1.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 13 1.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 14 1.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 16 1.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 18 1.3 Các nghiên cứu về phát hiện sao chép trên thế giới.................................. 22 1.3.1 Trích rút từ khóa ..................................................................................... 24 1.3.2 Phát hiện đoạn sao chép ......................................................................... 28 1.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 35 1.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 36 1.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 36 1.5.2 Phương pháp đánh giá ............................................................................ 39 1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 41 1.7 Kết luận Chương 1 .................................................................................... 42 CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC SÂU ................................................................................................................. 43 2.1 Đặt vấn đề.................................................................................................. 43 2.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 43 2.3 Đề xuất ý tưởng ......................................................................................... 45 2.4 Trích rút từ khóa dựa trên kỹ thuật trích rút đặc trưng và mô hình mạng FFNN ............................................................................................................... 46 2.4.1 Nội dung đề xuất .................................................................................... 46 2.4.2 Đánh giá thử nghiệm .............................................................................. 55 2.5 Kết luận Chương 2 .................................................................................... 61 CHƯƠNG 3 PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY ..................................................... 62 3.1 Đặt vấn đề.................................................................................................. 62 3.2 Phát biểu bài toán phát hiện đoạn sao chép .............................................. 62 3.3 Đề xuất ý tưởng ......................................................................................... 63 3.4 Mô hình chủ đề cho bài toán phát hiện đoạn sao chép ............................. 64 3.4.1 Đề xuất giải pháp ................................................................................... 65
iv 3.4.2 Đánh giá thử nghiệm trên kho ngữ liệu PAN ........................................ 72 3.5 Kỹ thuật trích rút đặc trưng và mô hình LSTM xếp chồng cho bài toán phát hiện đoạn sao chép .......................................................................................... 76 3.5.1 Mô hình đề xuất pha đoạn và pha từ ...................................................... 78 3.5.2 Đánh giá thử nghiệm trên kho ngữ liệu PAN ........................................ 89 3.6. Kết luận Chương 3 ................................................................................... 95 CHƯƠNG 4 ỨNG DỤNG CÁC KỸ THUẬT PHÁT HIỆN SAO CHÉP CHO VĂN BẢN TIẾNG VIỆT ...................................................................... 97 4.1 Đặt vấn đề.................................................................................................. 97 4.2 Xây dựng kho ngữ liệu phát hiện đoạn sao chép tiếng Việt ..................... 98 4.2.1 Đề xuất ý tưởng ...................................................................................... 98 4.2.2 Đề xuất giải pháp xây dựng kho ngữ liệu phát hiện đoạn sao chép văn bản tiếng Việt ......................................................................................... 100 4.2.3 Kết quả, đánh giá kho ngữ liệu ............................................................ 106 4.3 Trích rút từ khóa cho văn bản tiếng Việt ................................................ 107 4.3.1 Trích rút từ khóa dựa trên độ đo TF-IDF cho văn bản dài tiếng Việt . 107 4.3.2 Cải tiến kỹ thuật trích rút từ khóa dựa trên mô hình học sâu cho văn bản tiếng Việt ................................................................................................ 114 4.4 Ứng dụng kỹ thuật phát hiện đoạn sao chép cho văn bản tiếng Việt ...... 116 4.4.1 Cải tiến mô hình chủ đề cho bài toán phát hiện đoạn sao chép văn bản tiếng Việt ................................................................................................ 117 4.4.2 Cải tiến kỹ thuật trích rút đặc trưng và mô hình LSTM xếp chồng cho bài toán phát hiện đoạn sao chép văn bản tiếng Việt ............................. 120 4.5 Kết luận Chương 4 .................................................................................. 122 KẾT LUẬN ................................................................................................... 123 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ .............. 125 TÀI LIỆU THAM KHẢO ............................................................................. 126 PHỤ LỤC ...................................................................................................... 137
v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ADAM Thuật toán tối ưu mạng nơ ron (Adaptive Moment Estimation) ANN Mạng nơ ron nhân tạo (Artificial Neural Network) BPTT Thuật toán lan truyền ngược liên hồi (Backpropagation Through Time) CNG Chuỗi liên tiếp gồm N ký tự (Character-based N-Gram) CNN Mạng nơ ron tích chập (Convolutional Neural Network) CSDL Cơ sở dữ liệu ĐATN Đồ án tốt nghiệp IDF Nghịch đảo tần suất của một từ trong một tập văn bản (Inverse Document Frequency) FFNN Mạng nơ ron truyền thẳng (Feed-forward Neural Network) FSE Thư viện trên ngôn ngữ Python để tính véc tơ câu (Fast Sentence Embeddings) GCNN Mô hình mạng nơ ron đồ thị (Graph Convolutional Neural Network) LDA Mô hình phân phối Dirichlet ẩn (Latent Dirichlet Allocation) LSA Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) LSTM Mạng bộ nhớ dài – ngắn (Long Short Term Memory Network) NCS Nghiên cứu sinh PAN Chuỗi sự kiện thường niên về đạo văn (Plagiarism Analysis, Authorship Identification, and Near Duplicate Detection) PHSC Phát hiện sao chép POS Gán nhãn từ loại (Part of Speech Tagging) RNN Mạng nơ ron hồi quy (Recurrent Neural Network) SVM Máy vector hỗ trợ (Support Vector Machine) TF Tần suất xuất hiện của một từ trong một văn bản (Term Frequency) XML Ngôn ngữ đánh dấu mở rộng (eXtensible Markup Language) XLNNTN Xử lý ngôn ngữ tự nhiên WNG Chuỗi liên tiếp gồm N từ (Word-based N-Gram)
vi DANH MỤC CÁC BẢNG Trang Bảng 1.1. Kết quả kiểm tra trùng lặp từ hệ thống Coopy .................................................... 7 Bảng 2.1. Ví dụ 10 kết quả đầu ra của mô hình đề xuất .................................................... 54 Bảng 2.2. Giá trị F-score trích rút 10 từ khóa...................................................................... 57 Bảng 2.3. So sánh với các kết quả nghiên cứu gần đây ..................................................... 59 Bảng 3.1. Kết quả thử nghiệm .............................................................................................. 74 Bảng 3.2. Kết quả đã công bố của Sanchez-Perez.............................................................. 75 Bảng 3.3. Kết quả mã hóa đoạn............................................................................................ 79 Bảng 3.4. Sự phụ thuộc giá trị k vào độ dài đoạn sao chép ............................................... 91 Bảng 3.5. Kết quả thử nghiệm .............................................................................................. 93 Bảng 3.6. So sánh kết quả với các nghiên cứu gần đây ..................................................... 95 Bảng 4.1. Bảng thông tin dữ liệu thu thập ......................................................................... 102 Bảng 4.2. Bảng phân bố độ dài đoạn sao chép ................................................................. 102 Bảng 4.3. Mô tả dữ liệu từ đồng nghĩa .............................................................................. 104 Bảng 4.4. Thống kê kho ngữ liệu phát hiện đoạn sao chép tiếng Việt ........................... 106 Bảng 4.5. Tóm tắt thông tin kho ngữ liệu ĐATN............................................................. 112 Bảng 4.6. Kết quả thử nghiệm kho ngữ liệu ĐATN ........................................................ 113 Bảng 4.7. Tóm tắt thông tin kho ngữ liệu trích rút từ khóa tiếng Việt............................ 115 Bảng 4.8. Kết quả thử nghiệm với kho ngữ liệu bài báo tiếng Việt................................ 116 Bảng 4.9. Kết quả thử nghiệm với thuật toán YAKE!..................................................... 116 Bảng 4.10. Kết quả thử nghiệm với kho ngữ liệu tiếng Việt........................................... 118 Bảng 4.11. Kết quả thử nghiệm của tác giả Sanchez-Perez ............................................ 119 Bảng 4.12. Kết quả thử nghiệm với kho ngữ liệu tiếng Việt........................................... 121
vii DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1. Các hình thức sao chép ........................................................................................... 9 Hình 1.2. Mô hình thuật toán LDA ...................................................................................... 14 Hình 1.3. Mô hình mạng RNN............................................................................................. 17 Hình 1.4. Sơ đồ biểu diễn kiến trúc bên trong của một tế bào LSTM.............................. 19 Hình 1.5. Kiến trúc mô hình LSTM xếp chồng.................................................................. 21 Hình 1.6. Phân loại các tiếp cận phát hiện sao chép ........................................................... 22 Hình 1.7. Mô hình phát hiện sao chép toàn cục .................................................................. 23 Hình 1.8. Mối quan hệ giữa S và D...................................................................................... 39 Hình 1.9. Mô hình hệ thống phát hiện sao chép ................................................................. 42 Hình 2.1. Mô hình tổng quát của bài toán tìm tập tài liệu ứng cử ..................................... 44 Hình 2.2. Quy trình tổng quan hệ thống trích rút từ khóa .................................................. 47 Hình 2.3. Mô hình trích rút từ khóa dựa trên mô hình FFNN ........................................... 53 Hình 2.4. Mô hình trích rút từ khóa dựa trên mô hình LSTM .......................................... 54 Hình 2.5. Lược đồ quan hệ giữa độ chính xác và số lần lặp .............................................. 56 Hình 2.6. Lược đồ quan hệ giữa độ mất mát và số lần lặp ................................................ 56 Hình 3.1. Quy trình phát hiện đoạn sao chép dựa trên mô hình chủ đề............................ 65 Hình 3.2. Quy trình phát hiện đoạn sao chép ...................................................................... 78 Hình 3.3. Mô hình phát hiện sao chép mức đoạn ............................................................... 78 Hình 3.4. Mô hình phát hiện sao chép mức từ .................................................................... 84 Hình 3.5 Đoạn kết quả nằm ngoài đoạn văn bản sao chép ................................................ 90 Hình 3.6 Đoạn kết quả nằm trong đoạn văn bản sao chép ................................................ 90 Hình 3.7 Đoạn kết quả nằm trong một phần đoạn văn bản sao chép ............................... 90 Hình 3.8. Sự ảnh hưởng của các đặc trưng đến kết quả phát hiện sao chép .................... 93 Hình 4.1. Mô hình tạo trường hợp sao chép nguyên văn................................................. 103
viii Hình 4.2. Mô hình tạo trường hợp sao chép thay thế từ đồng nghĩa .............................. 105 Hình 4.3 Mô hình tạo trường hợp sao chép dịch tự động ................................................ 105 Hình 4.4. Mô hình trích rút từ khóa.................................................................................... 108
1 MỞ ĐẦU 1. Tính cấp thiết của đề tài luận án Sự phát triển công nghệ thông tin và sự ra đời của Internet đã tạo ra một khối lượng tài liệu số khổng lồ. Để thu thập thông tin về một chủ đề nào đó chúng ta chỉ cần sử dụng một số công cụ tìm kiếm phổ biến như Google hoặc các ứng dụng tra cứu trên Internet là có thể có tìm được rất nhiều tài liệu liên quan. Chính vì thế, chúng ta có thể dễ dàng sử dụng lại thông tin thông qua các hình thức sao chép hoặc mượn ý tưởng từ các tài liệu thu thập. Việc sử dụng lại thông tin từ các tài liệu khác mà không có trích dẫn đến tài liệu đó được xem là đạo văn. Hiện nay, tình trạng đạo văn trên thế giới và tại Việt Nam diễn ra hết sức phức tạp. Theo trang thông tin điện tử về đạo văn [161], thực hiện khảo sát 24,000 học sinh tại 70 trường trung học ở Mỹ thì có đến 58% học sinh thừa nhận đạo văn. Tiến hành khảo sát khoảng 82,000 sinh viên tại các trường Đại học, Cao đẳng tại Bắc Mỹ thì có khoảng 40% sinh viên thừa nhận có đạo văn [74]. Tại Việt Nam, theo Báo Tuổi trẻ Online số tháng 5/2015 [154], tỉ lệ sinh viên đạo văn ở một số trường đại học Việt Nam chiếm tỉ lệ cao so với thế giới. Số liệu khảo sát sinh viên tại Trường Đại học Duy Tân cho thấy trên 70% sinh viên đạo văn. Khảo sát nội dung 681 bài tiểu luận môn học của sinh viên trường Đại học Hoa Sen cho kết quả mức độ tương đồng trung bình của các bài luận này là 29%. Đây là tỉ lệ rất cao so với thế giới. Nếu xem tỉ lệ tương đồng là 20% bị coi là đạo văn thì có đến 73% bài luận đã thực hiện đạo văn. Khi đạo văn diễn ra ngày càng phổ biến thì việc chống đạo văn cũng nhận được nhiều sự quan tâm của các nhà nghiên cứu trong và ngoài nước. Tra cứu trên trang thông tin trích dẫn của Google [162], số lượng kết quả trả về lên tới 750,000 kết quả cho cụm từ “plagiarism” và 462 kết quả khi tra cứu cụm từ “đạo văn”. Phân tích các kết quả trả về cho thấy số lượng các công bố về phát hiện đạo văn cho tiếng Việt so với tiếng Anh vẫn còn hạn chế. Bên cạnh đó, do chưa có kho ngữ liệu tiêu chuẩn phục vụ thử nghiệm các giải pháp phát hiện đạo văn tiếng Việt nên các nghiên cứu chủ yếu thử nghiệm trên các kho ngữ liệu do tác giả tự xây
2 dựng. Chính vì vậy, việc đánh giá hiệu quả của từng phương pháp chưa được khách quan và cần phải xem xét một cách kỹ lưỡng. Ngoài các nghiên cứu phát hiện đạo văn cho tiếng Việt, một số hệ thống phần mềm phát hiện đạo văn tiếng Việt được phát triển dựa trên nhu cầu của các cơ sở đào tạo như hệ thống phát hiện đạo văn của trường Đại học Bách khoa, Đại học Công nghệ, Đại học Cần thơ, Học viện An ninh nhân dân. Các hệ thống này đang tiếp tục được hoàn thiện để giải quyết tốt hơn đối với các trường hợp đạo văn phức tạp và bổ sung thêm tài liệu tham chiếu. Khảo sát chi tiết các hệ thống phát hiện đạo văn cho thấy đầu ra của hệ thống là các đoạn giống nhau và tỉ lệ sao chép giữa tài liệu đầu vào và các tài liệu mà hệ thống có thể truy cập. Việc quyết định tài liệu có đạo văn hay không phụ thuộc vào qui định của từng cơ sở đào tạo, nghiên cứu. Ví dụ, dựa trên kết quả kiểm tra của phần mềm Turnitin Viện Đào tạo sau đại học thuộc trường Đại học Hàng hải cho phép tỉ lệ kiểm tra sao chép không quá 30%, Học viện Ngân hàng ban hành quyết định số 119/QĐ-HVNH ngày 20/02/2019 cho phép tỉ lệ trùng lặp không quá 25% đối với các bài khóa luận của sinh viên, còn với các bài báo khoa học nộp tại tạp chí IAES International Journal of Artificial Intelligence (IJ-AI) thì tỉ lệ này là 25%. Khi kết quả kiểm tra lớn hơn tỉ lệ cho phép tài liệu đầu vào sẽ do con người xem xét và quyết định. Nếu việc sao chép từ tài liệu khác nhưng để trong dấu nháy (“”) thì được coi là hợp lệ, nhưng nếu đoạn trong dấu nháy quá dài (hơn một trang) vẫn có thể bị xem xét là đạo văn. Như vậy các hệ thống phát hiện đạo văn chỉ thực hiện phát hiện sao chép, không kết luận là đạo văn hay không. Do vậy, luận án đề xuất sử dụng thuật ngữ “sao chép” thay vì thuật ngữ “đạo văn” trong phần còn lại của luận án ngoại trừ các khái niệm, định nghĩa của các tác giả khác. Sự phát triển của Internet, công nghệ lưu trữ dữ liệu và các công cụ tìm kiếm trực tuyến là cơ sở để đạo văn tồn tại và phát triển. Bên cạnh đó, sự đa dạng và phức tạp của các trường hợp sao chép ý tưởng vẫn đang là thách thức đối với các nhà khoa học trên thế giới. Với tiếng Việt, các nghiên cứu phát hiện sao chép
3 còn ít và chưa có phương pháp đánh giá một cách chính xác và khách quan. Nguyên nhân của những vấn đề này xuất phát từ những lý do sau: - Sao chép dựa trên ý tưởng rất đa dạng và phức tạp nên khó có thể có một phương pháp tổng quát có thể giải quyết mọi trường hợp. - Tiếng Việt là ngôn ngữ đơn lập nên việc sử dụng các kỹ thuật phát hiện sao chép văn bản tiếng Anh khó có thể áp dụng cho văn bản tiếng Việt. - Chưa có kho ngữ liệu tiếng Việt chuẩn dùng cho huấn luyện trong bài toán phát hiện sao chép tiếng Việt. Trước những vấn đề còn tồn tại của bài toán phát hiện sao chép hiện nay, việc đề xuất các giải pháp cho bài toán này là một nhu cầu cấp thiết và đó cũng là lý do mà luận án lựa chọn đề tài “Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt ”. 2. Mục tiêu nghiên cứu - Nghiên cứu, đề xuất một số kỹ thuật hỗ trợ phát hiện sao chép gồm trích rút từ khóa tìm tập tài liệu ứng cử, phát hiện đoạn sao chép giữa hai tài liệu và ứng dụng các kết quả nghiên cứu cho văn bản tiếng Việt. - Thử nghiệm và đánh giá các kỹ thuật đề xuất. 3. Đối tượng và phạm vi nghiên cứu Đối tượng: Đối tượng luận án nghiên cứu là văn bản tiếng Việt và tiếng Anh có cấu trúc (như bài báo, đồ án tốt nghiệp,…) hoặc phi cấu trúc (như bản tin). Phạm vi: Phạm vi nghiên cứu trọng tâm của luận án là bài toán phát hiện sao chép toàn cục ở đó các tài liệu nguồn và tài liệu nghi ngờ sao chép là các tệp văn bản đơn ngữ tiếng Việt và tiếng Anh sẵn có. Đánh giá các kỹ thuật đề xuất dựa trên kho ngữ liệu thử nghiệm tiếng Việt và tiếng Anh. 4. Nội dung nghiên cứu - Nghiên cứu, phân tích, đánh giá và đề xuất mới các kỹ thuật trích rút từ khóa làm đầu vào cho máy tìm kiếm để tìm tập tài liệu ứng cử. - Nghiên cứu, phân tích, đánh giá kỹ thuật phát hiện đoạn sao chép giữa hai tài liệu từ đó đề xuất giải pháp hiệu quả cho bài toán này.
4 - Nghiên cứu, ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm. Về lý thuyết: Luận án nghiên cứu tổng quan về bài toán và các phương pháp phát hiện sao chép. Nghiên cứu các công trình nghiên cứu khoa học trong và ngoài nước liên quan đến bài toán phát hiện sao chép dựa trên hai bài toán thành phần gồm bài toán trích rút từ khóa tìm tập tài liệu ứng cử và bài toán xác định các đoạn sao chép giữa hai tài liệu. Phân tích hạn chế của các kỹ thuật đã có từ đó đề xuất các kỹ thuật mới hoặc cải tiến các kỹ thuật trên. Về thực nghiệm: Luận án thu thập dữ liệu các bài báo khoa học, tiến hành xử lý dữ liệu để xây dựng kho ngữ liệu thử nghiệm phục vụ đánh giá các thuật toán phát hiện sao chép văn bản tiếng Việt. Cài đặt các thuật toán, chương trình sử dụng kho ngữ liệu sẵn có để so sánh, đánh giá các kỹ thuật đề xuất. Sử dụng các phương pháp đánh giá đã được cộng đồng nghiên cứu trên thế giới chấp thuận để phân tích và đánh giá tính hiệu quả của các kỹ thuật đã đề xuất. 6. Ý nghĩa khoa học và thực tiễn Việc nghiên cứu các kỹ thuật phát hiện sao chép có ý nghĩa trên cả hai phương diện khoa học và thực tiễn: Về khía cạnh khoa học: Nghiên cứu chuyên sâu và có hệ thống về bài toán phát hiện sao chép, các kỹ thuật phát hiện sao chép làm cơ sở để đề xuất các phương pháp hiệu quả áp dụng cho văn bản tiếng Việt và tiếng Anh. Nội dung nghiên cứu và các kết quả dự kiến đạt được của luận án được xây dựng dựa trên cơ sở toán học sẽ có đóng góp đáng kể góp phần giải quyết bài toán phát hiện sao chép sau này. Về khía cạnh thực tiễn: Các kết quả nghiên cứu trong luận án được mô hình hóa, biểu diễn trên cơ sở toán học và được cài đặt thử nghiệm, đánh giá trên các bộ ngữ liệu tiếng Việt và tiếng Anh. Chương trình cài đặt này có thể kế thừa để xây dựng các phần mềm ứng dụng phát hiện sao chép trong tương lai.
5 7. Bố cục của luận án Luận án gồm 04 chương cùng với các phần mở đầu, kết luận, danh mục các công trình khoa học đã công bố của tác giả và danh mục tài liệu tham khảo. Chương 1. Tổng quan về bài toán phát hiện sao chép Chương này trình bày tổng quan các kiến thức cơ sở liên quan như định nghĩa đạo văn, phân loại các hình thức sao chép, các kiến thức nền tảng, kho ngữ liệu sử dụng và các độ đo thường được áp dụng. Tổng hợp phân tích đánh giá các kỹ thuật phát hiện sao chép trong nước và trên thế giới từ đó nêu ra một số vấn đề còn tồn tại làm cơ sở xác định các vấn đề luận án cần tập trung nghiên cứu giải quyết. Chương 2. Trích rút từ khóa dựa trên mô hình học sâu Nội dung chương này trình bày tổng quan bài toán tìm tập tài liệu ứng cử, định nghĩa bài toán trích rút từ khóa và nội dung đề xuất giải quyết bài toán này cho văn bản tiếng Anh. Nội dung chính của Chương tập trung nghiên cứu và đề xuất bộ 9 đặc trưng mức từ làm đầu vào cho mô hình mạng nơ ron truyền thẳng FFNN. Phương pháp đề xuất được thử nghiệm trên 20 kho ngữ liệu phổ biến và so sánh kết quả với các nghiên cứu tương tự trên thế giới. Chương 3. Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy Chương 3 giới thiệu bài toán phát hiện sao chép toàn cục và hai đề xuất tìm đoạn sao chép giữa hai tài liệu. Đề xuất thứ nhất dựa trên mô hình chủ đề với thuật toán LDA kết hợp với thuật toán tìm tập phổ biến Apriori [6] và kỹ thuật mở rộng đoạn. Đề xuất thứ hai thực hiện hai pha xử lý gồm pha đoạn và pha từ dựa trên mô hình học sâu LSTM xếp chồng và kỹ thuật trích rút đặc trưng để phát hiện đoạn sao chép giữa hai tài liệu. Phương pháp đề xuất được thử nghiệm trên kho ngữ liệu PAN và so sánh với các nghiên cứu gần đây. Chương 4. Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt Nội dung Chương 4 tập trung nghiên cứu, phát triển và ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt. Nội dung chính của Chương này trình bày 02 đề xuất mới và 03 phương pháp cải tiến nhằm áp dụng cho văn bản
6 tiếng Việt cho các đề xuất đã trình bày trong Chương 2 và 3 của luận án. Hai đề xuất mới gồm xây dựng kho ngữ liệu phát hiện đoạn sao chép tiếng Việt và đề xuất phương pháp trích rút từ khóa dựa trên độ đo TF-IDF cho văn bản dài tiếng Việt. Ba nội dung cải tiến áp dụng cho văn bản tiếng Việt gồm cải tiến kỹ thuật trích rút từ khóa dựa trên mô hình học sâu, cải tiến mô hình chủ đề cho bài toán phát hiện đoạn sao chép văn bản tiếng Việt và cải tiến kỹ thuật trích rút đặc trưng và mô hình LSTM xếp chồng cho văn bản tiếng Việt. Các phương pháp đề xuất và cải tiến được thử nghiệm trên các kho ngữ liệu tiếng Việt và so sánh với các nghiên cứu tương tự trên thế giới.
7 CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP Chương này trình bày cơ sở lý thuyết về bài toán phát hiện sao chép bao gồm các khái niệm cơ bản, các phương pháp tiếp cận, các kho ngữ liệu thường được dùng thử nghiệm, các phương pháp đánh giá trong bài toán phát hiện sao chép. Trong chương này cũng trình bày các đặc điểm của tiếng Việt và hiện trạng nghiên cứu về phát hiện sao chép cho văn bản tiếng Việt. Trên cơ sở phân tích các ưu nhược điểm của các hướng tiếp cận hiện tại, luận án đề xuất các nội dung tập trung nghiên cứu trong luận án. 1.1 Tổng quan 1.1.1 Định nghĩa Theo từ điển trực tuyến Merriam-Webster [159], đạo văn là hình thức: - Sao chép và trình bày ý tưởng bằng ngôn từ của người khác. - Sử dụng kết quả của tác giả khác mà không chỉ rõ nguồn gốc. - Công bố một ý tưởng hay một kết quả lấy ra từ các kết quả đã có từ trước. Mô tả theo cách ngắn gọn hơn thì đạo văn là hình thức sao chép bằng cách cắt dán hoặc sử dụng lại ý tưởng, kết quả của người khác mà không trích dẫn đến tác giả hoặc nguồn thông tin. Đạo văn xảy ra phổ biến trong các lĩnh vực giáo dục, nghiên cứu khoa học, xuất bản và một số lĩnh vực chuyên biệt khác như y tế, âm nhạc, hội họa. Đạo văn thường xuất hiện dưới hai hình thức: sao chép nguyên văn và sao chép có sửa đổi [40]. Bảng 1.1 giới thiệu một số hình thức sao chép lấy ra từ kết quả kiểm tra trùng lặp văn bản tiếng Việt được trích xuất từ hệ thống Coopy-Hệ thống kiểm tra trùng lặp nội dung [153] của trường Đại học Bách khoa Hà Nội. Tài liệu đầu vào [1] là đồ án tốt nghiệp của sinh viên ngành Công nghệ thông tin và truyền thông. Bảng 1.1. Kết quả kiểm tra trùng lặp từ hệ thống Coopy STT Tài liệu kiểm tra Tài liệu gốc Hình thức sao chép 1. Hay nói cách khác, truy Hay nói cách khác, truy xuất Sao chép xuất thông tin là hoạt thông tin là hoạt động thu thập nguyên văn động thu thập tài tài nguyên hệ thống thông tin có không có
8 STT Tài liệu kiểm tra Tài liệu gốc Hình thức sao chép nguyên hệ thống thông liên quan đến nhu cầu thông tin trích dẫn tin có liên quan đến nhu từ tập hợp các nguồn thông tin nguồn thông cầu thông tin từ tập hợp Nguồn: từ CSDL của hệ thống tin các nguồn thông tin 2. Ta có thể lấy câu trả lời Với hai câu hỏi được xác định Sao chép có của câu hỏi này, dùng tương đồng, chúng ta hoàn toàn có sự sửa đổi. làm câu trả lời cho câu thể dùng câu trả lời của câu hỏi hỏi còn lại này làm câu trả lời cho câu hỏi kia Nguồn: từ CSDL của hệ thống 3. Để truy xuất được câu Và để truy vấn được câu trả lời Sao chép có trả lời trong cơ sở dữ trong DB cũng cần có các tập sự sửa đổi. liệu thì cũng cần phải có luật Rule-base được xây dựng tập các bộ luật được xây sẵn. dựng sẵn Nguồn: từ CSDL của hệ thống 1.1.2 Các hình thức sao chép Hình thức sao chép đơn giản nhất là sao chép nguyên văn, hay có thể gọi là “cắt - dán”. Tuy nhiên, trong thực tế việc sao chép sau đó thay đổi nghĩa của một số từ bằng các từ đồng nghĩa mà không làm thay đổi nghĩa của cả câu, đoạn vẫn thường xuyên xảy ra. Đây chính là hình thức sao chép có sự sửa đổi. Theo Alzahrani và cộng sự [14] các hình thức sao chép có thể mô tả như Hình 1.1. Sao chép nguyên văn: Đây là dạng sao chép ở đó các đoạn văn bản được sao chép nguyên văn hoặc thay đổi trật tự từ/câu hoặc thay đổi cú pháp. Sao chép có sự sửa đổi: Bao gồm 3 kỹ thuật chính: - Thao tác trên văn bản: Thực hiện thay thế một số từ trong đoạn văn bản bằng các từ đồng nghĩa mà không làm sai ý nghĩa của đoạn văn bản gốc hoặc diễn đạt văn bản theo hình thức tóm tắt và giữ lại các ý chính của văn bản gốc. - Dịch: Dịch đoạn văn bản từ ngôn ngữ này sang ngôn ngữ khác - Sao chép ý tưởng: Đây là dạng sao chép phức tạp và khó phát hiện nhất. Thông thường dạng này chỉ sử dụng một số đoạn quan trọng trong văn bản gốc như kết quả, công bố, kết luận mà không trích dẫn nguồn gốc thông tin. Sao chép ý tưởng thường chia làm 3 loại: Theo ngữ nghĩa (Semantic-based meaning), theo các phần quan trọng (Section-based importance) và theo ngữ cảnh (Context-based).
9 Sao chép - Toàn bộ văn bản chính xác - Một phần văn bản - Chèn Sao chép Sao chép gần - Xóa nguyên văn đúng - Thay thế - Tách câu, gộp câu Sao chép có - Sắp xếp trật tự câu thay đổi - Thay đổi cú pháp - Từ vựng Hình thức Diễn giải - Tiền tố-Cú pháp sao chép Thao tác trên văn bản - Tóm lươc câu Tóm tắt - Tách, gộp câu - Viết lại câu - Diễn giải - Sinh ra các khái niệm - Sinh ra các đặc tả Thủ công Sao chép chọn - Dịch nguyên văn Dịch lọc Tự động - Dịch sang nhiều ngôn ngữ khác Dựa trên ngữ nghĩa Sao chép ý Dựa trên phần quan tưởng trọng Dựa trên ngữ cảnh Hình 1.1. Các hình thức sao chép 1.2. Các kiến thức nền tảng Để phục vụ cho các đề xuất, luận án sử dụng một số thuật toán và mô hình đã được công bố trước đây như thuật toán LDA tìm chủ đề ẩn, thuật toán Apriori khai thác luật kết hợp tìm tập phổ biến, mô hình mạng nơ ron LSTM xếp chồng. Đây là các mô hình và thuật toán chính được áp dụng cho bài toán phát hiện đoạn sao chép giữa hai tài liệu. Bên cạnh đó, tiếng Việt và tiếng Anh có nhiều điểm khác biệt như loại hình ngôn ngữ, cấu tạo từ, dấu thanh, …nên các kỹ thuật xử lý từ áp dụng cho tiếng Anh như tách từ, gán nhãn từ loại không phù hợp cho tiếng Việt. Phần dưới đây luận án giới thiệu ngắn gọn một số nội dung chính có liên quan đến các đề xuất trong luận án. Các kiến thức nền tảng về ngôn ngữ tiếng Việt là cơ sở để luận án áp dụng các kỹ thuật XLNNTN cho tiếng Việt như tách từ,
10 gán nhãn từ loại,…trong quá trình thử nghiệm giải pháp đề xuất cho tiếng Việt. 1.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt 1.2.1.1 Khái quát Tiếng Việt dựa trên bảng kí tự La tinh, cùng với các thanh điệu. Tiếng Việt là loại hình ngôn ngữ đơn lập, mỗi âm tiết được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Ở dạng văn bản, các âm tiết cách nhau bằng dấu cách (‘ ’) hoặc các dấu câu. Mỗi “từ” có thể gồm một hoặc nhiều âm tiết. Ví dụ câu “Hà Nội là thủ đô của nước Việt Nam.” có các từ là Hà_Nội, là, thủ_đô, của, nước, “Việt_Nam”. Khó khăn trong bài toán tách từ là một câu đầu vào có thể có nhiều cách tách từ khác nhau. Ví dụ câu “Ông già đi nhanh quá.” có 2 cách tách từ là: (1) Ông_già đi nhanh quá. (2) Ông già đi nhanh quá. Để có thể phân tích được văn bản tiếng Việt, công việc cơ bản đầu tiên là phải tách từ chính xác cho văn bản. Vì vậy, tách từ là nhiệm vụ quan trọng để giải quyết các bài toán liên quan đến xử lý văn bản tiếng Việt. Một số công cụ tách từ tiếng Việt sử dụng phổ biến hiện nay gồm: - vnTokenizer [105] được phát triển bởi tác giả Lê Hồng Phương và cộng sự với độ chính xác đạt 95,56%. - JVnSegmenter [89] do nhóm tác giả Nguyễn Cẩm Tú và cộng sự xây dựng có độ chính xác đạt 94,23%. - Đông Du [2] do nhóm tác giả Lưu Tuấn Anh và cộng sự phát triển đạt độ chính xác 98,2%. Dựa trên kết quả công bố, độ chính xác của các công cụ tách từ này có sự chênh lệch đáng kể. Tuy nhiên, một số công bố gần đây [92],[93],[105] khi đánh giá trên cùng một kho ngữ liệu cho thấy độ chính xác của các công cụ trên có sự chênh lệch không nhiều (dưới 0,5%) và vnTokenizer đạt độ chính xác cao nhất. Bên cạnh đó, vnTokenizer cung cấp một thư viện API cho phép dễ dàng tích hợp vào các môi trường thử nghiệm. Đây chính là lý do luận án lựa chọn vnTokenizer