Khử mơ hồ nghĩa của cấu trúc “之前之后 ” trong dịch tự động Hoa – Việt

Chia sẻ: Hân Hân | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

66
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Khử mơ hồ nghĩa của cấu trúc “之前之后 ” trong dịch tự động Hoa – Việt

TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM SỐ 01 THÁNG 10 NĂM 2013 KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ” TRONG DỊCH TỰ ĐỘNG HOA – VIỆT Trần Thanh Phƣớc, Trần Văn Thọ* TÓM TẮT Cấu trúc “之前/之后”là dạng ngữ pháp thƣờng gặp trong tiếng Hoa ở cả văn nói và văn viết. Trong dịch tự động thống kê Hoa – Việt, các hệ thống dịch máy thƣờng dịch sai ngữ nghĩa và trật tự từ của cấu trúc ngữ pháp này. Trong bài báo này, chúng tôi sẽ trình bày phƣơng pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt. Chúng tôi đã thực nghiệm phƣơng pháp này trên ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000 mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian của tiếng Hoa và kết quả điểm BLEU dịch Hoa-Việt đạt đƣợc là 47,23 so với 14,15 của Google Translator cho những câu tiếng Hoa có chứa cấu trúc này. ABSTRACT Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written. InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about semanticand word orderofthisgrammatical structure. In this paper, we will present a methodto fixthe abovewrong translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto Vietnamese. We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and 80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator forChinesesentencescontainingthese structures. 1. GIỚI THIỆU Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chƣa thấy công bố chính thức ngoại trừ Google Translator đã có thực hiện thông qua ngôn ngữ trung gian là tiếng Anh. Việc dịch Hoa-Việt-Hoa ở các wesbite khác (nhƣ EVTrans[11], website dichhay.com[12], ...) đều dựa trên Google Translator. Chất lƣợng dịch Hoa – Việt - Hoa theo cách thức bắc cầu nhƣ thế này sẽ cho ra kết quả dịch thấp do kết quả dịch Hoa-Việt phải chịu sai sót qua hai lần dịch (từ Hoa sang Anh và từ Anh sang Việt). Trong nghiên cứu này, chúng tôi sẽ dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt theo phƣơng pháp thống kê dựa trên kho ngữ liệu song ngữ Hoa-Việt (Statistical Machine Translation). Chất lƣợng dịch tự động Hoa Việt cho ra kết quả tƣơng đối tốt do tiếng Hoa và Việt cùng loại hình đơn lập nên có một số đặc điểm ngữ pháp giống nhau. Tuy nhiên, trong một số cấu trúc đặc biệt của ngữ pháp tiếng Hoa, hệ thống lại cho ra kết quả dịch không mong muốn. Một trong những cấu trúc đặc biệt này là cấu trúc “之前/之后” (sẽ trình *ThS. Trần Thanh Phƣớc – Khoa CNTT - Trƣờng ĐH Công nghiệp Thực phẩm Tp.HCM bày ở phần 2), gây ra các lỗi nhƣ: dịch sai nghĩa, sai trật tự từ,... Để khắc phục các cấu trúc ngữ pháp đặc biệt nói trên của tiếng Hoa đã có nhiều phƣơng pháp khác nhau và một trong những phƣơng pháp đó là khử mơ hồ ngữ nghĩa. Ví dụ trong tiếng Hoa, từ 的 rất thƣờng xuất hiện trong cả văn nói cũng nhƣ viết và đƣợc dịch sang các ngôn ngữ khác với nhiều nghĩa khác nhau tùy vào ngữ cảnh trƣớc và sau của nó. Vì vậy, nhóm tác giả Pi-Chuan Chang, Dan Jurafsky và Christofer D.Manning của trƣờng đại học Stanford đã giải quyết vấn đề này theo cách khử mơ hồ nghĩa của từ “的”[6]. Chính sự mơ hồ nghĩa này là nguyên nhân gây ra lỗi dịch dù ngay cả trong các mô hình dịch thống kê theo ngữ (Phrase-Based SMT). Theo [6], dựa vào ngữ pháp từ 的, nhóm tác giả đã chia từ 的 ra thành 5 lớp riêng biệt. Tƣơng ứng với mỗi phân lớp, nhóm tác giả đã tách các ngữ đứng trƣớc và sau từ 的, đánh nhãn từ 的 theo từng lớp phân biệt; sau đó dựa vào cấu trúc ngữ pháp của từng phân lớp, nhóm tác giả đã đảo 81 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM trật tự các ngữ đứng trƣớc và sau từ 的 . Kết quả thử nghiệm với MT02[6] (878 câu), với hệ cơ sở (Baseline)[5] của hệ dịch Hoa-Anh cho kết quả điểm BLEU là 32.51 và sau khi khử mơ hồ nghĩa từ 的 thì điểm BLEU tăng thêm 1.24 điểm. Trong bài báo này, chúng tôi cũng sẽ sử dụng cùng cách tiếp cận này nhƣng áp dụng cho cấu trúc “之前/之后 ”. Cấu trúc này cũng xuất hiện thƣờng xuyên trong các văn bản tiếng Hoa và tùy vào ngữ đứng trƣớc hoặc sau của chúng mà cấu trúc này sẽ cho ra các ý nghĩa khác nhau. Đây chính là nguyên nhân gây ra các lỗi sai về nghĩa và sai về trật tự từ khi chuyển ngữ Hoa - Việt. Để khử mơ hồ nghĩa cấu trúc này chúng tôi chia chúng ra thành các loại khác nhau, cụ thể là cấu trúc “之 前” chia làm 3 loại, cấu trúc “之后” chia làm 3 TRẦN THANH PHƢỚC loại. Tƣơng ứng với từng loại, chúng tôi sẽ biến đổi từ và đảo trật tự từ trong ngữ đứng trƣớc cấu trúc này trƣớc khi cho qua hệ thống huấn luyện và dịch. 2. PHÂN LOẠI CẤU TR C “之前/之后” Cấu trúc này dùng để biểu thị sớm hay muộn so với một mốc thời gian nào đó hay trƣớc hoặc sau một địa điểm nào đó. Cách dùng này thƣờng thấy trong văn viết. Từ “前” có nghĩa gốc là “trƣớc”; từ “后” có nghĩa gốc là “sau”. Khi kết hợp với từ “之” tạo thành “之 前 - 之后”. Tùy vào ngữ cảnh mà cụm từ “之 前 - 之后” sẽ có nghĩa khác nhau. 2.1 Cấu trúc 之前 Cấu trúc này sẽ có các nghĩa sau: “Phía trước”: Nếu ngữ đứng trƣớc “之前” là danh từ hoặc cụm danh từ “Trước”: Nếu ngữ đứng trƣớc “之前” thuộc phạm trù chỉ thời gian. “Trước khi”: Nếu ngữ đứng trƣớc “之前” là động từ 2.2. Cấu trúc 之后 Cấu trúc “之后” gồm các nghĩa sau: “Phía sau”: Nếu ngữ đứng trƣớc “之后” là danh từ hoặc cụm danh từ “Sau”: Nếu ngữ đứng trƣớc “之后” thuộc phạm trù chỉ thời gian. 82 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC “Sau khi”: Nếu ngữ đứng trƣớc “之后” là động từ 3. KHỬ MƠ HỒ NGHĨ CẤU TR C “ 之前/之后 ” Trong hệ dịch máy thống kê Hoa-Việt, khi gặp câu có cấu trúc “之前/之后 ”, hệ thống sẽ dịch sai về ngữ nghĩa và trật tự từ của cấu trúc này. Để khắc phục các lỗi này, chúng tôi sẽ tiền xử lý các câu có cấu trúc nhƣ thế trƣớc khi đƣa vào hệ thống dịch máy. Đầu tiên, tách ngữ đứng trƣớc chúng (ngữ P); sau đó chúng tôi sử dụng phƣơng pháp Maximum Matching[4] trên từ điển 80.000 từ để tách từ trong ngữ P. Dựa vào từ điển từ loại động từ, từ loại chỉ thời gian để phân loại ngữ P và đƣa ra các phƣơng pháp xử lý cho từng trƣờng hợp cụ thể (hình 1). 3.1 Ngữ P chỉ chứa từ loại chỉ thời gian: ■ “之前/之后” đƣợc dịch là “trƣớc sau” ■ “之前” đƣợc chuyển đổi thành “trƣớc”; “之后” đƣợc đổi thành “sau” ■ Đảo trật tự: “Trƣớc sau” đƣợc chuyển ra trƣớc ngữ P (hình 2). 3.2 Ngữ P chứa từ chỉ thời gian, chứa cụm động từ : ■ “之前/之后” đƣợc dịch là “trƣớc khi sau khi” ■ “之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi” ■ Đảo trật tự: „trƣớc khi sau khi” đƣợc chuyển đến vị trí sau từ chỉ thời gian, trƣớc cụm động từ (hình 3) 3.3 Ngữ P chứa từ chỉ thời gian, chứa cụm danh từ: ■ “之前/之后” đƣợc dịch là “phía trƣớc phía sau” ■ Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển đến vị trí sau từ chỉ thời gian, trƣớc cụm danh từ (hình 4) 83 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC Hình 1. Lƣu đồ khử mơ hồ nghĩa cấu trúc “之前/之后” Hình 2. Trƣớc ngữ P chỉ chứa từ chỉ thời gian Hình 3. Ngữ P chứa từ chỉ thời gian + cụm động từ 84 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC Hình 4. Ngữ P chứa từ chỉ thời gian + danh từ 3.4 Ngữ P không chứa từ chỉ thời gian, chứa cụm động từ ■ ■ ■ “之前/之后” đƣợc dịch là “trƣớc khi sau khi” “之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi” Đảo trật tự: “trƣớc khi sau khi” đƣợc chuyển ra trƣớc ngữ P (hình 5) Hình 5. Ngữ P chứa động từ 3.5 Ngữ P không chứa từ chỉ thời gian, chứa cụm danh từ ■ ■ “之前/之后” đƣợc dịch là “phía trƣớc phía sau” Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển ra trƣớc ngữ P (hình 6) Hình 6. Ngữ P không chứa từ chỉ thời gian – chứa cụm danh từ 4. KẾT QUẢ THỬ NGHIỆM VÀ THẢO LUẬN Chúng tôi đã thực hiện hai thử nghiệm sau: ● Thử nghiệm 1: Dùng 10.000 cặp câu song ngữ tự tạo; chủ yếu đƣợc lấy từ các quyển sách dạy tiếng Hoa[7][8]; các website diễn đàn tiếng Hoa[9][10] ; trong đó 9.000 câu dành cho (dev). Chúng tôi sử dụng tập ngữ liệu này thực hiện các thử nghiệm sau: ■ Thử nghiệm dịch tự động với hệ SMT cơ sở (SMT Baseline)[5]: Không xử lý cấu trúc ■ Thử nghiệm dịch tự động với hệ SMT cơ sở [5] đã qua tiền xử lý cấu trúc. 85