intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt

Chia sẻ: Hân Hân | Ngày: | Loại File: PDF | Số trang:8

66
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt.

Chủ đề:
Lưu

Nội dung Text: Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt

TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM<br /> <br /> SỐ 01 THÁNG 10 NĂM 2013<br /> <br /> KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ”<br /> TRONG DỊCH TỰ ĐỘNG HOA – VIỆT<br /> Trần Thanh Phƣớc, Trần Văn Thọ*<br /> TÓM TẮT<br /> Cấu trúc “之前/之后”là dạng ngữ pháp thƣờng gặp trong tiếng Hoa ở cả văn nói và văn viết. Trong dịch tự<br /> động thống kê Hoa – Việt, các hệ thống dịch máy thƣờng dịch sai ngữ nghĩa và trật tự từ của cấu trúc ngữ pháp<br /> này. Trong bài báo này, chúng tôi sẽ trình bày phƣơng pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại<br /> cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi<br /> tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt. Chúng tôi đã thực<br /> nghiệm phƣơng pháp này trên ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000<br /> mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian của tiếng Hoa và kết quả điểm BLEU dịch<br /> Hoa-Việt đạt đƣợc là 47,23 so với 14,15 của Google Translator cho những câu tiếng Hoa có chứa cấu trúc này.<br /> ABSTRACT<br /> Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written. InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about<br /> semanticand word orderofthisgrammatical structure. In this paper, we will present a methodto fixthe abovewrong<br /> translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and<br /> thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto<br /> Vietnamese. We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and<br /> 80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach<br /> the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator<br /> forChinesesentencescontainingthese structures.<br /> <br /> 1. GIỚI THIỆU<br /> Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chƣa thấy công bố chính thức ngoại trừ<br /> Google Translator đã có thực hiện thông qua<br /> ngôn ngữ trung gian là tiếng Anh. Việc dịch<br /> Hoa-Việt-Hoa ở các wesbite khác (nhƣ<br /> EVTrans[11], website dichhay.com[12], ...)<br /> đều dựa trên Google Translator. Chất lƣợng<br /> dịch Hoa – Việt - Hoa theo cách thức bắc cầu<br /> nhƣ thế này sẽ cho ra kết quả dịch thấp do kết<br /> quả dịch Hoa-Việt phải chịu sai sót qua hai lần<br /> dịch (từ Hoa sang Anh và từ Anh sang Việt).<br /> Trong nghiên cứu này, chúng tôi sẽ dịch tự<br /> động trực tiếp từ tiếng Hoa sang tiếng Việt<br /> theo phƣơng pháp thống kê dựa trên kho ngữ<br /> liệu song ngữ Hoa-Việt (Statistical Machine<br /> Translation). Chất lƣợng dịch tự động Hoa Việt cho ra kết quả tƣơng đối tốt do tiếng Hoa<br /> và Việt cùng loại hình đơn lập nên có một số<br /> đặc điểm ngữ pháp giống nhau. Tuy nhiên,<br /> trong một số cấu trúc đặc biệt của ngữ pháp<br /> tiếng Hoa, hệ thống lại cho ra kết quả dịch<br /> không mong muốn. Một trong những cấu trúc<br /> đặc biệt này là cấu trúc “之前/之后” (sẽ trình<br /> *ThS. Trần Thanh Phƣớc – Khoa CNTT<br /> - Trƣờng ĐH Công nghiệp Thực phẩm Tp.HCM<br /> <br /> bày ở phần 2), gây ra các lỗi nhƣ: dịch sai<br /> nghĩa, sai trật tự từ,...<br /> Để khắc phục các cấu trúc ngữ pháp đặc<br /> biệt nói trên của tiếng Hoa đã có nhiều phƣơng<br /> pháp khác nhau và một trong những phƣơng<br /> pháp đó là khử mơ hồ ngữ nghĩa. Ví dụ trong<br /> tiếng Hoa, từ 的 rất thƣờng xuất hiện trong cả<br /> văn nói cũng nhƣ viết và đƣợc dịch sang các<br /> ngôn ngữ khác với nhiều nghĩa khác nhau tùy<br /> vào ngữ cảnh trƣớc và sau của nó. Vì vậy,<br /> nhóm tác giả Pi-Chuan Chang, Dan Jurafsky<br /> và Christofer D.Manning của trƣờng đại học<br /> Stanford đã giải quyết vấn đề này theo cách<br /> khử mơ hồ nghĩa của từ “的”[6]. Chính sự mơ<br /> hồ nghĩa này là nguyên nhân gây ra lỗi dịch dù<br /> ngay cả trong các mô hình dịch thống kê theo<br /> ngữ (Phrase-Based SMT). Theo [6], dựa vào<br /> ngữ pháp từ 的, nhóm tác giả đã chia từ 的 ra<br /> thành 5 lớp riêng biệt. Tƣơng ứng với mỗi<br /> phân lớp, nhóm tác giả đã tách các ngữ đứng<br /> trƣớc và sau từ 的, đánh nhãn từ 的 theo từng<br /> lớp phân biệt; sau đó dựa vào cấu trúc ngữ<br /> pháp của từng phân lớp, nhóm tác giả đã đảo<br /> <br /> 81<br /> <br /> TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM<br /> trật tự các ngữ đứng trƣớc và sau từ 的 . Kết<br /> quả thử nghiệm với MT02[6] (878 câu), với hệ<br /> cơ sở (Baseline)[5] của hệ dịch Hoa-Anh cho<br /> kết quả điểm BLEU là 32.51 và sau khi khử<br /> mơ hồ nghĩa từ 的 thì điểm BLEU tăng thêm<br /> 1.24 điểm.<br /> Trong bài báo này, chúng tôi cũng sẽ sử<br /> dụng cùng cách tiếp cận này nhƣng áp dụng<br /> cho cấu trúc “之前/之后 ”. Cấu trúc này cũng<br /> xuất hiện thƣờng xuyên trong các văn bản<br /> tiếng Hoa và tùy vào ngữ đứng trƣớc hoặc sau<br /> của chúng mà cấu trúc này sẽ cho ra các ý<br /> nghĩa khác nhau. Đây chính là nguyên nhân<br /> gây ra các lỗi sai về nghĩa và sai về trật tự từ<br /> khi chuyển ngữ Hoa - Việt. Để khử mơ hồ<br /> nghĩa cấu trúc này chúng tôi chia chúng ra<br /> thành các loại khác nhau, cụ thể là cấu trúc “之<br /> 前” chia làm 3 loại, cấu trúc “之后” chia làm 3<br /> <br /> TRẦN THANH PHƢỚC<br /> <br /> loại. Tƣơng ứng với từng loại, chúng tôi sẽ<br /> biến đổi từ và đảo trật tự từ trong ngữ đứng<br /> trƣớc cấu trúc này trƣớc khi cho qua hệ thống<br /> huấn luyện và dịch.<br /> 2. PHÂN LOẠI CẤU TR C “之前/之后”<br /> Cấu trúc này dùng để biểu thị sớm hay<br /> muộn so với một mốc thời gian nào đó hay<br /> trƣớc hoặc sau một địa điểm nào đó. Cách<br /> dùng này thƣờng thấy trong văn viết. Từ “前”<br /> có nghĩa gốc là “trƣớc”; từ “后” có nghĩa gốc<br /> là “sau”. Khi kết hợp với từ “之” tạo thành “之<br /> 前 - 之后”. Tùy vào ngữ cảnh mà cụm từ “之<br /> 前 - 之后” sẽ có nghĩa khác nhau.<br /> 2.1 Cấu trúc 之前<br /> Cấu trúc này sẽ có các nghĩa sau:<br /> <br /> “Phía trước”: Nếu ngữ đứng trƣớc “之前” là danh từ hoặc cụm danh từ<br /> <br /> “Trước”: Nếu ngữ đứng trƣớc “之前” thuộc phạm trù chỉ thời gian.<br /> <br /> “Trước khi”: Nếu ngữ đứng trƣớc “之前” là động từ<br /> <br /> 2.2. Cấu trúc 之后<br /> Cấu trúc “之后” gồm các nghĩa sau:<br /> “Phía sau”: Nếu ngữ đứng trƣớc “之后” là danh từ hoặc cụm danh từ<br /> <br /> “Sau”: Nếu ngữ đứng trƣớc “之后” thuộc phạm trù chỉ thời gian.<br /> <br /> 82<br /> <br /> TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM<br /> <br /> TRẦN THANH PHƢỚC<br /> <br /> “Sau khi”: Nếu ngữ đứng trƣớc “之后” là động từ<br /> <br /> 3. KHỬ MƠ HỒ NGHĨ CẤU TR C “<br /> 之前/之后 ”<br /> Trong hệ dịch máy thống kê Hoa-Việt, khi<br /> gặp câu có cấu trúc “之前/之后 ”, hệ thống sẽ<br /> dịch sai về ngữ nghĩa và trật tự từ của cấu trúc<br /> này. Để khắc phục các lỗi này, chúng tôi sẽ<br /> tiền xử lý các câu có cấu trúc nhƣ thế trƣớc khi<br /> đƣa vào hệ thống dịch máy. Đầu tiên, tách ngữ<br /> đứng trƣớc chúng (ngữ P); sau đó chúng tôi sử<br /> dụng phƣơng pháp Maximum Matching[4] trên<br /> từ điển 80.000 từ để tách từ trong ngữ P. Dựa<br /> vào từ điển từ loại động từ, từ loại chỉ thời gian<br /> để phân loại ngữ P và đƣa ra các phƣơng pháp<br /> xử lý cho từng trƣờng hợp cụ thể (hình 1).<br /> 3.1 Ngữ P chỉ chứa từ loại chỉ thời gian:<br /> ■<br /> “之前/之后” đƣợc dịch là “trƣớc sau”<br /> ■<br /> “之前” đƣợc chuyển đổi thành<br /> “trƣớc”; “之后” đƣợc đổi thành “sau”<br /> <br /> ■<br /> Đảo trật tự: “Trƣớc sau” đƣợc chuyển<br /> ra trƣớc ngữ P (hình 2).<br /> 3.2 Ngữ P chứa từ chỉ thời gian, chứa<br /> cụm động từ :<br /> ■<br /> “之前/之后” đƣợc dịch là “trƣớc<br /> khi sau khi”<br /> ■<br /> “之前” đƣợc chuyển đổi thành “trƣớc<br /> khi”; “之后” đƣợc đổi thành “sau khi”<br /> ■<br /> Đảo trật tự: „trƣớc khi sau khi” đƣợc<br /> chuyển đến vị trí sau từ chỉ thời gian, trƣớc<br /> cụm động từ (hình 3)<br /> 3.3 Ngữ P chứa từ chỉ thời gian, chứa<br /> cụm danh từ:<br /> ■<br /> “之前/之后” đƣợc dịch là “phía<br /> trƣớc phía sau”<br /> ■<br /> Đảo trật tự: “phía trƣớc phía sau” đƣợc<br /> chuyển đến vị trí sau từ chỉ thời gian, trƣớc<br /> cụm danh từ (hình 4)<br /> <br /> 83<br /> <br /> TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM<br /> <br /> TRẦN THANH PHƢỚC<br /> <br /> Hình 1. Lƣu đồ khử mơ hồ nghĩa cấu trúc “之前/之后”<br /> <br /> Hình 2. Trƣớc ngữ P chỉ chứa từ chỉ thời gian<br /> <br /> Hình 3. Ngữ P chứa từ chỉ thời gian + cụm động từ<br /> 84<br /> <br /> TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM<br /> <br /> TRẦN THANH PHƢỚC<br /> <br /> Hình 4. Ngữ P chứa từ chỉ thời gian + danh từ<br /> 3.4 Ngữ P không chứa từ chỉ thời gian, chứa cụm động từ<br /> ■<br /> ■<br /> ■<br /> <br /> “之前/之后” đƣợc dịch là “trƣớc khi sau khi”<br /> “之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi”<br /> Đảo trật tự: “trƣớc khi sau khi” đƣợc chuyển ra trƣớc ngữ P (hình 5)<br /> <br /> Hình 5. Ngữ P chứa động từ<br /> 3.5 Ngữ P không chứa từ chỉ thời gian, chứa cụm danh từ<br /> ■<br /> ■<br /> <br /> “之前/之后” đƣợc dịch là “phía trƣớc phía sau”<br /> Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển ra trƣớc ngữ P (hình 6)<br /> <br /> Hình 6. Ngữ P không chứa từ chỉ thời gian – chứa cụm danh từ<br /> 4. KẾT QUẢ THỬ NGHIỆM VÀ THẢO<br /> LUẬN<br /> Chúng tôi đã thực hiện hai thử nghiệm sau:<br /> ●<br /> Thử nghiệm 1: Dùng 10.000 cặp câu<br /> song ngữ tự tạo; chủ yếu đƣợc lấy từ các quyển<br /> sách dạy tiếng Hoa[7][8]; các website diễn đàn<br /> tiếng Hoa[9][10] ; trong đó 9.000 câu dành cho<br /> <br /> (dev). Chúng tôi sử dụng tập ngữ liệu này<br /> thực hiện các thử nghiệm sau:<br /> ■<br /> Thử nghiệm dịch tự động với hệ SMT<br /> cơ sở (SMT Baseline)[5]: Không xử lý cấu trúc<br /> ■<br /> Thử nghiệm dịch tự động với hệ SMT<br /> cơ sở [5] đã qua tiền xử lý cấu trúc.<br /> 85<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2