Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt

Chia sẻ: Wang Ziyi | Ngày: | Loại File: PDF | Số trang:6

Thêm vào BST

Báo xấu

33
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một giải pháp cho việc gán nhãn ngữ nghĩa một cách tự động trên kho ngữ liệu song ngữ Anh-Việt, tận dụng những dịch chuyển từ vựng trong ngôn ngữ chéo, nhưng vẫn đảm bảo yếu tố cốt lõi về mặt ngữ nghĩa của nó. Hệ thống sử dụng kho ngữ liệu song ngữ Anh-Việt để xây dựng các tập hợp liên kết có khả năng kết hợp từ nhiều từ khác nhau được phát hiện trong kho ngữ liệu. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt

HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt Huỳnh Quang Đức và Trần Lê Tâm Linh Trung tâm Tin học, Trường Cao đẳng Nghề Sóc Trăng, Tỉnh Sóc Trăng Trung tâm Khoa học toán học, Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh Email: dhuynhquang@gmail.com, tranletamlinh@yahoo.com.vn Abstract – Tiếp cận nội dung gán nhãn ngữ nghĩa trong kém về chi phí và thời gian, đòi hỏi phải có đội ngũ chuyên song ngữ đã được nghiên cứu nhiều trên các ngôn ngữ phổ nghiệp về đánh dấu nhãn ngữ nghĩa trên ngôn ngữ. Những biến (như Tiếng Anh, tiếng Pháp). Tuy nhiên, việc gán phương pháp học không giám sát trên đơn ngữ có thuận lợi là nhãn ngữ nghĩa cho những ngôn ngữ ít phổ biến như tiếng sự giả định ít hơn về dữ liệu có giá trị, nhưng khả năng tổng Việt hiện nay đang còn hạn chế, đặc biệt là tận dụng sự quát thực tiễn thấp [2] [12]. tương đồng ngữ nghĩa trên song ngữ Anh-Việt. Trong nội Sử dụng kho ngữ liệu song ngữ thì những lợi điểm của hai dung nghiên cứu này, chúng tôi đề xuất một giải pháp cho ngôn ngữ được khai thác một cách phù hợp. Khả năng gán việc gán nhãn ngữ nghĩa một cách tự động trên kho ngữ nhãn ngữ nghĩa một cách tự động [1] trên phần lớn dữ liệu của liệu song ngữ Anh-Việt, tận dụng những dịch chuyển từ kho ngữ liệu song ngữ bằng thuật toán học không giám sát có vựng trong ngôn ngữ chéo, nhưng vẫn đảm bảo yếu tố cốt thể thực hiện được, mà không mất nhiều thời gian và tiết kiệm lõi về mặt ngữ nghĩa của nó. Hệ thống sử dụng kho ngữ được chi phí. Trong nội dung nghiên cứu này, chúng tôi sử liệu song ngữ Anh-Việt để xây dựng các tập hợp liên kết có dụng đồng thời việc gán nhãn ngữ nghĩa trên hai ngôn ngữ khả năng kết hợp từ nhiều từ khác nhau được phát hiện Anh-Việt với một nhãn nghĩa thống kê có sẵn. trong kho ngữ liệu, đồng thời hệ thống này cũng sử dụng Mục đích của phương pháp tiếp cận này hướng đến là: Thứ một thuật toán học không giám sát để gán nhãn ngữ nghĩa nhất, cung cấp một số lượng lớn dữ liệu được gán nhãn ngữ trên tiếng Anh dựa vào sự tương đồng ngữ nghĩa được liên nghĩa trên tiếng Anh mà không cần đánh dấu bằng tay bởi các kết từ tiếng Việt thông qua ngữ liệu song ngữ Anh-Việt. chuyên gia. Thứ hai, đồng thời cũng gán được nhãn ngữ nghĩa Sau đó, hệ thống tự động chiếu những nhãn từ tiếng Anh trên tiếng Việt với sự kết hợp hệ thống nhãn đã được đánh dấu sang tiếng Việt thông qua những liên kết có sẵn. trên tiếng Anh. Vấn đề cần quan tâm của nghiên cứu này là sự quan sát Keywords - ngữ liệu song ngữ; học không giám sát; kho ngữ những chuyển đổi có thể đáp ứng qua lại như một cơ sở các liệu; dịch máy; đặc trưng về mặt ngữ nghĩa [11]. Một từ có nhiều nghĩa trên tiếng Anh thường được dịch sang một nghĩa cụ thể trên tiếng I. GIỚI THIỆU Việt với lựa chọn tùy vào người dịch và nghĩa ngữ cảnh. Vì Hệ thống gán nhãn ngữ nghĩa là một công cụ quan trọng vậy, dịch nghĩa phù hợp được xem như một nghĩa chỉ dẫn cho trong xử lý ngôn ngữ tự nhiên, đặc biệt là sự phát triển nhanh một ví dụ trong ngữ cảnh của nó. Mặc khác, những ví dụ về kết chóng của dữ liệu trên Internet. Hiện nay, các nhà nghiên cứu nối ngữ nghĩa được dịch với một vài nhất quán trong một số ít quan hệ từ trong tiếng Việt. Ngoài ra, một số ít từ rất hiếm gặp đang tập trung giải quyết câu hỏi trọng tâm của ngôn ngữ học một tập hợp duy nhất ngay cả với một nghĩa duy nhất, vì những tính toán là làm sao khử nhập nhằng ngữ nghĩa trong ngôn ngữ ưu tiên việc dịch khác nhau và yêu cầu về ngữ cảnh tạo ra tự nhiên, giúp máy tính hiểu rõ được ý nghĩa câu nói của con những từ tương đồng ngữ nghĩa mà khác với sắc thái của nó. người, nhằm giải quyết những vấn đề thực tế trong cuộc sống hiện đại, gồm nhiều lĩnh vực khác nhau như: khai thác thông Ví dụ, trong kho ngữ liệu song ngữ Anh-Việt, một từ trong tin, trả lời câu hỏi, tóm tắt văn bản, dịch máy … Việc phân tiếng Việt là “đông” có thể được dịch tương ứng với từ tích ngữ nghĩa của văn bản ở mức độ câu, người ta quan tâm “winter” trong tiếng Anh tại một đoạn văn bản, đồng thời cũng đến đặc điểm của sự kiện như: ai, làm việc gì, ở đâu, khi nào, có thể dịch thành từ “east” trong một đoạn văn bản khác. Trong như thế nào … những câu hỏi này là đặc điểm chính của việc mỗi từ tiếng Anh như: winter, east bản thân nó cũng có sự gán nhãn ngữ nghĩa cho ngôn ngữ [6]. nhập nhằng riêng của từng từ. Nhưng chúng ta có thể tận dụng Bên cạnh đó, những yếu tố quan trọng như: Kỹ thuật máy ưu điểm thực tế mà cả hai ví dụ từ trong tiếng Anh xuất hiện tương ứng với từ đông trong tiếng Việt để suy đoán rằng hai từ học, sự lan truyền về hệ thống ngữ nghĩa của WordNet và giá tiếng Anh có thể có một vài yếu tố riêng biệt về nghĩa trong trị của kho ngữ liệu lớn cũng được quan tâm trong việc khử từng đoạn văn bản cụ thể. Chúng ta có thể sử dụng những suy nhập nhằng ngữ nghĩa trong xử lý ngôn ngữ tự nhiên. Phần luận đó để quyết định những nghĩa tiếng Anh nào muốn nói lớn những hệ thống học giám sát thì việc học từ kho ngữ liệu đến. Điều này phù hợp với mục tiêu ban đầu là chúng ta có thể đã được gán nhãn ngữ nghĩa một cách chính xác, được thực chiếu sự lựa chọn nghĩa của từ winter trong tiếng Anh của ví hiện bằng tay do các chuyên gia về ngôn ngữ học thực hiện, dụ này sang từ tiếng Việt đông trong ngữ cảnh này, cũng tương đồng thời việc học đánh giá trên ngữ liệu huấn luyện cần số tự như từ east được dịch sang từ đông, vì vậy việc gán nhãn lượng lớn ngữ liệu đã được đánh dấu [9]. Điều này là rất tốn ISBN: 978-604-67-0635-9 71 71
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) ngữ nghĩa trong hai ngôn ngữ song song với sự thống kê đơn III. PHƯƠNG PHÁP TIẾP CẬN nghĩa là hoàn toàn phù hợp và có thể thực hiện được. Để thuận tiện trong việc tiếp cận phương pháp nghiên cứu, Trong nội dung nghiên cứu, chúng tôi sử dụng một kho ngữ trong kho ngữ liệu song ngữ Anh-Việt chúng tôi thống kê ngữ liệu song ngữ Anh-Việt với phần lớn dữ liệu được lấy từ ngữ nghĩa trên tiếng Anh, mặc dù không có sự giả định cần thiết liệu song ngữ EVC và LLOCE. Sau đó sẽ tiến hành xác định trong việc dịch trực tiếp, nhưng chúng tôi xem mặc định kho ngữ nghĩa trên các cặp câu song ngữ Anh-Việt thông qua độ ngữ liệu tiếng Anh là ngôn ngữ mục tiêu để gán nhãn ngữ tương đồng ngữ nghĩa và sự dịch chuyển từ vựng trong ngôn nghĩa và kho ngữ liệu tiếng Việt là ngôn ngữ ngồn xác định ngữ chéo để xác định nhãn ngữ nghĩa trên danh từ tiếng Anh. nhãn nghĩa tương đồng cho ngôn ngữ mục tiêu. Trong phần Cuối cùng là chiếu nhãn ngữ nghĩa từ tiếng Anh sang tiếng trước, chúng tôi ví dụ từ tiếng Việt đông được dịch sang hai từ Việt với bộ nhãn trong từ điển ý niệm song ngữ LLOCE khác nhau trong tiếng Anh là winter và east trong hai ngữ cảnh (Longman Lexicon Of Contemporary English) - LLOCV khác nhau. Quá trình thực hiện hướng tiếp cận này được mô tả (Longman Lexical Of Contemporary Vietnamese). chi tiết như sau: Các phần còn lại của nghiên cứu này bao gồm: A. Xác định danh từ  Công việc liên quan: Một số công trình nghiên cứu có Xác định những từ trong ngữ liệu tiếng Anh (ngữ liệu khả liên quan đến gán nhãn ngữ nghĩa trên đa ngữ. năng - ngôn ngữ mục tiêu) có nghĩa được dịch thích hợp trong  Đề xuất phương pháp tiếp cận: Mô tả những nội dung ngữ liệu tiếng Việt (ngữ liệu nguồn). Ví dụ cho trường hợp thực hiện để gán nhãn ngữ nghĩa trong kho ngữ liệu song ngữ này là tập các khả năng của kho ngữ liệu tiếng Anh {winter, Anh-Việt. east}, và từ trong kho ngữ liệu tiếng Việt {đông}.  Đánh giá kết quả phương pháp tiếp cận vấn đề: Trình Chúng tôi giả sử lấy một câu hoặc một đoạn đã được dịch bày những yêu cầu cần thiết trong đánh giá kết quả thực song song trong kho ngữ liệu, dữ liệu song song có sẵn và phù hợp là từ những trang Web trên mạng Internet. Sau đó, nhận nghiệm mà chúng tôi sử dụng để gán nhãn ngữ nghĩa. dạng và đánh dấu các từ có thể liên kết, chúng ta thu được  Thảo luận vấn đề tận dụng lợi điểm của kho ngữ liệu những câu ở mức độ liên kết từ. Với mỗi từ trong tiếng Việt song ngữ. Kết luận và hướng phát triển trong thời gian tới. chẳng hạn như w, chúng ta thu thập một từ ví dụ như v mà nó II. CÔNG TRÌNH LIÊN QUAN được liên kết. Vị trí của từ trong ví dụ được lưu lại để trong phần sau chúng ta có thể chiếu trở lại nhãn ngữ nghĩa cuối Trong nghiên cứu của mình Paul Rayson và cộng sự đã xây cùng từ v sang w. Ví dụ ta có một cặp câu song ngữ Anh-Việt dựng công cụ phân tích ngữ nghĩa sử dụng bộ nhãn ý niệm với liên kết như hình 1. LLOCE được chia thành 21 chủ đề, và trong 21 chủ đề này được chia thành 232 loại ý niệm khác nhau [14]. Trong đó, các Thời tiết đã chuyển sang đông tác giả đã dựa vào nhiều loại tri thức khác nhau để xác định nhãn ngữ nghĩa cho từ trong câu như: từ loại (POS tag), từ có nhiều chữ (MWEs), từ điển tần suất, phạm vi văn bản (domain of discourse) … The weather turned to the winter Dựa trên từ điển ý niệm LLOCE, Scott Piao et all đã phát Hình 1. Một ví dụ về liên kết danh từ triển một hệ thống gán nhãn ngữ nghĩa trên nhiều ngôn ngữ như: tiếng Anh, tiếng Bồ Đào Nha, tiếng Trung Quốc và tiếng Sự liên kết có thể xảy ra giữa từ đông và từ winter trong Ý [15] với kiến trúc hệ thống dựa vào luật ngữ cảnh (context cặp câu song ngữ trên, có nghĩa là hệ thống sẽ dịch từ đông rules), từ vựng từ (word lexicon), từ vựng nhiều từ (mwe trong tiếng Việt thành từ winter trong tiếng Anh, từ thời tiết lexicon). Trong đó có sử dụng TreeTagger cho tiếng Ý và Bồ trong tiếng Việt được dịch thành từ weather trong tiếng Anh. Đào Nha và Stanford POS tagger cho tiếng Trung Quốc. B. Gom nhóm – Xây dựng tập các khả năng Bên cạnh đó, chúng tôi cũng tham khảo cách thức tổ chức Gom nhóm những từ trong ngôn ngữ mục tiêu tạo thành từ điểm ý niệm LLOCE được xây dựng bởi Mc Arthur năm những tập các khả năng về nghĩa được dịch cùng một hình thức 1981 (Mc Arthur, 1981) với cách tổ chức nhãn được gắn thêm chính tả trong ngôn ngữ nguồn. Tức là sử dụng kho ngữ liệu để các yếu tố phụ nhằm giúp tăng độ chính xác của nhãn ngữ xây dựng các tập khả năng của tất cả các từ (danh từ) mà có nghĩa khi thực hiện gán nhãn cho văn bản. Ví dụ như: giới tính liên kết với nhiều từ khác nhau (từ hai từ trở lên) được phát (sex) nhãn được ghi thêm m/f (male/female) hoặc +/- hiện trong kho ngữ liệu. Chúng tôi thu thập mỗi loại từ vi trong (positive/negative) được bổ sung vào nhãn “happy” hoặc “sad” tiếng Việt gồm tập hợp tất cả những loại từ trong tiếng Anh mà với mã “E4.1+” hoặc “E4.1-”. được liên kết với bất cứ từ nào trong kho ngữ liệu và gọi đó là Trong đánh giá kết quả thực nghiệm [15] tác giả cũng chỉ ra tập khả năng của vi. Ví dụ trong trường hợp này ta có từ trong những lỗi từ vựng xảy ra trong quá trình dịch từ tiếng Anh sang câu tiếng Việt là đông có thể bao gồm những loại từ trong tiếng ngôn ngữ khác như: Từ tiếng Anh father với nhãn S4m, S9, Anh winter, east, frozen. Trong tập các khả năng ta thấy xuất S2m hoặc từ dad, dada, baba, da, daddy với nhãn S4m, papa hiện thêm từ frozen mà trong hai ví dụ trước ta thấy không có, (S4m) … điều đó được lý giải như sau: Sở dĩ có từ frozen trong tập các khả năng là vì trong một số trường hợp trong kho ngữ liệu có đoạn dịch câu “thời gian này thời tiết đã chuyển sang đông” thành câu “this time the weather 72 72
HộiHội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) has shifted frozen”. Ngoài ra, trong tập các khả năng còn có thể nghĩa như trên, theo cách tự nhiên thì việc nhận ra đặc điểm vai chứa thêm từ khác, nếu như trong kho ngữ liệu song ngữ Anh- trò ngữ nghĩa của từ thuộc lớp ngữ nghĩa như là đối số của nó Việt chương trình còn phát hiện câu dịch có từ đông được dịch được phân bố bằng mối quan hệ cho việc ưu tiên lựa chọn về sang từ khác trong câu tiếng Anh ở một đoạn khác. Ví dụ: Với độ đo. Đặc biệt, là những lớp có vai trò ngữ nghĩa phù hợp nhất câu tiếng Việt “Tại thành phố Hồ Chí Minh số lượng người rất sẽ có xác suất cao hơn được so với từ đứng trước nó. Cụ thể, đông” được dịch trong ngữ liệu tiếng Anh thành câu “The kết nối được lựa chọn thông qua công thức: number of people are crowded in Ho Chi Minh City”, khi đó 1 Pr(c | p) tập các khả năng của từ đông sẽ được bổ sung thâm từ AR ( p, c)  * Pr(c | p) * log (2) crowded. S R ( p) Pr(c) Quan sát hình 3, ta thấy phân bố tỷ lệ xác suất sẽ thay đổi Thuật toán 1: CAS - Create Ability Set khi từ tiếp theo xuất hiện với một từ cho trước. Đầu vào: Văn bản song ngữ Anh-Việt Đầu ra: Tập các khả năng một từ tiếng Việt được dịch Pr(c|buzz) sau sang tiếng Anh. trước Bước 1: Tìm danh từ vi. Gọi là tập các ứng viên V; Pr(c) Bước 2: Tạo tập rỗng S để lưu tập các khả năng cho mỗi từ vi; Bước 3: k = 1; Bước 4: Mỗi từ vi trong V thực hiện person insect … person insect … Tạo tập rỗng Sk Mỗi cặp câu song ngữ thực hiện Hình 3. Sự phân bố xác suất trước và sau thông qua đối số Tìm mỗi cặp (we, wv) có wv = = vi bổ sung từ tiếng Anh vào Sk; Lưu lại liên kết; Bảng 1 thể hiện sự so sánh một từ được lựa chọn để gán Bước 5: Thêm (vi, Sk) vào S; nhãn ngữ nghĩa thuộc lớp nào trong LLOCE với đối số theo Bước 6: k = k + 1; quan điểm của con người. Bước 7: Quay lại bước 4. BẢNG 1. SỰ KẾT HỢP DANH TỪ PHÙ HỢP Hình 2. Một số bước cơ bản của thuật toán xây dựng tập khả năng Verb Noun AR(verb,noun) Semanitc classes turn winter 4,94 L238 C. Tính xác suất xác định nhãn ngữ nghĩa go east 4,15 L13 become frozen 3,02 B140 Xem xét tất cả các cặp từ có nghĩa có thể có trong phạm vi be crowded 2,11 N250 mỗi tập mục tiêu và chọn những từ có nghĩa được cung cấp bởi sự tương đồng ngữ nghĩa của những từ khác trong nhóm thông Ví dụ với từ winter có 3 nghĩa khác nhau thuộc 18 lớp ngữ qua độ tin cậy về mặt nghĩa của nó. Ví dụ như trong phạm vi nghĩa trong từ điển LLOCE, để tính xấp xỉ phù hợp động từ tập các khả năng {winter, east, frozen} và tập nguồn {đông}, ta cho từ winter, sự lựa chọn kết hợp từ go sẽ được tính toán trên sẽ xem xét các cặp (winter, đông), (east, đông), (frozen, đông), 18 lớp ngữ nghĩa và được trả về giá trị cao nhất, trong trường mỗi cặp sẽ được gán một giá trị độ tin cậy về mặt ngữ nghĩa. Trong bước này, tập các khả năng được xem như là vấn đề gán hợp này nếu winter có một nghĩa duy nhất thì lớp nhãn ngữ nhãn ngữ nghĩa trên đơn ngữ đối với sự thống kê ngữ nghĩa nghĩa được tạo ra cho từ winter. Cách tiếp cận này quyết định trên ngôn ngữ mục tiêu. Chúng ta quan tâm đến tập các khả đối số phù hợp thông qua thuật toán khử nhập nhằng thông năng {winter, east, frozen}. Đối với con người thì việc chọn qua sự ưu tiên lựa chọn được mô tả như sau: nghĩa của các từ này nằm cạnh nhau sẽ hiểu ngay ý nghĩa đặc Cho n là một danh từ có quan hệ R với động từ p, cho một trưng của từng từ. Nhưng với máy tính thì việc xác định nghĩa tập {s1, s2 …. sk} là những nghĩa có thể có của nó. Khi đó: sẽ được thực hiện bằng thống kê thông qua thuật toán tính xác cho i chạy từ 1 đến k và tính: suất. Điều này được Philip Resnik khai thác rất hiệu quả trong Ci = {c | c là gốc của nghĩa si}; thuật toán khử nhập nhằng ngữ nghĩa thông qua những mối quan hệ của nó [13]: ai  max ( AR ( p, c)) ; cCi S R ( p)  D(Pr(c | p) || Pr(c) gán ai như là điểm số đại diện ngữ nghĩa của si. Pr(c | p) Trong nghiên cứu về sự phù hợp ngữ nghĩa [5] cách đơn   Pr(c | p) * log (1) giản nhất là sử dụng kết quả điểm số được tính toán như trên. c Pr(c) Nếu n có nghĩa duy nhất thì chọn nghĩa đó, ngược lại thì lựa Trong đó, S R ( p) là độ đo thông tin, từ p cho biết lớp chọn nghĩa si mà có ai tốt nhất. nguyên lý về đối số của nó, Pr(c) là khả năng tính xấp xỉ cao Minh họa cụ thể vào cách tiếp cận mà chúng tôi nghiên hơn Pr(c | p) , trong trường hợp này từ p sẽ có ít khả năng hơn cứu. Cho một tập hợp các khả năng {w1, w2 … wn}, thuật toán sẽ xây dựng trên mỗi cặp (wi,wj) với i ≠ j và xác định nghĩa nào đối số của nó, nên khả năng lựa chọn sẽ ít hơn c. Với cách định 73 73
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) cho cặp từ (wi,wj) với sự tương đồng ngữ nghĩa lớn nhất. Và từ-trên 16.000 mục từ có quan hệ về nghĩa [3]. những nghĩa này sẽ được đại diện bằng một con số tương ứng Hệ thống của chúng tôi tiếp cận gán nhãn ngữ nghĩa cho với mức độ hợp lý nghĩa của từ. Sau khi xây dựng được tất cả danh từ với lớp ngữ nghĩa của nó trong cặp câu song ngữ Anh- các cặp trong tập hợp các khả năng, chúng ta sẽ bắt đầu so sánh Việt, tức là gán nhãn ngữ nghĩa thuộc 2449 lớp ngữ nghĩa trên mỗi cặp, với mỗi nghĩa của từ được ký hiệu bằng một số trong từ điển song ngữ LLOCE-LLOCV (xem hinh 5, hình 6). xi,k cho mỗi từ wi và được kết hợp với nó là một độ tin cậy c(xi,k)  [0, 1], khi đó sẽ gắn với một nhãn ngữ nghĩa cụ thể. Ví vụ cho trường hợp này, với một cặp câu song ngữ như sau: LLOCE “thời tiết đã chuyển sang đông từ tháng 10” được liên kết với câu “the weather turned to the winter from October ”, tức là A B C … L M N cặp (đông, winter) sẽ có độ tin cậy cao hơn cặp (east, đông). Phần cuối của bước này, hệ thống sẽ đánh dấu biến đổi quan L2 L3 … L1 trọng trong bản dịch nhờ vào những tương đồng ngữ nghĩa của nhiều từ trong tập các khả năng. L21 L22 L23 L24 … Thuật toán 2: CP - Calculate Probability Bước 1: Tạo tập C; L231 L232 … L238 L239 Bước 2: Với mỗi cặp (vi, Sk) trong S thực hiện Tạo tập Ci; … winter … Với mỗi từ tiếng Anh En trong Sk Tạo tập Ck; Hình 5. Một nhánh nhãn trong LLOCE Với mỗi cặp câu song ngữ trong kho ngữ liệu Tìm cặp (wv,we) có wv == vi hoặc we == En Thêm từ tiếng Anh đứng trước we vào Ck Hệ thống thu thập dữ liệu song ngữ từ nhiều nguồn khác Thêm (vi, En, Ck) vào C; nhau như: kho ngữ liệu song ngữ EVC, kho ngữ liệu song ngữ Tính xác suất xi,k chuẩn hóa với độ tin cậy c(xi,k) dành cho dịch máy, kho ngữ liệu của LLOCE ... Sau đó, đánh Bước 3: Với mỗi cặp câu song ngữ giá và xử lý tách câu, xác định những câu là bản dịch của Với mỗi từ tiếng Anh trong Sk nhau, tiếp theo sẽ tiến hành gióng hàng từ và gán nhãn từ loại Xác định xi, k lớn nhất; [4]. Sau đó, xây dựng các tập khả năng được dịch từ kết quả Xác định độ tương đồng nhãn trong LLOCE; gióng hàng. Kiến trúc hệ thống tổng quát của mô hình xem chi Gán nhãn cho danh từ trong tiếng Anh; tiết trong hình 7. Hình 4. Một số bước cơ bản của thuật toán tính xác suất LLOCV D. Chiếu nhãn Chiếu những nhãn ngữ nghĩa từ tập các khả năng sang tập A B C … L M N nguồn của kho ngữ liệu song ngữ. Chúng tôi tận dụng những ưu điểm trong việc gán nhãn ngữ nghĩa trong tiếng Anh và L1 L2 L3 … mức độ kết nối từ để chiếu những nhãn ngữ nghĩa này với một sự tương đồng trong tiếng Việt. Ví dụ, với cặp câu song ngữ L21 L22 L23 L24 … Anh-Việt “the weather turned to the winter from October” và “thời tiết đã chuyển sang đông từ tháng 10”, sau các bước được thực hiện ở trên, ta thu được một câu trong tiếng Anh với L231 L232 … L238 L239 nhãn ngữ nghĩa được gán như sau “the weather turned to the winter/L238 from October” kết quả trong câu tiếng Việt “thời tiết … mùa đông … đã chuyển sang đông/L238 từ tháng 10”. Nhãn L238 trong hệ thống nhãn ngữ nghĩa LLOCE – LLOCV được trình bày trong Hình 6. Một nhánh nhãn trong LLOCV phần tiếp theo. Do hiện nay chưa có kho ngữ liệu song ngữ Anh-Việt đủ IV. ĐÁNH GIÁ PHƯƠNG PHÁP TIẾP CẬN lớn và đạt tiêu chuẩn đã được gán nhãn ngữ nghĩa trên danh từ Để đánh giá cho phương pháp tiếp cận này, chúng tôi dựa bởi các chuyên gia để làm cơ sở đánh giá và so sánh kết quả vào hệ thống nhãn ngữ nghĩa trên từ điển ý niệm LLOCE (1) trên hệ thống tiếp cận của chúng tôi. Nên kết quả thực nghiệm song ngữ Anh-Việt. Từ điển LLOCE được tổ chức và sắp xếp của chúng tôi chỉ mô tả cách thức tiến hành và số lượng nhãn thành các chủ đề-14 chủ đề, mỗi chủ đề được chia thành nhiều ngữ nghĩa được gán trên kho ngữ liệu song song Anh-Việt mà nhóm-129 nhóm, mỗi nhóm được chia thành nhiều lớp-2449 được chúng tôi tự xây dựng bằng máy học thống kê. Chất lớp (được gọi là các lớp ngữ nghĩa) và mỗi lớp gồm các mục lượng các câu dịch tự động phụ thuộc vào so sánh độ tương đồng ngữ nghĩa [12] và thống kê dịch chuyển từ vựng trong (1) Tham khảo thêm tại đường link http://ucrel.lancs.ac.uk/usas/ hệ thống sử dụng nhãn ngữ nghĩa LLOCE 74 74
HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) ngôn ngữ chéo [10]. Chúng tôi thực nghiệm cho phương pháp tiếp cận với kho ngữ liệu tự xây dựng từ nhiều nguồn khác BẢNG 3. NHÃN NGỮ NGHĨA ĐƯỢC GÁN nhau trên các bản song ngữ Anh-Việt được tổng hợp trong bảng 2. Số lượng Số danh từ Phần trăm từ Ngữ liệu danh từ được gán vựng EVC 357.098 220.087 61,63% Dịch máy 218.367 109.777 50,27% Ngữ liệu LLOCE 107.009 65.711 61,41% Giza++ song ngữ Để đánh giá cho phương pháp tiếp cận, chúng tôi giữ lại Tách từ 600 cặp câu song ngữ, 382 danh từ trong kho ngữ liệu huấn Tiền xử lý luyện (mà nó không được sử dụng trong quá trình huấn luyện Gán nhãn trước) và chúng tôi thu được kết qua như trong Bảng 4. từ loại Dịch chuyển từ vựng BẢNG 4. KẾT QUẢ ĐÁNH GIÁ THỰC NGHIỆM Số nhãn Nhãn Độ chính Độ bao Gán nhãn Tương đồng được gán đúng xác phủ ngữ nghĩa ngữ nghĩa 311 202 64,95% 52,88% LLOCE LLOCV Về kiểm tra chất lượng tập các khả năng lựa chọn dịch từ tiếng Việt (ngôn ngữ nguồn) chúng tôi thấy vẫn còn một số từ bên ngoài không liên quan đến nghĩa cần dịch, ví dụ như từ Ngữ liệu tiếng Việt {xe đạp} có tập các khả năng {bicycle, tricycle, bike, gán nhãn motocycle, velocipede, cyclist}, hoặc từ {văn phòng} có tập khả năng {office, living room, meeting, placement}. Hình 7. Kiến trúc tổng quát hệ thống gán nhãn Trong khuôn khổ nội dung nghiên cứu này, chúng tôi trình bày một cách tiếp cận sử dụng thuật toán học không giám sát Trong thực hiện bước tiền xử lý, chúng tôi sử dụng công cụ để gán nhãn vai trò ngữ nghĩa cho danh từ trong câu song ngữ tách từ vnTokenizer, POS tagger cho văn bản tiếng Việt, POS Anh-Việt. Khai thác sự dịch chuyển từ vựng trong ngôn ngữ tagger cho văn bản tiếng Anh. Sau đó, sử dụng công cụ chéo để gán nhãn, bên cạnh đó, cũng tận dụng được một số GIZA++ cho giai đoạn gióng hàng ở mức từ. Tiếp theo sẽ tiến đặc trưng trong ngữ cảnh song ngữ để hỗ trợ ra quyết định gán hành xác định và nhận dạng danh từ cần gán nhãn (loại bỏ các nhãn vai trò ngữ nghĩa thích hợp trong câu. nhãn không cần thiết như động từ, trạng từ, tính từ …). Quá Với cách tiếp cận này, ngoài việc quan sát kết quả đạt trình gán nhãn ngữ nghĩa sẽ dựa vào độ tương đồng ngữ nghĩa được chúng tôi nhận thấy rằng những từ mà có những dịch và sự dịch chuyển từ vựng trong ngôn ngữ chéo để xác định chuyển tương tự thường được dùng để chia sẽ một vài yếu tố nhãn hợp lý trong quá trình tính toán xác suất để thống kê ngữ ngữ nghĩa giúp cho thuật toán cũng cố nghĩa của từ bằng sự nghĩa. tương đồng ngữ nghĩa với từ khác đảm bảo độ chính xác cao hơn. BẢNG 2. KHO NGỮ LIỆU ANH-VIỆT V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Số cặp câu Nguồn ngữ liệu Số từ song ngữ Mặc dù kết quả thực nghiệm của chúng tôi không có kho Ngữ liệu EVC 60.032 1.601.183 ngữ liệu để so sánh và đánh giá, nhưng hiệu suất của cách tiếp Ngữ liệu dịch máy 20.000 1.109.564 cận này cũng đáng được ghi nhận với việc xây dựng một hệ Ngữ liệu LLOCE 31.951 704.564 thống học không giám sát gán nhãn ngữ nghĩa, dựa trên độ tương đồng ngữ nghĩa trong từ vựng của ngôn ngữ chéo, đây Dữ liệu trong Bảng 2 sau đó được chúng tôi chuẩn hóa là yếu tố cơ bản trong việc dịch thống kê, mặc dù độ tương theo chuẩn kho ngữ liệu song ngữ, mã ký tự theo bảng mã đồng được bắt đầu từ bản dịch máy, không phải là bản dịch rõ Vietnam unicode, phong ký tự Time New Roman. Sau đó, căp ràng của con người. Do đó, trong kết quả thực nghiệm chúng câu song ngữ sẽ được gióng hàng và được kiểm tra bán tự tôi chỉ quan tâm đến những vấn đề về độ bao phủ (recall) và động. Việc làm này sẽ giúp chúng tôi cải thiện được hiệu suất độ chính xác (precision) khi thực hiện mô hình dịch máy gán nhãn cũng như giảm bớt phát sinh lỗi trong quá trình thống kê để đánh giá độ tương đồng khi gán nhãn. gióng hàng bằng phương pháp thống kê gây ra. Trong kết quả đạt được có một vài câu quá dài với sự khác Ví dụ cho một trường hợp được chuẩn hóa cặp câu song biệt về bản chất ngôn ngữ, một số ngoại lệ, ký hiệu riêng khi ngữ như sau: dịch từ ngôn ngữ này sang ngôn ngữ khác, thì hệ thống sẽ D5335: He swims every day during the summer không tự động gióng hàng và gán nhãn được cho những cặp D5335: Anh ấy bơi mỗi ngày suốt mùa hè câu này. Thời gian tới chúng tôi sẽ cố gắng tăng độ dài của Để kiểm tra quá trình gán nhãn danh từ trong kho ngữ liệu câu dịch đến mức độ chấp nhận được hoặc có thể sử dụng một chúng tôi thực hiện trên kho ngữ liệu trong bảng 2 với kết quả số kỹ thuật để tách một câu dài hay với cú pháp đặc biệt thành gán nhãn như trong bảng 3. 75 75
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) những câu ngắn hơn với sự liên kết đặc biệt, để khi cần thiết [2] Dekang Lin. 2000. Word Sense Disambiguation with a Similarity Smoothed Case Library, Computers and the Humanities, 34: 147-152, có thể kết hợp lại thành câu hoàn chỉnh đúng với ý nghĩa ban 2000. đầu của nó. [3] Đinh Điền, 2006. Xử lý ngôn ngữ tự nhiên. Nhà xuất bản Đại học Quốc Vấn đề thứ hai chúng tôi quan tâm đó là việc xây dựng một gia thành phố Hồ Chí Minh-2006. kho ngữ liệu song ngữ Anh-Việt với các văn bản được dịch [4] Dinh Dien, Hoang Kiem. 2003. POS-Tagger for English-Vietnamese song song chính xác bởi các chuyên gia, để làm cơ sở đánh giá Bilingual Corpus, Proceedings of the HLT-NAACL 2003 Workshop on hiệu suất gán nhãn của hệ thống mà chúng tôi tiếp cận, khi đó Building and Using Parallel Texts: Data Driven Machine Translation and Beyond. việc cải tiến hiệu suất tiếp cận sẽ được ưu tiên hàng đầu trong [5] George Miller, Martin Chodorow, Shari Landes, Claudia Leacock, and việc gán nhãn ngữ nghĩa trong thời gian tới của chúng tôi. Bên Robert Thomas. 1994. Using a semantic concordance for sense cạnh đó, hệ thống sử dụng dịch tự động, nên một số từ vừa identification. In ARPA Workshop on human Language Technology, nhập nhằng trong tiếng Anh, vừa nhập nhằng trong tiếng Việt, Plainsboro, NJ, March. hệ thống chỉ dựa vào thống kê theo xác suất nên thiếu thống [6] Lluís Marquez, Xavier Carreras, Kenneth C.Litkowski, Suzanne tin về ngữ cảnh trong việc lựa chọn từ vựng để dịch. Thời gian Stevenson. 2008. Semantic Role Labeling: An Introduction to the Special Issue, 2008 Association for Computational Linguistics. Volume tới chúng tôi sẽ xây dựng và mở rộng kho ngữ liệu văn bản 34, number 2. song ngữ Anh-Việt mà được dịch bởi các chuyên gia hoặc kết [7] Mc Arthur, Tom (1981). Longman Lexcicon of Contemporary English. hợp thêm nhiều yếu tố trong ngôn ngữ nguồn, giúp sự lựa Longman London. chọn từ vựng dịch từ tiếng Việt sang tiếng Anh đạt hiệu quả [8] Mona Diab. 2000. An Unsupervised Method for Multilingual Word cao hơn. Sense Tagging Using Parallel Corpora: A Preliminary Investigation. In SIGLEX2000: Word Sense and Multi-linguality, Hong Kong, October. Mặc dù nội dung của bài báo còn nhiều hạn chế nhưng cũng góp phần cung cấp thêm một hướng tiếp cận trong việc [9] Mona Diab, Philip Resnik. 2002. An Unsupervised Method for Word Sense Tagging using Parallel Corpora, Proceeding of the 40th Annual gán nhãn ngữ nghĩa trong xử lý ngôn ngữ tiếng Việt nhằm hỗ Meeting of the Association for Computational Linguistics (ACL), trợ trong việc dịch tự động, truy vấn thông tin, tóm tắc văn Philadelphia, July 2002, pp. 255-262. bản… Thời gian tới, chúng tôi cố gắng nghiên cứu nâng cao [10] Mikhail Kozhevnikov, Ivan Titov. 2013. Cross-lingual Transfer of hiệu suất cho hệ thống và gán thêm nhãn cho động từ, tính từ Semantic Role Labeling Models, Proceedings of the 51st Annual và trạng từ nhằm hoàn chỉnh hệ thống gán nhãn ngữ nghĩa cho Meeting of the Association for Computational Linguistics, pages 1190– 1200, Sofia, Bulgaria, August 4-9 2013. các từ trong câu. [11] Nancy Ide. 2000. Cross-Lingual Sense Determination: Can It Work? Computers and the Humanities, 34: 223-234, 2000. LỜI CẢM ƠN [12] Philip Resnik. 1999. Semantic Similarity in a Taxonomy: An Chúng tôi xin chân thành cám ơn PGS.TS Đinh Điền đã hỗ Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, Journal of Artificial Intelligence trợ định hướng chuyên môn cho nghiên cứu này và các đồng Research 11 (1999) 95-130. nghiệp tại Phd.Lab của Khoa Công nghệ Thông tin Trường Đại [13] Philip Resnik. 1997. Selectional Preference and Sense Disambiguation. học Khoa học Tự nhiên thành phố Hồ Chí Minh trong việc hỗ In ANLP Workshop on Tagging Text with Lexical Semantics, trợ sử dụng các công cụ tính toán cho kết quả thực nghiệm của Washington, D.C., April. chúng tôi. [14] Rayson, Paul, Dawn Archer, Scott Piao, Tony McEnery (2004). The UCREL semantic analysis system. In proceedings of the workshop on Beyon Named Entity Recognition Semantic labelling for NLP tasks in TÀI LIỆU THAM KHẢO association with 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, pp.7-12. [1] Daniel Gildea, Daniel Jurafsky. 2002. Automatic Labeling of Semantic [15] Scott Piao, Prancesca Bianchi, Carmen Dayrell, Angela D’Egidio, Paul Roles, 2002 Association for Computational Linguistics. Volume 23, Rayson. 2015. Development of the Multilingual Semantic Annotation number 3. System. The 2015 Conference of the North American Chapter of the Association for Computatioal Linguistics - Human Language Technologies (NAACL HLT 2015), May 31 to June 5 in Denver Colorado. 76 76