Biểu diễn từ vựng theo ngữ cảnh học sâu để cải tiến hiệu suất phân tích cú pháp tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

31
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết giới thiệu một biểu diễn từ vựng theo ngữ cảnh bằng học sâu, mô hình hóa cả (1) đặc điểm phức tạp của việc sử dụng từ vựng (ví dụ: Cú pháp và ngữ nghĩa) và (2) cách sử dụng biểu diễn từ vựng này theo ngữ cảnh ngôn ngữ .

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Biểu diễn từ vựng theo ngữ cảnh học sâu để cải tiến hiệu suất phân tích cú pháp tiếng Việt

ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH Biểu diễn từ vựng theo ngữ cảnh học sâu để cải tiến hiệu suất phân tích cú pháp tiếng Việt Nguyễn Hồng Quân Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Quảng Ninh * Email: nguyenhongquan@qui.edu.vn Mobile: 0988677861 Tóm tắt Từ khóa: Bài báo giới thiệu một biểu diễn từ vựng theo ngữ cảnh bằng học Biểu diễu từ vựng; học sâu; xử lý sâu, mô hình hóa cả (1) đặc điểm phức tạp của việc sử dụng từ ngôn ngữ tự nhiên; vector hóa từ vựng (ví dụ: cú pháp và ngữ nghĩa) và (2) cách sử dụng biểu diễn vựng từ vựng này theo ngữ cảnh ngôn ngữ . Các vectơ từ học được các hàm các trạng thái nội tại của mô hình ngôn ngữ hai chiều sâu (biLM), được tiền huấn luyện với một kho dữ liệu lớn. Chúng tôi áp dụng biểu diễn từ vựng mới này và làm cải thiện đáng kể hiệu suất bài toán phân tích cú pháp trong tiếng Việt. Abstract Keywords: The paper introduces a contextual lexical representation by deep word embedding; deep learning; learning, modeling both (1) the complex characteristics of NLP; word representation, biLM vocabulary use (e.g. syntax and semantics) and (2) usage. represent this vocabulary in linguistic context. Vectors of word learn the functions of the intrinsic states of the bidirectional language models (biLM), pre-training with a large corpus. We apply this new representation and significantly improve the performance of the parsing problem in Vietnamese. 1. GIỚI THIỆU chiều (biLM) trên một kho dữ liệu lớn. Do đó, Các biểu diễn từ vựng được tiền huấn luyện biểu diễn từ vựng này được gọi là biểu diễn từ [3] là một thành phần chính trong nhiều mô hình vựng theo mô hình ngôn ngữ ELMo học máy mạng nơ ron hiểu ngôn ngữ. Tuy nhiên, (Embeddings from Language Models). việc học được biểu diễn từ vựng chất lượng cao Khác với các cách tiếp cận trước đây để học thực sự là một thách thức. Biểu diễn từ vựng cần vectơ từ theo ngữ cảnh [1], các biểu diễn từ vựng phải được mô hình hóa một cách lý tưởng 2 thách ELMo là có chiều sâu, theo nghĩa là chúng là một thức sau: hàm nội tại tất cả các lớp của một mô hình ngôn (1) các đặc điểm phức tạp của việc sử dụng ngữ 2 chiều (biLM). Cụ thể hơn, biểu diễn từ từ (ví dụ: ngữ pháp và ngữ nghĩa) vựng này học được một tổ hợp tuyến tính của các (2) những cách sử dụng này biến đổi theo ngữ vectơ được xếp chồng lên trên mỗi từ (word) đầu cảnh ngôn ngữ (đối với mô hình đa ngôn ngữ). vào cho mỗi tác vụ cuối, giúp cải thiện rõ rệt hiệu Trong bài báo này, chúng tôi giới thiệu một suất chỉ bằng cách sử dụng lớp LSTM trên cùng. biểu diễn từ vựng theo ngữ cảnh bằng học sâu, Kết hợp các trạng thái nội tại theo cách này trực tiếp giải quyết được cả hai thách thức trên, cho phép biểu diễn từ vựng rất phong phú. Sử có thể dễ dàng tích hợp vào các mô hình hiện có dụng các ước lượng nội tại, thực nghiệm cho thấy và cải thiện đáng kể hiệu suất trong mọi trường rằng các trạng thái LSTM ở các mức cao nắm bắt hợp được xem xét qua một loạt các vấn đề thách ngữ nghĩa của từ theo ngữ cảnh rất tốt (có thể thức về hiểu ngôn ngữ . được sử dụng được ngay với các bài toán phân Biểu diễn từ vựng bằng học sâu với các kiểu biệt sự nhập nhằng ngữ nghĩa của từ có giám sát); nhúng từ truyền thống ở chỗ, mỗi biểu diễn cho các trạng thái LSTM ở các mức thấp lại nắm bắt một token cụ thể là một hàm của toàn bộ câu đầu các vấn đề về cú pháp tốt hơn (chúng có thể được vào. Chúng tôi sử dụng các vectơ dẫn xuất từ một sử dụng trong bài toán gán nhãn từ loại). Việc mạng nơ ron LSTM hai chiều (biLSTM) đã được phân tích đồng thời tất cả các thông tin này là cực huấn luyện với mục tiêu mô hình ngôn ngữ hai kỳ hữu ích, nó cho phép các mô hình đã học lựa 269 * HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH chọn được các kiểu bán giám sát có lợi nhất cho Trong đó, i=1..D, ni là tần số xuất hiện của mỗi bài toán cuối. từ trong văn bản i; Ni là tổng số từ trong văn bản i 2. CÁC PHƯƠNG PHÁP BIỂU DIỄN TỪ VỰNG TRUYỀN THỐNG 2.1. Bag-of-Word (BoW) Trong đó, D là tổng số tài liệu có trong tập Đây là cách biểu diễn vector truyền thống dữ liệu; d là số lượng tài liệu có xuất hiện từ. phổ biến nhất được sử dụng. Để chuyển đổi ngôn Tuy nhiên, ngay cả khi phương pháp TF- ngữ tự nhiên về dạng 1-of-N, ta thực hiện các IDF dựa trên BOW thể hiện được trọng số của bước như sau: các từ khác nhau trong văn bản, nhưng phương - Xây dựng một bộ từ vựng. pháp này vẫn không biểu diễn được nghĩa của từ. - Mỗi vector đại diện cho một từ có số chiều 2.3. Word2vec bằng số từ trong bộ từ vựng. Trong đó, mỗi vector Word2vec là một mạng neural 2 lớp với duy chỉ có một phần tử duy nhất khác 0 (bằng 1) tại vị nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và trí tương ứng với vị trí từ đó trong bộ từ vựng. sinh ra không gian vector (với số chiều khoảng Ví dụ: Giả sử bộ từ vựng của chúng ta chỉ có vài trăm), với mỗi từ duy nhất trong corpus được 5 từ: Vua, Hoàng hậu, Phụ nữ, Đàn ông và Trẻ gắn với một vector tương ứng trong không gian. con. Ta sẽ mã hóa cho từ “Hoàng Hậu” như sau: Các word vectors được xác định trong không gian vector sao cho những từ có chung ngữ cảnh trong corpus được đặt gần nhau trong không gian. Mô hình dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ. Có hai Mỗi từ hoặc n-gram từ sẽ được mô tả là một cách xây dựng mô hình Word2vec để biểu diễn vector có số chiều bằng đúng số từ trong bộ từ sự phân tán của từ trong không gian vector là vựng. Tại vị trí tương ứng với vị trí của từ đó CBOW và SKIP-gram. trong túi từ, phần tử trong vector đó sẽ được đánh Mô hình CBOW: lấy ngữ cảnh của mỗi từ dấu là 1. Những vị trí còn lại sẽ được đánh dấu là làm đầu vào và cố gắng dự đoán từ tương ứng với 0. Nhược điểm của phương pháp này là ta không ngữ cảnh. Hãy xem xét ví dụ: Hôm nay tôi đi thể xác định được nghĩa thực của mỗi từ và các học. Chúng ta sẽ cố gắng dự đoán từ mục tiêu từ tương quan với chúng. Trong phương pháp (đi) bằng cách sử dụng duy nhất một từ ngữ cảnh BoW, từ giống nhau sẽ được đánh trọng số như đầu vào (học). nhau. Phương pháp này không xét đến tần suất Mô hình Skip-gram: là phiên bản đảo ngược xuất hiện của từ hay ngữ cảnh từ. Và trong thực của mô hình CBOW. Cho trước một vị trí ngữ tế, để cần hiểu được nghĩa của mỗi từ, ta cần xác cảnh, mô hình cần đưa ra được phân bố xác suất định từ đó trong văn cảnh hơn là xét nghĩa độc của mỗi từ ở vị trí đó. Trong cả hai trường hợp, lập từ. mạng sử dụng lan truyền ngược để học ra biểu 2.2. TF-IDF diễn vector của từ. TF- IDF (term frequency–inverse document Theo Mikolov [3], tác giả của word2vec, cả frequency) - tần suất- tần suất đảo nghịch từ. Đây hai phương pháp đều có những ưu điểm và nhược là một phương pháp thống kê, nhằm phản ánh độ điểm riêng. Skip Gram hoạt động tốt với lượng quan trọng của mỗi từ hoặc n-gram đối với văn dữ liệu nhỏ và hoạt động được với tập từ vựng có bản trên toàn bộ tài liệu đầu vào. TF-IDF thể hiện chứa các từ hiếm. Mặt khác, CBOW có thể học trọng số của mỗi từ theo ngữ cảnh văn bản. TF- trong thời gian ngắn và cho ra các biểu diễn tốt IDF sẽ có giá trị tăng tỷ lệ thuận với số lần xuất hơn cho các từ thông dụng. hiện của từ trong văn bản và số văn bản có chứa từ đó trên toàn bộ tập tài liệu. Phương pháp này giúp cho TF-IDF có tính phân loại cao hơn so với phương pháp trước. * HNKHCN Lần VI tháng 05/2020 270
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH đầu tiên trong bộ mã hóa LSTM 2 lớp dự đoán các nhãn từ loại POS tốt hơn là lớp thứ hai. Cuối cùng, lớp trên cùng của một LSTM để mã hóa ngữ cảnh từ (Melamud [14]) đã trình bày cách học biểu diễn nghĩa của từ. Chúng tôi cho thấy rằng các thông tin tương tự cũng được tạo ra bởi mô hình ngôn ngữ đã sửa đổi trong các biểu diễn ELMo của chúng tôi và nó rất hữu hích khi học các mô hình đối với các tác vụ bên dưới mà pha trộn các kiểu bán giám sát khác nhau. Dai và cộng sự [15] ghép cặp bộ encoder-decoder bằng Hình 1. Mô hình CBOW và Skip-gram cách sử dụng các mô hình ngôn ngữ và bộ autoendcoder và sau đó tinh chỉnh với bài toán giám sát cụ thể. 3. CÁC CÔNG TRÌNH CÓ LIÊN QUAN Do khả năng nắm bắt thông tin cú pháp và 4. BIỂU DIỄN TỪ VỰNG THEO MÔ HÌNH ngữ nghĩa của các từ vựng từ kho dữ liệu lớn NGÔN NGỮ chưa gắn nhãn, các vectơ từ vựng tiền huấn luyện Khác với các các phương pháp vector hóa Mikolov [3] là một thành phần tiêu chuẩn của từ vựng truyền thống như word2vec, vectơ hầu hết kiến trúc NLP hiện đại, bao gồm bài toán ELMo gán cho một token hoặc một từ thực sự là hỏi đáp [4], tìm kiếm văn bản [5] và gán nhãn vai một hàm của toàn bộ câu có chứa từ đó. Do đó, nghĩa [6]. Tuy nhiên, theo những cách tiếp cận cùng một từ có thể có các vectơ từ khác nhau này, việc học để tạo ra vectơ từ vựng cho thấy trong các ngữ cảnh khác nhau. rằng, mỗi từ chỉ có một biểu diễn từ phụ thuộc Giả sử chúng ta có một vài câu: vào một ngữ cảnh duy nhất. (1) Tôi để quyển sách lên bàn Khắc phục một số thiếu sót của vectơ từ (2) Nói làm gì để thêm buồn vựng truyền thống, Wieting [7] và Bojanowski Từ để ở (1) là một động từ, trong khi đó ở [8] đã đề xuất các phương pháp làm phong phú (2) thì nó là kết từ trong quan hệ nhân – quả. Đây biểu diễn từ vựng bằng thông tin từ phụ hoặc học là một trường hợp của đa nghĩa, một từ có thể có các vectơ riêng cho từng nghĩa của từ. Các công nhiều nghĩa. Các các phương pháp truyền thống trình gần đây khác cũng tập trung vào việc học đưa ra cùng một vectơ cho từ "để” trong cả hai các biểu diễn theo ngữ cảnh. Context2vec [9] sử câu. Hệ thống sẽ không phân biệt được các từ đa dụng Bộ nhớ dài hạn hai chiều (LSTM) để mã nghĩa. Những vectors này không thể nắm bắt hóa ngữ cảnh xung quanh một từ. Các cách tiếp được ngữ cảnh mà từ đó được sử dụng. cận khác để học nhúng theo ngữ cảnh bao gồm từ Các vectơ từ ELMo giải quyết thành công chính trong biểu diễn từ vựng và được tính toán vấn đề này. Các biểu diễn từ ELMo đưa toàn bộ với một bộ mã hóa của hệ thống dịch máy neural câu đầu vào vào phương trình để tính toán các (MT) có giám sát (CoVe; McCann [10]) hoặc mô vector. Do đó, thuật toán đọc từ “để” sẽ có các hình ngôn ngữ không giám sát của Peter và đồng vectơ ELMo khác nhau trong ngữ cảnh khác sự [1]. Cả hai cách tiếp cận này đều dựa trên các nhau. Chúng được tính toán trên lớp đầu tiên của bộ dữ liệu lớn, mặc dù cách tiếp cận MT bị giới các biLM hai lớp với các kết hợp ký tự, là một hạn bởi kích thước của kho ngữ liệu song ngữ. hàm tuyến tính của các trạng thái mạng nội tại. Một số tiếp cận khác cũng cho thấy, các 4.1. Mô hình ngôn ngữ 2 chiều lớp khác nhau trong mạng nơ ron tái phát sâu hai chiều (biRNN) thì mã hóa các loại thông tin khác Cho trước một chuỗi có N token, (t1, nhau. Ví dụ: giám sát cú pháp đa nhiệm (bài toán t2,,…,tN), một mô hình ngôn ngữ tiến (forward) gán nhãn từ loại), tại các lớp thấp hơn của một sẽ tính toán xác suất của một chuỗi bằng cách mô mạng LSTM sâu có thể cải thiện hiệu suất tổng hình xác suất tk của token thứ k khi cho trước lịch thể của bài toán hơn như bài toán phân tích cú sử xuất hiện của các token trước đó (t1, …, tk-1 ) : pháp (Hashimoto [11]) hoặc siêu CCG gắn thẻ (Søgaard [12]). Trong một hệ thống dịch máy encoder-decoder dựa trên RNN, Belinkov [13] đã (1) chỉ ra rằng các biểu diễn từ vựng đã học ở lớp 271 * HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH Các mô hình ngôn ngữ nơ ron hiện đại gần đây (Merity [16]) tính toán biểu diễn token độc lập theo ngữ cảnh (thông qua vector hóa token hoặc một mạng nơ ron tích chập CNN với các ký tự) sau đó chuyển biểu diễn này qua lớp L của mạng nơ ron LSTM tiến. Tại mỗi vị trí k, mỗi một lớp LSTM đưa ra một biểu diễn phụ thuộc vào ngữ cảnh trong đó j = 1,..,L. Đầu ra lớp trên cùng LSTM, vector được sử dụng để dự đoán token tiếp theo tk + 1 với lớp Softmax. Mô hình ngôn ngữ lùi (LM-backward) hoạt Hình 2. Cố định các tham số của mô hình biLM động tương tự như mô hình ngôn ngữ LM- tiến, 4.2. Biểu diễn từ vựng theo mô hình ngôn ngữ nhưng nó chạy theo thứ tự ngược lại. Nghĩa là, mô hình dự đoán token ở phía Biểu diễn từ vựng theo mô hình ngôn ngữ trước khi cho trước ngữ cảnh tương lai: (Embedding from Language Models – ELMo) là sự kết hợp nhiệm vụ cụ thể biểu diễn của các lớp trung gian trong mô hình ngôn ngữ hai chiều (2) biLM. Đối với mỗi token tk, một lớp L của biLM Tương tự như với mô hình ngôn ngữ LM- sẽ tính toán một tập 2L + 1 các biểu diễn . tiến, mỗi lớp j của mạng nơ ron LSTM-lùi trong một lớp L của mô hình sâu có nhiều lớp tạo ra các biểu diễn của tk khi cho trước (tk + 1,.., = (4) tN). Một biLM là kết hợp cả LM -tiến và và LM- Trong đó là lớp token và lùi. Công thức sau là mô tả tối đa hóa khả năng =[ ] cho từng lớp trong mạng nơ ron theo các hướng tiến và lùi cùng nhau: hai chiều biLSTM. Để đưa vào một mô hình thứ cấp, ELMo thu gọn tất cả các lớp trong R thành một vectơ duy nhất, ELMok = E(Rk; Θe). Trong trường hợp (3) đơn giản nhất, ELMo chỉ chọn lớp trên cùng, Công thức xác suất có điều kiện (3) bao gồm: E(Rk) = như trong mô hình TagLM [1] và Θx: Các tham số biểu diễn token theo các CoVe []. Tổng quát hơn, biểu diễn sẽ tính toán hai hướng trọng số riêng của tất cả các lớp biLM: Θs: Tham số cho Softmax theo cả hai (5) hướng tiến và lùi. : Các các tham số riêng cho các LSTM theo từng hướng. Nhìn chung, công thức này tương tự như cách tiếp cận của Peters [1], nhưng có một điểm khác là chia sẻ một số trọng số giữa các hướng thay vì sử dụng các tham số hoàn toàn độc lập. Trong phần tiếp theo, bài báo giới thiệu một cách tiếp cận mới để học cách biểu diễn từ vựng là sự kết hợp tuyến tính của các lớp biLM. * HNKHCN Lần VI tháng 05/2020 272
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH mạng CNN với ký tự. Chúng tôi huấn luyện các tham số cho mô hình trên một tập hợp dữ liệu 20 triệu từ được lấy mẫu ngẫu nhiên từ văn bản thô Trong đó: được thu thập thông tin chung từ trên mạng stask là trọng số chuẩn hóa tầng softmax, Internet. Có thực hiện một số thay đổi sau: γtask là một tham số vô hướng cho phép mô - Hỗ trợ các ký tự unicode; hình tác vụ chia theo tỷ lệ với toàn bộ vectơ - Sử dụng kỹ thuật softmax mẫu để huấn ELMo. γ có ý nghĩa quan trọng thiết thực hỗ trợ luyện về từ vựng lớn. Sử dụng một cửa sổ từ trong quá trình tối ưu hóa. xung quanh từ đích làm mẫu âm và nó cho thấy Hình 3. Đưa các biểu diễn ELMo vào mô hình và học hiệu suất tốt hơn trong các thử nghiệm sơ bộ. các trọng số tổ hợp tuyến tính của bài toán Các biLM được tiền huấn luyện trong bài báo này tập trung vào biLM quy mô lớn trong bài 4.3 Sử dụng biLM cho các bài toán NLP có toán phân tích cú pháp, như Peters [1] nhấn mạnh giám sát tầm quan trọng của việc sử dụng biLM so với các Cho trước một mạng nơ ron mô hình ngôn mô hình ngôn ngữ thuần túy tiến và huấn luyện ngữ hai chiều biLM được huấn luyện trước và quy mô lớn. một kiến trúc có giám sát cho một bài toán NLP Để cân bằng sự phức tạp của mô hình ngôn cụ thể. Chúng ta có thể cải thiện hiệu suất mô ngữ tổng thể với kích thước mô hình và các yêu hình bài toán bằng áp dụng biLM đơn giản. cầu tính toán cho các bài toán cụ thể mà vẫn duy Chúng ta chỉ cần chạy biLM và ghi lại tất cả các trì biểu diễn đầu vào (input) hoàn toàn bằng ký biểu diễn lớp cho từng từ vựng một. Sau đó, mô tự, chúng tôi đã giảm một nửa tất cả các kích hình tác vụ cuối cùng sẽ học sự kết hợp tuyến thước nhúng. Mô hình cuối cùng sử dụng các lớp tính các biểu diễn này. Quá trình này được mô tả L = 2 biLSTM với 4096 đơn vị và các phép chiếu như sau: 512 chiều và kết nối còn lại từ lớp thứ nhất đến Đầu tiên lấy các lớp thấp nhất của mô hình lớp thứ hai. biLM cung cấp ba lớp biểu diễn cho giám sát mà không có biLM. Hầu hết các mô hình mỗi token đầu vào, bao gồm cả các lớp ngoài tập bài toán NLP có giám sát đều có chung kiến trúc ở huấn luyện do đầu vào thuần túy ký tự. Ngược các lớp thấp nhất, cho phép chúng ta bổ sung biểu lại, phương pháp vector hóa từ vựng truyền thống diễn theo ELMo theo một cách thống nhất. Cho chỉ cung cấp một lớp biểu diễn cho mỗi token trước một chuỗi các token (t1,…, tN), đây là tiêu trong một ngữ cảnh cố định. chuẩn để xây dựng một biểu diễn token độc lập ngữ Sau khi được xử lý trước, biLM có thể tính cảnh xk cho từng vị trí của token. Việc này sử dụng toán các biểu diễn cho bất kỳ tác vụ nào. Trong các vector từ vựng đã được tiền huấn luyện và các một số trường hợp, việc tinh chỉnh biLM trên dữ biểu diễn vector dựa trên ký tự khác. Sau đó, mô liệu cụ thể của miền dẫn đến giảm đáng kể các hình sẽ tạo ra một biểu diễn cảm ngữ cảnh hk, bằng nhập nhằng về nghĩa của từ và tăng hiệu suất cho cách sử dụng mạng nơ ron tái phát RNN hai chiều, bài toán NLP. mạng nơ ron tích chập CNN hoặc mạng nơ ron Việc huấn luyện ELMo trên ngôn ngữ truyền thẳng. tiếng Việt mất khoảng 3 ngày trên với GPU Để đưa thêm ELMo vào mô hình có giám NVIDIA P100. Bài toán phân tích cú pháp được sát, trước tiên, chúng ta cố định các trọng số của được đánh giá trên bộ ngữ liệu tiếng Việt (Viet biLM và nối vectơ với vector xk thành Treebank) với hơn 10 nghìn câu đã gán nhãn. Điểm đánh giá hiệu suất của mô hình chúng tôi biểu diễn ELMo nâng cao [xk; ], sau đó sử dụng thuật toán EVALB của Collins [22]. truyền biểu diễn ELMo nâng cao này vào bài toán của mạng nơ ron tái phát RNN (hình 2 và Để đánh giá khảo nghiệm, chúng tôi sử dụng hình 3). các mô hình phân tích cú pháp tiếng Việt đã được công bố trong các bài báo [17] [19] [20] 5. CÁC KẾT QUẢ THỰC NGHIỆM [21]. Kết quả cho thấy có những cải thiện hiệu Chúng tôi sử dụng bộ ngữ liệu có tiếng suất thông qua sử dụng ELMo (bảng 1). Việt 4GB để tiền huấn luyện cho các embedding của mô hình. Trong thực nghiệm của mình, chúng tôi sử dụng các cài đặt bộ siêu tham số tương tự như Peters và cộng sự [2] cho biLM và 273 * HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH Bảng 1. Một số kết quả PTCP cho tiếng Việt representations of words and phrases and their compositionality. In NIPS. F1 (%) [4]. Xiaodong Liu, Yelong Shen, Kevin Duh, and Mô hình Cơ ELMo  bản Jianfeng Gao. 2017. Stochastic answer networks RNN p^(y|x) [17] 76.19 77.63 +1.44 for machine reading comprehension. arXiv In-order [19] 80.92 82.13 +1.21 preprint arXiv:1712.03556 . Self-attention [20] 81.11 82.57 +1.46 [5]. Qian Chen, Xiao-Dan Zhu, Zhen-Hua Ling, Label- 81.98 82.96 +0.98 Si Wei, Hui Jiang, and Diana Inkpen. 2017. attention[21] Enhanced lstm for natural language inference. In ACL. [6]. Luheng He, Kenton Lee, Mike Lewis, and Luke S. Zettlemoyer. 2017. Deep semantic role labeling: What works and what’s next. In ACL [7]. John Wieting, Mohit Bansal, Kevin Gimpel, and Karen Livescu. 2016. Charagram: Embedding words and sentences via character n- grams. In EMNLP [8]. Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. 2017. Enriching word vectors with subword information. TACL 5:135-146 [9]. Oren Melamud, Jacob Goldberger, and Ido Dagan. 2016. context2vec: Learning generic Hình 4. Biểu đồ hiệu suất các bộ PTCP context embedding with bidirectional lstm. In 6. KẾT LUẬN CoNLL. [10] Bryan McCann, James Bradbury, Caiming Trong bài báo này, chúng tôi giới thiệu Xiong, and Richard Socher. 2017. Learned in vector hóa từ vựng dựa trên mô hình ngôn ngữ translation: Contextualized word vectors. In NIPS ELMo và nó thực sự có hiệu quả với bài toán phần 2017. tích cú pháp. Nếu được kết hợp với một mô hình phức tạp hơn, nó chắc chắn sẽ mang lại hiệu suất cao hơn nữa. Việc áp dụng ELMo không chỉ giới [11]. Kazuma Hashimoto, Caiming Xiong, hạn ở ở bài toán phân tích cú pháp. Nó có thể được Yoshimasa Tsuruoka, and Richard Socher. 2017. dụng cho các bài toán NLP khác: Dịch máy, Mô A joint many-task model: Growing a neural hình hóa ngôn ngữ, Tóm tắt văn bản, Nhận dạng network for multiple nlp thực thể được đặt tên, Hệ thống hỏi đáp. tasks. In EMNLP 2017. [12]. Anders Søgaard and Yoav Goldberg. 2016. TÀI LIỆU THAM KHẢO Deep multi-task learning with low level tasks supervised at lower layers. In ACL 2016 [1]. Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. Semi- [13] Yonatan Belinkov, Nadir Durrani, Fahim supervisedsequence tagging with bidirectional Dalvi, Hassan Sajjad, and James R. Glass. 2017. language models. In ACL. What do neural machine translation models learn about morphology? In ACL. [2]. Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton [14]. Oren Melamud, Jacob Goldberger, and Ido Lee, Luke Zettlemoyer: Deep Contextualized Dagan. 2016. context2vec: Learning generic Word Representations. NAACL-HLT 2018: context embedding with bidirectional lstm. In 2227-2237. CoNLL. [3]. Tomas Mikolov, Ilya Sutskever, Kai Chen, [15]. Andrew M. Dai and Quoc V. Le. 2015. Greg S Corrado, and Jeff Dean. 2013. Distributed Semisupervised sequence learning. In NIPS * HNKHCN Lần VI tháng 05/2020 274
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH [16]. Stephen Merity, Nitish Shirish Keskar, and [19]. Nguyễn Hồng Quân (2018), Giải pháp tăng Richard Socher. 2017. Regularizing and hiệu suất phân tích cú pháp thành phần tiếng Việt optimizing lstm language models. CoRR bằng phương pháp thứ tự giữa, Tập san trường abs/1708.02182. Đại học công nghiệp Quảng Ninh số 45. [17]. Nguyễn Hồng Quân (2017), Phân tích cú [20]. Nguyễn Hồng Quân (2018), Cải tiến phân pháp tiếng Việt với mạng nơron tái phát, Kỷ yếu tích cú pháp tiếng Việt với kỹ thuật attention. Tập Hội nghị khoa học trường Đại học Công nghiệp san trường Đại học công nghiệp Quảng Ninh số Quảng Ninh lần thứ V, 2017. 46. [18]. Nguyễn Hồng Quân, Nguyễn Phương Thái [21]. Nguyễn Hồng Quân (2019), Nâng cao hiệu (2016), Khảo sát các lỗi cơ bản phân tích cú pháp suất phân tích cú pháp bằng cơ chế diễn dịch tiếng Việt với các bộ phân tích cú pháp đa ngôn label-attention. Tập san trường Đại học công ngữ, Kỷ yếu Hội thảo Quốc gia lần thứ XIX, Một nghiệp Quảng Ninh số 49. số vấn đề chọn lọc của công nghệ thông tin và [22]. M. Collins. Head-Driven Statistical Models truyển thông. for Natural Language Parsing. PhD thesis, University of Pennsylvania, 1999. 275 * HNKHCN Lần VI tháng 05/2020