Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

Chia sẻ: Buctranhdo Buctranhdo | Ngày: | Loại File: PDF | Số trang:168

Thêm vào BST

Báo xấu

40
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án nghiên cứu với mục tiêu nhằm nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT. Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT. Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY ÀNG THỊ MỸ LỆ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2020
i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Đà Nẵng, năm 2020
ii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại học Đà Nẵng. Tôi cam đoan các kết quả được trình bày trong luận án là trung thực, không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn gốc xuất xứ rõ ràng. Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm. Tác giả, Nguyễn Nho Túy
iii MỤC LỤC LỜI CAM ĐOAN.................................................................................................. ii DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii DANH MỤC HÌNH ẢNH .................................................................................... ix DANH MỤC BẢNG BIỂU .................................................................................. xi MỞ ĐẦU ................................................................................................................1 1. ĐẶT VẤN ĐỀ ................................................................................................1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5 2.1. Mục tiêu ........................................................................................................5 2.2. Đối tượng ......................................................................................................5 2.3. Phạm vi .........................................................................................................6 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6 4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7 5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8 CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11 1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11 1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11 1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12 1.1.3. Các loại hình ngôn ngữ........................................................................ 13 1.1.4. Xử lý ngôn ngữ tự nhiên....................................................................... 14 1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16 1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18 1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18 1.2.2. Phân tích nghĩa của từ ......................................................................... 19 1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20 1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22 1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25 1.3.1. Chữ viết tắt là gì .................................................................................. 25 1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26 1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27 1.3.4. Sử dụng chữ viết tắt ............................................................................. 28 1.3.5. Chữ viết tắt trong tiếng Việt .................................................................31 1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32
iv 1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32 1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33 1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34 1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35 1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36 1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37 CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT ..................................................................................................................... 38 2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38 2.1.1. Mô hình sự hình thành chữ viết tắt....................................................... 38 2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40 2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41 2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44 2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47 2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47 2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48 2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50 2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm.............................................. 51 2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51 2.3.1. Hệ thống khai thác phần mềm .............................................................. 51 2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt .................................52 2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53 2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54 2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55 2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55 2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55 2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56 CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT............. 57 3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57 3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57 3.1.2. Triển khai cài đặt................................................................................. 59 3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60 3.2.1. Thu thập dữ liệu thủ công .................................................................... 60 3.2.2. Thu thập dữ liệu tự động ...................................................................... 61
v 3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62 3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64 3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65 3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69 3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71 3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73 3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73 3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74 3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76 CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77 4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77 4.1.1. Lựa chọn công cụ lập trình .................................................................. 77 4.1.2. Thiết kế chương trình ........................................................................... 77 4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78 4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79 4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79 4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname........................ 80 4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81 4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87 4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88 4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88 4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89 4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển .................................90 4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92 4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93 4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93 4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94 4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96 CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97 5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97 5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97 5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98
vi 5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99 5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100 5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102 5.2.1. Xây dựng các miền dữ liệu ................................................................. 102 5.2.2. Xây dựng vị từ và hàm ....................................................................... 103 5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105 5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106 5.3.1. Xây dựng cơ sở luật ........................................................................... 106 5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109 5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110 5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112 5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113 5.4.1. Tần số chữ viết tắt ............................................................................. 113 5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114 5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116 5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117 5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119 5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123 5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125 1. KẾT LUẬN .................................................................................................... 125 1.1. Tóm tắt nội dung luận án ...................................................................... 125 1.2. Các kết quả đạt được ............................................................................ 126 1.3. Hạn chế của luận án ............................................................................. 128 2. HƯỚNG PHÁT TRIỂN................................................................................. 129 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ............... 130 TÀI LIỆU THAM KHẢO ................................................................................. 131 PHỤ LỤC
vii DANH MỤC CÁC CHỮ VIẾT TẮT TIẾNG VIỆT STT Chữ viết tắt NGHĨA TIẾNG VIỆT 1. BCVT Bưu chính viễn thông 2. CĐCN Cao đẳng công nghệ 3. CVT Chữ viết tắt 4. CSDL Cơ sở dữ liệu 5. DBĐT Danh bạ điện thoại 6. DCT Địa chỉ tắt 7. ĐTV Điện thoại viên 8. ĐH Đại học 9. ĐHBK Đại học bách khoa 10. ĐHQG Đại học quốc gia 11. GD-ĐT Giáo dục và đào tạo 12. HCM Hồ Chí Minh 13. KHCN Khoa học công nghệ 14. KNL Kho ngữ liệu 15. KTQS Kỹ thuật quân sự 16. KTXH Kinh tế xã hội 17. MTVT Mục từ viết tắt 18. NN&ĐS Ngôn ngữ và đời sống. 19. NSD Người sử dụng 20. NXB Nhà xuất bản 21. NCS Nghiên cứu sinh 22. PGS Phó Giáo sư 23. TBT Thuê bao tắt 24. THCN Trung học chuyên nghiệp 25. TS Tiến sỹ 26. TP Thành phố 27. XLTV Xử lý tiếng Việt 28. XLNNTN Xử lý ngôn ngữ tự nhiên 29. VH-TT Văn hóa thông tin 30. VT-CNTT Viễn thông - Công nghệ thông tin
viii TIẾNG ANH STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT Application Programming Lập trình giao diện ứng 1. API Interface dụng Abbreviations Management Hệ thống khai thác Chữ 2. AMES Exploit System viết tắt Assessment frequency Ghi nhận tần số chữ viết 3. AFVAI Vietnamese abbreviations on tắt trên Internet the Internet Tư vấn đặt tên tin nhắn Consultant SMS brandname 4. CSBCOM thương hiệu Doanh to the company nghiệp 5. I* Modeling Language Ngôn ngữ mô hình hóa 6. IM Instand Message Tin nhắn HyperText Markup Ngôn ngữ đánh dấu siêu 7. HTML Language văn bản Public Switched Telephone Mạng điện thoại chuyển 8. PSTN Network mạch công cộng Search Engines New Máy tìm kiếm chữ viết 9. SENVA Vietnamese Abbreviations tắt mới tiếng Việt 10. SMS Short Message Services Dịch vụ tin nhắn ngắn Search on mobile Tìm kiếm chữ viết tắt 11. SAOM-FTS abbreviations-used Full Text trên máy di động Search Ngôn ngữ mô hình hóa 12. UML Unified Modeling Language thống nhất VietNam Posts And Tập đoàn Bưu chính 13. VNPT Telecommunications Group Viễn thông Việt Nam Weighted Finite State Chuyển đổi trạng thái 14. WFST Transducer trọng số hữu hạn eXtensible Markup Ngôn ngữ đánh dấu mở 15. XML Language rộng
ix DANH MỤC HÌNH ẢNH STT Hình Chú thích hình ảnh Trang 1. Hình 1.1 Mô hình tháp nghĩa 18 2. Hình 1.2 Xu hướng "tắt hóa" 24 3. Hình 1.3 Tắt hóa trong chữ viết dân tộc ít người 30 4. Hình 2.1 Mô hình hình thành chữ viết tắt tiếng Việt 35 5. Hình 2.2 Mô hình sơ đồi khối hình thành chữ viết tắt tiếng Việt 36 6. Hình 2.3 Ví dụ Hệ sinh thái phần mềm Microsoft 45 Sử dụng UML mô hình hóa sơ đồ hệ sinh thái phần 7. Hình 2.4 46 mềm 8. Hình 2.5 Mô hình hệ thống khai thác chữ viết tắt tiếng Việt 50 Mô hình UML hệ thống khai thác chữ viết tắt tiếng 9. Hình 2.6 51 Việt Mô hình quan hệ dữ liệu kho ngữ liệu chữ viết tắt tiếng 10. Hình 3.1 55 Việt 11. Hình 3.2 Quan hệ giữa các CSDL chữ viết tắt 56 12. Hình 3.3 Các chức năng tìm kiếm 65 13. Hình 4.1 Mô hình hoạt động của website tra cứu chữ viết tắt 74 14. Hình 4.2. Trang chủ website thư viện chữ viết tắt 75 15. Hình 4.3 Cây phân tích chuỗi 81 16. Hình 4.4 Cây phân tích chuỗi và giá trị trọng số 81 17. Hình 4.5 Mô hình đồng bộ dữ liệu về máy di động 84 18. Hình 4.6 Tiếp cận nghiên cứu hình thành AMES 88 19. Hình 4.7 Kết quả thực nghiệm AMES 89 20. Hình 5.1 Mô hình nhận diện CVT trong văn bản 95
x Cơ chế hoạt động của máy suy diễn nhận diện chữ viết 21. Hình 5.2 105 tắt 22. Hình 5.3 Mô hình kết hợp xử lý nhập nhằng CVT trong văn bản 107 Kết quả thực hiện chương trình cập nhật tần số sử 23. Hình 5.4 113 dụng CVT 24. Hình 5.5 Biểu đồ tần suất CVT là thương hiệu di động trên 116 Internet
xi DANH MỤC BẢNG BIỂU STT Bảng Chú thích bảng biểu Trang 1. Bảng 3.1 Thống kê số liệu tác nghiệp 63 2. Bảng 3.2 Thống kê CSDL tác nghiệp 63 3. Bảng 3.3 CSDL Danh mục chuyên ngành 66 4. Bảng 3.4 CSDL Danh mục hình thức thanh toán 66 5. Bảng 3.5 Bảng mã vùng thanh toán 67 6. Bảng 3.6. CSDL danh mục quốc gia chuyên ngành 69 7. Bảng 3.7 Bảng thống kê sử dụng chữ viết tắt 70 8. Bảng 3.8 Thống kê số liệu sử dụng giải pháp CVT 71 9. Bảng 4.1 Bảng NGHIA_CVT_DACBIET 80 10. Bảng 4.2 Bảng HUAN_LUYEN 80 11. Bảng 4.3 Kết quả tạo chữ viết tắt Brandname 82 Thử nghiệm tư vấn Brandname và sự lựa chọn của 12. Bảng 4.4 doanh nghiệp 13. Bảng 4.5 Kết quả so sánh các tác nhân AMES và SECO 90 14. Bảng 5.1 Bảng thống kê sử dụng chữ viết tắt (mẫu gửi đi) 92 15. Bảng 5.2 Bảng vị từ và hàm 98 Tính toán tần suất xuất hiện CVT trong một phạm vi 16. Bảng 5.3 110 chỉ định Kết quả thực hiện tính toàn tần số sử dụng, tần suất 17. Bảng 5.4 114 xuất hiện CVT 18. Bảng 5.5 Tương quan tần suất CVT và thị phần dịch vụ 116
1 MỞ ĐẦU 1. ĐẶT VẤN ĐỀ Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT) chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79] (phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu chuyện. Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến. Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa, thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người. Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt tên, nhắn tin, Email…), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng chữ viết hình ảnh, dịch thuật… Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phổ biến trong nhiều thứ tiếng khác trên thế giới. Viết tắt, nói tắt được sử dụng rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành, từ các nhà sản xuất, các nhà xuất 1 ST: Người ăn cắp cừu (Sheep Theft) hay ST: Thánh thiện (Saint)
2 bản, đến các nhà quản lý, sử dụng, nghiên cứu, giảng dạy… Người dùng có nhu cầu sử dụng CVT để ghi nhận, chuyển tải lượng thông tin lớn, đôi khi chứa đựng những bí ẩn bất ngờ trong đó. Trên văn đàn Việt Nam, chữ viết tắt TTKH, tác giả bài thơ «Hai sắc hoa ti gôn»2 vẫn còn là điều bí ẩn và gây nhiều tranh luận cho đến nay. Vậy nên việc sử dụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công nghệ thông tin (CNTT), lĩnh vực liên quan đến sự tương tác giữa máy và NNTN không thể không quan tâm đến vấn đề CVT. Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự tương tác giữa máy và NNTN là lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN). Mục tiêu của lĩnh vực này là giúp các chương trình trong máy tính hiểu được NNTN. Một hệ thống XLNNTN có thể bắt đầu ở mức từ để xác định cấu trúc hình thái, bản chất của từ (ví dụ như gán nhãn từ loại, ngữ nghĩa)..., sau đó có thể chuyển sang mức câu để xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo là mức ngữ cảnh và theo từng chuyên ngành [7][52][56]. Các công trình nghiên cứu về XLNNTN trên thế giới ra đời rất sớm, từ những năm 1940 [52], theo hai hướng cơ bản: Hướng nghiên cứu đầu tiên vào giai đoạn năm 1940-1950 là mô hình các máy tự động và các mô hình xác suất; hướng nghiên cứu tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các phương pháp Bayes [56]… Tiếp đến, giai đoạn 1970-1983 phát triển mạnh mẽ các mô hình nghiên cứu về XLNNTN; giai đoạn 1983-1993, nghiên cứu tập trung trở lại mô hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng ngữ nghĩa [52]. Giai đoạn từ năm 1994 đến nay, chuyên ngành XLNNTN đã có những thay đổi và bước phát triển mới. Nhiều thuật toán phân tích cú pháp, gán nhãn từ loại, truy xuất thông tin cũng đã được nghiên cứu và áp dụng như: Nhận dạng tiếng nói, kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và trích chọn thông tin trên web [52]. Giai đoạn này ghi nhận sự phát triển các nghiên cứu phương pháp dịch máy thống kê, chẳng hạn như Google [62], [63] cũng đã ứng dụng trong hệ dịch tự động từ năm 2007. 2 Tiểu thuyết thứ bảy - năm 1939
3 Trong tiếng Anh, có nhiều công trình nghiên cứu giải quyết nhập nhằng ngữ nghĩa đã được thực hiện với hai hướng tiếp cận cơ bản3: Giải quyết nhập nhằng dựa trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tin thu được trong việc học từ vài tập ngữ liệu học [53][67]. Sau đó còn có nhiều công trình dùng kết hợp cả hai phương pháp này [68], sử dụng các mô hình thống kê các loại đồng nghĩa để xác định nghĩa của các từ tiếng Anh để khử nhập nhằng. Có nhiều công trình nghiên cứu chuyên sâu CVT trong y học như [71][72][73][68], giải quyết vấn đề nhận dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thống NLP chuyên ngành y học, giúp đưa ra quyết định, tạo điều kiện chăm sóc bệnh nhân tốt hơn. Có nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57], nghiên cứu nhận diện CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương pháp máy học để nhận dạng CVT bởi thuộc tính nhất quán trong văn bản. Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990, đã có nhiều công trình được công bố [9][25][56]... Về nghiên cứu nhập nhằng, xử lý nhập nhằng trong tiếng Việt, gần đây có các công trình nghiên cứu khử nhập nhằng trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập [42]; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43], nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt [3]. Về CVT tiếng việt, đã có một số công trình nghiên cứu đề cập xây dựng cơ sở dữ liệu (CSDL) CVT và ứng dụng trong một chuyên ngành: [26][29] đề cập đến hiện tượng nói tắt và viết tắt trong tiếng Việt 4, [39] biểu diễn ngữ cảnh trong triển khai CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc, [66] thể hiện bối cảnh trong mở rộng viết tắt bằng cách sử dụng phương pháp học máy. Một số từ điển CVT tiếng Việt thông dụng, thường dùng trong chuyên ngành (y học, viễn thông,…), tiếng nước ngoài đã được xuất bản như [8][18][19][35][36]; các xuất bản này đã chọn lọc và giới thiệu các CVT một số chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất 3 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997 4 Tạp chí Ngôn ngữ và Đời sống, số 1+2 (87+88) năm 2003
4 là vấn đề nhập nhằng ngữ nghĩa CVT. Nhìn chung, đến nay chưa có công trình nào nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt. Trong bối cảnh chung của việc XLNNTN và XLTV, trên cơ sở tìm hiểu lý thuyết về ngôn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT được xem như là phương thức hình thành nên từ ngữ mới, với những biến đổi ngữ nghĩa CVT đa dạng. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài này đặt vấn đề cần thiết phải nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng, phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu sử dụng trong thực tiễn. Câu chuyện Người ăn cắp cừu [79] cho ta thấy sự biến đối ngữ nghĩa của chữ viết tắt ST qua thời gian, không gian và ngữ cảnh diễn tả theo ý nghĩ, nhận định của con người. Việc XLTV trong văn bản chắc chắn gặp phải vấn đề nhập nhằng ngữ nghĩa CVT. Xuất phát từ tình hình thực tiễn và nhu cầu nêu trên, dựa vào ý tưởng hệ sinh thái phần mềm (Software Ecosysytems) [64][65][77], tác giả nhận thấy cần có nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày càng thuận tiện cho người dùng, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT, góp phần nhỏ trong nghiên cứu XLTV. Đề tài của luận án được chọn: “Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”, triển khai thực hiện theo 3 nội dung nghiên cứu: 1) Ngữ nghĩa và vấn đề nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn đề chữ viết tắt tiếng Việt. 2) Tiếp cận xử lý chữ viết tắt tiếng Việt. 3) Xây dựng môi trường khai thác chữ viết tắt tiếng Việt. Nội dung thứ 1 và thứ 2 đã tập trung nghiên cứu các vấn đề cơ sở khoa học về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa, biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt... Nội dung thứ 3 nghiên cứu xây dựng hệ thống khai thác CVT, đề xuất thuật toán xây dựng công cụ tư vấn đặt tên CVT sử dụng trong tin nhắn thương hiệu cho
5 doanh nghiệp. Xây dựng phương pháp đánh giá tần số, tần suất CVT trên mạng Internet; cài đặt thuật toán ghi nhận tần số CVT trên mạng. Đề xuất giải pháp xử lý nhập nhằng CVT trong văn bản bằng cách xây dựng cơ sở luật nhận diện CVT, kết hợp với các CSDL CVT, thống kê tần số, tần suất sử dụng để có một mô hình xử lý nhập nhằng CVT trong văn bản. 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2.1. Mục tiêu Mục tiêu nghiên cứu của đề tài bao gồm những nội dung chính: Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói riêng, nghiên cứu CVT và nhu cầu sử dụng trong thực tế ở tất cả các lĩnh vực, chuyên ngành. Từ đó, hiểu được tri thức về CVT, triển khai thực hiện nghiên cứu đạt được 4 mục tiêu chính: 1) Nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT. 2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT. 3) Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý nhập nhằng CVT. 4) Xây dựng công cụ, ứng dụng và khai thác CVT. Kết quả nghiên cứu định hướng đến công bố khoa học rộng rãi nhằm góp phần nhỏ giải quyết nhập nhằng CVT, giúp cho việc sử dụng CVT một cách nhất quán, đi đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, góp phần phát triển ngôn ngữ tiếng Việt. 2.2. Đối tượng Đề tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chung, ngữ pháp tiếng Việt, các phương pháp, kỹ thuật và công cụ XLNNTN, XLTV, trong đó có phương pháp khử nhập nhằng. Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, chuyên gia XLNNTN, chuyên gia tin học; nghiên cứu CVT trong văn bản, sách, báo, website tiếng Việt, một số ngôn ngữ dân tộc khác, tiếng Anh… nghiên cứu sự hình thành CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Tiếp cận từng bước, khởi
6 đầu từ vấn đề lý thuyết và thực tế sử dụng CVT để dần dần đi đến vấn để chuyên sâu và thu hẹp hơn trong lĩnh vực khai thác, xử lý và sử dụng CVT trong chuyên ngành viễn thông, CNTT. 2.3. Phạm vi Về lĩnh vực nghiên cứu lý thuyết, luận án nghiên cứu XLNNTN, XLTV, chủ yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa, công cụ XLNNTN, XLTV. Về lĩnh vực nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, trong mọi lĩnh vực đời sống xã hội. Tuy nhiên, đề tài tập trung vào lĩnh vực khoa học, công nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác. Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây dựng công cụ, ứng dụng, hình thành môi trường khai thác, nghiên cứu CVT, cài đặt thử nghiệm trong chuyên ngành và đưa vào khai thác trực tuyến. Phạm vi giới hạn ứng dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT. 3. PHƯƠNG PHÁP NGHIÊN CỨU Các phương pháp nghiên cứu cơ bản được sử dụng trong luận án gồm ba phương pháp: Khảo sát thực tế, nghiên cứu lý thuyết và nghiên cứu thực nghiệm. Khảo sát thực tế: Khảo sát vấn đề sử dụng CVT trong văn bản, Internet, quy định ngữ pháp, thực tiễn, chuyên ngành viễn thông…; kết hợp phương pháp phỏng vấn trực tiếp một số chuyên gia, từ đó so sánh, đối chiếu, kiểm chứng lại những thông tin CVT đã thu thập được. Nghiên cứu lý thuyết: Nghiên cứu trên các tài liệu liên quan đến lý thuyết ngôn ngữ học, XLNNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy tìm kiếm. Nghiên cứu lý thuyết xây dựng vị từ, hàm, cơ sở luật và máy suy diễn; vận dụng lý thuyết Công nghệ phần mềm, CSDL… vào thực nghiệm. Nghiên cứu thực nghiệm: Tìm hiểu các kỹ thuật tìm kiếm, xây dựng thuật toán và các bộ công cụ dựa trên giải pháp đã được đề xuất. Dữ liệu đầu vào của các công cụ là dữ liệu được dùng trong thực tiễn, từ nguồn tài nguyên xây dựng.
7 Ngoài ra, còn có sự kết hợp phương pháp thảo luận, trao đổi các nhà nghiên cứu thông qua các hội thảo; từ đó, lựa chọn phương hướng tối ưu giải quyết vấn đề, đồng thời có kiểm nghiệm, thử nghiệm và đánh giá kết quả khách quan hơn. 4. BỐ CỤC CỦA LUẬN ÁN Sau phần mở đầu giới thiệu mục đích triển khai đề tài, nội dung chính gồm 5 chương, phần kết luận và phần phụ lục. Cụ thể như sau: Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi và phát triển; nêu lên những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt: sự biến đổi từ vựng và sự biến đổi ngữ nghĩa. Đây là cơ sở lý luận của ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề CVT tiếng Việt. Từ đó phân tích các hạn chế, phát hiện đặt vấn đề cần nghiên cứu. Chương 2 tiếp cận nghiên cứu vấn đề hình thành CVT tiếng Việt bằng cách tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhu cầu sử dụng. Thông qua việc mô hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, xây dựng các quy tắc hình thành CVT; tìm hiểu các yếu tố ảnh hưởng đến hình thành CVT, so sánh với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT trong văn bản. Nội dung chương 2 là kết quả nghiên cứu đầy đủ vấn đề CVT tiếng Việt, trọng tâm là đề xuất xây dựng hệ thống khai thác CVT tiếng Việt (AMES). Đó là một trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm; được triển khai thực nghiệm để tạo lập kết nối giữa các tác nhân NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau. Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, bao gồm: xây dựng CSDL, đề xuất phương pháp thu thập dữ liệu, đề xuất và thực nghiệm thuật toán tìm kiếm CVT mới trên mạng Internet và cập nhật về CSDL. Đề xuất một vài ứng dụng khai thác nguồn tài nguyên CVT, đặc biệt là ứng dụng sử dụng CVT trong CSDL; đề xuất vấn đề sử dụng CVT trong việc ban hành bộ mã danh mục chuyên ngành, ban hành bộ mã danh mục quốc gia. Đây là một trong những yêu cầu cần thiết để tạo điều kiện chia xẻ, trao đổi dữ liệu với nhau. Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng Việt, từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa
8 trên ý tưởng hệ sinh thái phần mềm. Website tra thư viện viết tắt5 và Chương trình từ điển trên máy di động6 là hai công cụ phục vụ khai thác nguồn dữ liệu CVT, đồng bộ dữ liệu với nhau. Từ điển trên máy di động có sự tùy biến cá nhân khi sử dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân... Chương 4 còn xây dựng công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp, thực nghiệm triển khai áp dụng vào thực tiễn dịch vụ chuyên ngành viễn. Chương 5 tập trung phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng CVT. Phân tích ngữ cảnh văn bản, nhận diện tình huống sử dụng CVT trong văn bản, đưa giải pháp xử lý nhập nhằng CVT trong văn bản chuyên ngành. Xây dựng vị từ và hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT, đề xuất xây dựng máy suy diễn nhận diện CVT trong văn bản, giới hạn trong lĩnh vực chuyên ngành viễn thông. Chương 5 còn nêu lên hướng tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT; xây dựng thuật toán và thực nghiệm đánh giá tần số, tần suất CVT trên mạng Internet và đưa ra một vài ứng dụng thực tiễn. Phần kết luận trình bày tóm tắt nội dung và kết quả luận án đạt được. Phần phụ lục trình bày bổ sung các giải thích, hình ảnh, bảng biểu, thuật toán, mã lệnh... 5. ĐÓNG GÓP CỦA LUẬN ÁN Luận án đã có những đóng góp khoa học và ứng dụng thực tiễn như sau: 1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến động và phát triển CVT trong thực tiễn với phương pháp thủ công/tự động. Dữ liệu CVT được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt - Anh) những CVT thông dụng. 2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai thác chữ viết tắt Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt. Luận án đã tiếp cận nghiên cứu sự 5 http://www.chuviettat.com 6 ABC Acronym Dictionary