Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

57
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình thức toán học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõi của tập mờ hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệ phân lớp dựa trên luật ngôn ngữ mờ. Thứ hai là nghiên cứu thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT dựa trên kỹ thuật tính toán mềm.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Đình Phong PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ VÀ ĐẠI SỐ GIA TỬ Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội – 2017 Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: GS. TS. Nguyễn Thanh Thủy PGS. TSKH. Nguyễn Cát Hồ Phản biện: TS. Nguyễn Công Điều Viện Công nghệ thông tin, Viện Hàn lâm KH&CN VN Phản biện: TS. Dương Thăng Long Viện Đại học mở Hà Nội Phản biện: PGS. TS. Nguyễn Đình Hóa Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại phòng 212, nhà E3, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội vào hồi 14 giờ 00 ngày 22 tháng 09 năm 2017. Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội MỞ ĐẦU Bài toán phân lớp thường gặp trong các lĩnh vực khác nhau của đời sống xã hội như bao gồm y tế, kinh tế, nhận dạng lỗi, xử lý ảnh, xử lý dữ liệu văn bản, lọc dữ liệu Web, loại bỏ thư rác, … Có nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp thống kê, mạng nơ-ron, phân lớp dựa trên luật ngôn ngữ mờ, … Hầu hết các kỹ thuật phân lớp thống kê đều dựa trên lý thuyết quyết định Bayesian có hiệu huất phân lớp phụ thuộc vào mô hình xác suất. Hệ phân lớp mạng nơ-ron cần một lượng lớn các tham số cần phải ước lượng. Mặt khác, kỹ thuật phân lớp thống kê và mạng nơ-ron là những hộp đen nên thiếu tính dễ hiểu đối với người sử dụng. Hệ phân lớp dựa trên luật ngôn ngữ mờ (FLRBC) được nghiên cứu rộng rãi do người dùng cuối có thể sử dụng những tri thức dạng luật được trích rút từ dữ liệu có tính dễ hiểu, dễ sử dụng đối với con người như là những tri thức của họ. Tiếp cận lý thuyết tập mờ không vận dụng các từ ngôn ngữ nhằm truyền đạt ngữ nghĩa của các từ do thiếu một cầu nối hình thức giữa các từ với các tập mờ tương ứng. Đại số gia tử (ĐSGT) cung cấp một cơ chế hình thức sinh các tập mờ từ ngữ nghĩa vốn có (inherent sematic) của các từ ngôn ngữ và ứng dụng một cách hiệu quả vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩa tính toán dựa trên tập mờ tam giác của chúng cho bài toán xây dựng tự động cơ sở luật cho FLRBC. Trong ứng dụng lý thuyết tập mờ thường đòi hỏi lõi của tập mờ là một khoảng do ngữ nghĩa của từ ngôn ngữ chứa một miền có giá trị phù hợp với ngữ nghĩa của từ nhất. Ngữ nghĩa dựa trên tập mờ của các từ ngôn ngữ được xem là dạng hạt (granule) và có lõi (core). Như vậy, ngữ nghĩa của mỗi từ ngôn ngữ đều có lõi và được gọi là lõi ngữ nghĩa (semantics core). Trong xu thế nghiên cứu ĐSGT, một cơ sở hình thức toán học cần được phát triển để sinh lõi khoảng của tập mờ biểu diễn ngữ nghĩa của từ ngôn ngữ. Luận án nghiên cứu trường hợp cụ thể sinh lõi khoảng của tập mờ hình thang do lõi của hình thang có dạng khoảng nên chúng có thể được sử dụng để biểu diễn lõi ngữ nghĩa được biểu thị bằng tập mờ của các từ ngôn ngữ. Mặt khác, vấn đề tối ưu các tham số ngữ nghĩa, sinh luật và tìm kiếm hệ luật tối ưu vẫn cần những nghiên cứu cải tiến. Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình thức toán học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõi của tập mờ hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệ phân lớp dựa trên luật ngôn ngữ mờ. Thứ hai là nghiên cứu thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT dựa trên kỹ thuật tính toán mềm. Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:  Đề xuất mở rộng lý thuyết đại số gia tử biểu diễn lõi ngữ nghĩa của các từ ngôn ngữ nhằm cung cấp một cơ sở hình thức cho việc sinh tự động ngữ nghĩa tính toán dựa trên tập mờ có lõi là một khoảng của khung nhận thức ngôn ngữ. Luận án nghiên cứu trường hợp cụ thể là ngữ nghĩa dựa trên tập mờ hình thang.  Ứng dụng lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ giải bài toán thiết kế tối ưu FLRBC đảm bảo tính giải 1 nghĩa được (interpretability) của chúng. So sánh đánh giá kết quả của các đề xuất so với một số kết quả được công bố trước đó.  Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết kế FLRBC với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT và đề xuất giải pháp nâng cao hiệu quả thiết kế FLRBC bằng kỹ thuật tính toán mềm. Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công bố trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3 bài báo ở Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại học Quốc gia Hà Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn Lâm Khoa học và Công nghệ Việt Nam; 1 báo cáo trong kỷ yếu hội nghị quốc tế có phản biện được xuất bản bởi IEEE và 1 báo cáo tại hội nghị quốc gia có phản biện. Cấu trúc của luận án. Luận án được bố cục thành các phần: Mở đầu, 3 chương, kết luận, tài liệu tham khảo và các phụ lục. Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và ĐSGT và khả năng ứng dụng của ĐSGT. Chương 2 trình bày phương pháp mở rộng lý thuyết ĐSGT nhằm cung cấp một cơ sở hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế hệ dựa trên tri thức luật ngôn ngữ mờ cho bài toán phân lớp. Chương 3 trình bày đề xuất thiết kế hiệu quả FLRBC với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT bằng kỹ thuật tính toán mềm. CHƯƠNG 1 TỔNG QUAN VỀ HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ MỜ 1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN 1.1.1. Tập mờ 1.1.2. Biến ngôn ngữ 1.1.3. Phân hoạch mờ 1.1.4. Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ Luật ngôn ngữ mờ hay luật mờ if-then, được gọi tắt là luật mờ, là một phát biểu có điều kiện dưới dạng if A then B. Phần if của luật được gọi là giả thuyết hay tiền đề luật, phần then của luật được gọi là phần kết luận. 1.1.5. Bài toán phân lớp dữ liệu Bài toán phân lớp dữ liệu P được phát biểu như sau: cho một tập dữ liệu mẫu D = {(dp, Cp), p = 1, …, m}, trong đó m là số mẫu dữ liệu, d p = [dp,1, dp,2, ..., d p,n] là dòng thứ p trong m mẫu dữ liệu có n thuộc tính, C = {Cs | s = 1, …, M} là một tập gồm M nhãn lớp. Quá trình xây dựng mô hình phân lớp thường được chia thành hai bước: Bước 1. Huấn luyện: mô hình phân lớp được xây dựng dựa trên các tập dữ liệu mẫu đã được gán nhãn, được gọi là các tập dữ liệu huấn luyện. 2 Bước 2. Thử nghiệm mô hình: sử dụng mô hình đã được xây dựng tại bước 1 để phân lớp tập dữ liệu mới đã được gán nhãn được chọn ngẫu nhiên và độc lập với tập dữ liệu huấn luyện. 1.2. HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ LUẬT MỜ 1.2.1. Cấu trúc của hệ dựa trên luật ngôn ngữ mờ Hệ dựa trên luật ngôn ngữ mờ bao gồm hai thành phần chính: cơ sở tri thức và hệ suy luận. Cơ sở tri thức bao gồm cơ sở dữ liệu và cơ sở luật. Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng trong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ. Cơ sở luật là tập hợp các tri thức liên quan đến các bài toán cần giải quyết dưới dạng các luật mờ if-then. 1.2.2. Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ Hệ các luật mờ phân lớp bao gồm một tập luật mờ có trọng số dạng: Luật Rq: if X1 is Aq,1 and ... and Xn is Aq,n then Cq with CFq, với q=1..N (1.1) trong đó X = {Xj, j = 1, .., n} là tập n biến ngôn ngữ (thuộc tính) và Aq,j (j=1, ..., n) là các giá trị ngôn ngữ của các điều kiện mờ trong tiền đề, Cq là nhãn lớp kết luận của Rq và N là số luật mờ, CFq là trọng số hay độ tin cậy của luật thứ q. Luật Rq có thể được viết tắt dưới dạng ⟹ with CFq, trong đó Aq là tiền đề của luật thứ q. Ký hiệu fp(S), fn(S) và fa(S) lần lượt là hàm đánh giá độ chính xác phân lớp của hệ S đối với tập dữ liệu huấn luyện, số luật trong hệ S và độ dài trung bình hệ S. Khi đó, mục tiêu xây dựng hệ phân lớp thỏa các mục tiêu: fp(S) → max, fn(S) → min và fa(S) → min. (1.2) Các mục tiêu trên mâu thuẫn nhau nên các phương pháp giải bài toán phân lớp dựa trên luật mờ phải cân bằng các mục tiêu trên. Các bước của bài toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm: Bước 1. Phân hoạch miền giá trị của các thuộc tính của tập dữ liệu thành các vùng mờ sử dụng các tập mờ tương ứng với các từ ngôn ngữ của biến ngôn ngữ. Bước 2. Trích rút các luật mờ từ các phân hoạch mờ được tạo ở bước 1 sao cho hệ luật mờ S thu được nhỏ gọn, dễ hiểu và có hiệu suất phân lớp cao. Hai phương pháp phân hoạch mờ thường được sử dụng là phân hoạch lưới và phân hoạch rời rạc. Các thước đo đánh giá luật dựa trên độ tin cậy (confidence) và độ hỗ trợ (support) làm tiêu chuẩn sàng để sàng lọc ra các luật ứng viên: trong đó ⟹ = ⟹ = ∑ ∈ ∑ ∑ ∈ ( ) . (1.3) . (1.4) là độ tương thích hay độ đốt cháy của mẫu dữ liệu dp đối với điều kiện Aq của luật Rq và thường được tính bằng biểu thức toán tử nhân như sau: =∏ , 3 , , . (1.5)