Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

38
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến" đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Các kết quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân loại văn bản tiếng Việt. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến

Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến 1st ThS Hoàng Ngọc Dương 2nd ThS Phạm Ngọc Công Trường Sĩ quan Không quân Trường Sĩ quan Không quân Thành phố Nha Trang, Khánh Hòa Thành phố Nha Trang, Khánh Hòa Email: congpham82@gmail.com Email: hoangduongvtl@gmail.com Tóm tắt: Phân loại văn bản là công việc phân tích nội dung thị, văn bản được biểu diễn thành đồ thị vô hướng đơn giản của văn bản, sau đó đưa ra quyết định văn bản này thuộc chủ đề và sử dụng thuật toán khai thác đồ thị con phổ biến bằng nào trong các loại văn bản đã biết chủ đề trước. Trong lĩnh vực thuật toán gSpan để xác định đặc trưng cho từng chủ đề. Sau khai thác dữ liệu, các phương pháp tiếp cận chính như: Naïve bước này là công việc vec tơ hóa đồ thị văn bản. Bước cuối Bayes, máy vectơ hỗ trợ (SVM), Cây quyết định, K láng giềng gần nhất (k-NN), mạng nơron … Trong bài báo này, chúng tôi cùng thực hiện là huấn luyện phân loại bằng SVM. đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật A. Tiền xử lý văn bản khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Mô hình đề xuất được thực nghiệm trên một tập 2000 Việc đầu tiên hệ thống thực hiện là tách các từ trong văn các tài liệu văn bản tiếng Việt là các bài viết được tải xuống từ bản. Phương pháp tách từ sử dụng bộ thư viện tách từ các trang báo điện tử vnexpress.net, dantri.vn, tuoitre.vn. Các kết "JVnTextPro: A Java-based Vietnamese Text Processing quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất Tool" được phát triển bởi nhóm tác giả Cam-Tu Nguyen, đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân Xuan-Hieu Phan and Thu-Trang Nguyen, tại địa chỉ: loại văn bản tiếng Việt. http://jvntextpro.sourceforge.net/. Đây là bộ thư viện mã Từ khóa: Phân loại văn bản, phân lớp văn bản, đồ thị con nguồn mở trong java. Bước tiếp theo hệ thống sẽ tính tần phổ biến suất xuất hiện của các từ trong tập văn bản. Để giảm kích I. GIỚI THIỆU thước của đồ thị và thời gian tính toán đồ thị con phổ biến, chỉ những từ có tần suất xuất hiện cao được giữ lại. Những Phân loại văn bản là quá trình gán văn bản vào một hoặc từ có tần suất xuất hiện ít sẽ được loại bỏ. Phương pháp nhiều chủ đề đã xác định trước. Phân loại văn bản tự động là thống kê tần suất xuất hiện và tính trọng số của từ được một lĩnh vực nghiên cứu được quan tâm trong nhiều năm chúng tôi sử dụng là phương pháp TF - IDF. Sau bước này qua được ứng dụng rộng rãi. Hiện nay có rất nhiều phương sẽ thu được bộ từ khóa dùng để xây dựng đồ thị văn bản. pháp giải quyết như Naïve Bayes, cây quyết định, k-láng giềng gần nhất (k-NN), mạng nơron, máy vectơ hỗ trợ B. Mô hình hóa văn bản thành đồ thị (SVM) đã áp dụng trong thực tế. Các phương pháp này đều Ưu điểm chính của mô hình biểu diễn văn bản bằng đồ sử dụng mô hình không gian vectơ khi biểu diễn văn bản. thị là mô hình này có thể lưu giữ các mối quan hệ của các từ Mô hình không gian vectơ là phương pháp biểu diễn văn trong văn bản ban đầu. Có nhiều phương pháp xây dựng đồ bản phổ biến. Trong đó, mỗi từ trong văn bản có thể trở thị từ văn bản như: đồ thị hình sao, đồ thị tần số vô hướng, thành đặc trưng (hay chiều của vectơ biểu diễn văn bản). đồ thị đơn giản, .... Nhìn chung các kiểu biểu diễn văn bản Mặc dù mô hình này cho kết quả phân loại tốt, nhưng nó bằng đồ thị đều sử dụng sự liền kề của các từ trong văn bản. cũng tồn tại nhiều hạn chế. Mô hình không gian vectơ Nghiên cứu này sử dụng mô hình đồ thị vô hướng để truyền thống chỉ tập trung vào tần suất xuất hiện của từ và biểu diễn văn bản. Trong phương pháp biểu diễn văn bản không nắm bắt được các mối quan hệ của từ trong văn bản. bằng đồ thị này đỉnh của đồ thị biểu diễn các “từ” trong văn Trong những năm gần đây mô hình biểu diễn văn bản bản, các đỉnh được gán nhãn duy nhất là tên của “từ”. Sau bằng đồ thị phát triển mạnh và áp dụng trong phân loại văn bước tiền xử lý văn bản, nếu từ a đứng ngay trước từ b thì sẽ bản. Mô hình đồ thị có khả năng hạn chế nhược điểm của tồn tại cạnh nối từ đỉnh a đến đỉnh b biểu diễn vectơ truyền thống khi lưu lại được mối quan hệ Ví dụ ta có văn bản: “Đại hội đại biểu toàn quốc lần thứ giữa các từ trong văn bản. XIII Đảng Cộng sản Việt Nam đã thông qua Nghị quyết“ Hiện nay, mô hình đồ thị không ngừng phát triển và Sau khi thực hiện tách từ, loại bỏ các hư từ và các từ có được ứng dụng rộng rãi vào các bài toán liên quan đến xử lý trọng số thấp, xây dựng đồ thị văn bản như hình 2.1 văn bản. Khi ứng dụng vào từng loại bài toán khác nhau, các thành phần thích hợp nhất trong văn bản trở thành đỉnh của đồ thị và mối quan hệ hiệu quả nhất giữa các đỉnh được chọn để xây dựng cạnh của đồ thị. Đỉnh của đồ thị có thể biểu diễn câu, từ, hay câu kết hợp từ. Cạnh có thể dùng để thể hiện những mối quan hệ khác nhau giữa các đỉnh như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất hiện. Mục đích của nghiên cứu này là trình bày một phương pháp mới trong việc phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ thị con phổ biến. Bên cạnh đó, áp dụng thử nghiệm mô hình biểu diễn văn bản bằng đồ thị kết hợp kỹ thật khai thác đồ thị con phổ biến vào bài toán phân loại văn bản tiếng Việt . II. HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Quy trình phân loại văn bản được xây dựng trải qua các bước như sau: Đầu tiên thực hiện việc tách từ và tính TF – IDF. Sau bước này việc mô hình hóa văn bản thành đồ thị sẽ Hình 2.1 Đồ thị văn bản chủ đề Chính trị - xã hội được thực hiện: nhằm tận dụng các ưu điểm của mô hình đồ 105
C. Mô hình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến Ý tưởng chính của phương pháp phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến được mô tả trong hình 2.2 dưới đây: Hình 2.3 Cấu trúc các vec tơ đặc trưng của đồ thị Ví dụ về vec tơ hóa đồ thị: Hình 2.2 Huấn luyện phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến Tập đồ thị con phổ biến S = {S1, S2, ... , Sn} A Trong pha huấn luyện phân loại (Training): B - Đầu vào là dữ liệu dạng văn bản, trong pha huấn luyện trải qua các bước: S1 A B + Bước 1: Tập văn bản đưa qua bộ tách từ "JVnTextPro: A Java-based Vietnamese Text Processing Tool" được phát C D S2 A C D triển bởi nhóm tác giả Cam-Tu Nguyen, Xuan-Hieu Phan and Thu-Trang Nguyen, tại địa chỉ: S3 E F http://jvntextpro.sourceforge.net/ E Sau bước tách từ, thu được tập dữ liệu là bộ từ khóa cho S4 B D E mỗi văn bản của từng chủ đề. Tiếp theo tính tần suất xuất Đồ thị văn bản G1 hiện và trọng số của từ trong văn bản. Sử dụng phương pháp ... ... thống kê tần suất xuất hiện và tính trọng số của từ theo Vec tơ đồ thị văn bản G1 thu được [1:1 2:1 3:0 4:1 ... n:?] Sn ... ... phương pháp TF-IDF. Sau bước này các từ không vượt ngưỡng bị loại bỏ. Cuối cùng thu được tập dữ liệu là bô từ khóa đặc trưng cho từng văn bản thuộc các chủ đề phân loại. Hình 2.4 Vec tơ hóa đồ thị + Bước 2 : Mô hình hóa văn bản thành đồ thị. Trong + Bước 5: "Huấn luyện phân loại SVM": Sau khi có thực tế có nhiều phương pháp để biểu biễn văn bản bằng đồ được các vec tơ đặc trưng của các văn bản trong từng chủ thị như đồ thị khái niệm, đồ thị hình sao, đồ thị tần số xuất đề, tiến hành huấn luyện để phân loại sử dụng các bộ phân hiện vô hướng, đồ thị có hướng... Trong nghiên cứu này sử loại như: SVM, Naive Bayes, mạng nơron, cây quyết định... dụng đồ thị vô hướng đơn giản, mỗi văn bản là một đồ thị. Trong nghiên cứ này sử dụng SVM, bộ phân loại rất phổ Đỉnh biểu diễn “từ” trong văn bản. Các đỉnh được gán nhãn biến hiện nay. duy nhất là tên của “từ” trong văn bản. Sau bước tiền xử lý Các vec tơ đặc trưng đầu vào sau khi qua bộ huấn luyện văn bản, nếu từ a đứng ngay trước từ b thì sẽ tồn tại cạnh SVM sẽ cho ra các mô hình huấn luyện, sử dụng cho việc nối từ đỉnh a đến đỉnh b. Sau bước "Mô hình hóa văn bản phân loại văn bản sau này. thành đồ thị" chúng ta thu được tập cơ sở dữ liệu đồ thị, với các đỉnh và cạnh đã được gán nhãn, cùng với loại của văn Trong pha kiểm tra phân loại (Testing): bản (đã biết trước đồ thị thuộc loại nào). Qúa trình phân loại văn bản được mô tả trong hình 2.5 + Bước 3: Module "Khai thác đồ thị con phổ biến": thực hiện thuật toán gSpan để tìm tất cả các đồ thị con phổ biến của tập đồ thị đã được mô hình hóa với một độ hỗ trợ minsup. Ta được tập đồ thị con phổ biến S = {S1, S2, ..., Sn} cho tất cả các chủ đề. + Bước 4: Lần lượt vec tơ hóa các đồ thị của từng chủ đề G = {G1, G2, ...,Gn}. Tập đồ thị của từng chủ đề được chiếu lên không gian đặc trưng của tập đồ thị con phổ biến S để nhận được các vec tơ đặc trưng tương ứng. Biểu diễn dưới dạng vec tơ đặc trưng của các đồ thị Gi = {x1, x2, ..., xm} được mô tả ở hình 2.3. Trong đó, xj chính là tần suất (số lần xuất hiện) của đồ thị con phổ biến Sj trong đồ thị Gi. Nếu vec tơ biểu diễn dưới dạng nhị phân thì xj = {0, 1}, trong đó, Hình 2.5 Phân loại văn bản dựa trên kỹ thuật khai thác đồ xj = 0 nếu Sj không xuất hiện trong Gi và xj =1 nếu tồn tại Sj thị con phổ biến trong Gi. Có thể thấy, nếu biểu diễn dưới dạng vec tơ nhị - Dữ liệu đầu vào là một hoặc tập các văn bản bất kỳ phân thì sẽ tiết kiệm được thời gian tính toán. Số chiều vec chưa được phân loại. Quá trình kiểm tra phân loại văn bản tơ Gi chính bằng số lực lượng của tập đồ thị con phổ biến S. trải qua các bước như sau: 106
+ Bước 1: Thực hiện tách từ bằng thư viện Jvntextpro. B. Thực nghiệm mức độ chính xác của phân lớp + Bước 2: Sau bước tách từ là mô hình hóa văn bản Để đánh giá kết quả phân loại, chúng tôi sử dụng các chỉ thành đồ thị, trích chọn đặc trưng các đồ thị đã được mô số độ phủ (recall), độ chính xác (precision) và chỉ số cân hình hóa bằng cách chiếu lên không gian đặc trưng S (như bằng giữa 2 độ đo trên - F1 (F-measure) [11]. Để tính các pha huấn luyện) nhận được các vec tơ đặc trưng tương ứng. chỉ số độ phủ, độ chính xác, độ đo F1, Một số tên gọi được đặt như sau: + Bước 3: Khi có được tập vec tơ đăc trưng chúng ta đưa qua bộ phân loại SVM đã được huấn luyện để phân loại TPi : Số lượng các mẫu thuộc lớp ci được phân loại chính văn bản. xác vào lớp ci III. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ FPi: Số lượng các mẫu không thuộc lớp ci bị phân loại nhầm vào lớp ci A. Thực nghiệm giảm số lượng đồ thị con phổ biến thông qua TF – IDF TNi: Số lượng các mẫu không thuộc lớp ci được phân loại (chính xác) Thông qua việc xác định trọng số từ TF-IDF cho từng văn bản trong mỗi chủ đề tập dữ liệu huấn luyện giúp có thể FNi: Số lượng các mẫu thuộc lớp ci bị phân loại nhầm (vào loại bỏ đi một số lượng lớn các từ dư thừa không đại diện các lớp khác ci) cho văn bản trước khi chuyển đổi thành đồ thị, mỗi chủ đề Khi đó công thức tính độ phủ, độ chính xác và độ đo F1 là: sẽ được xác định một ngưỡng (threshold) TF-IDF nhất định khác nhau nhằm để loại bỏ bớt các từ dư thừa nhưng cũng Độ phủ (recall): không làm mất đi các từ, cụm từ đặc trưng quan trọng – làm đại diện cho chủ đề đó. Ngoài ra ngưỡng TF-IDF xác định cho từng chủ đề cũng phụ thuộc rất nhiều vào số lượng văn bản huấn luyện và độ lớn của từng văn bản ở mỗi chủ đề. Độ chính xác (precision): Phương pháp xác định ngưỡng TF-IDF được áp dụng lấy trung bình cộng trọng số TF-IDF của tất cả các từ trong văn bản đó để làm ngưỡng chung cho một văn bản. Ví dụ: ta có văn bản d={t1, t2, t3,…, tn} ta sẽ xác định Độ đo F1 (F-measure): ngưỡng threshold cho văn bản này bằng cách: Để đánh giá mức độ chính xác của mô hình được huấn luyện chúng tôi tiến hành chạy thực nghiệm trên tập dữ liệu Thực nghiệm cho thấy thì việc xác định ngưỡng TF-IDF như sau: để loại bỏ các từ không quan trọng trong văn bản huấn luyện làm giảm thiểu kích thước của đồ thị đi rất nhiều cũng như Dữ liệu đầu vào của quá trình huấn luyện được cho trong số lượng tập đồ thị phổ biến (frequent graph) được rút trích. bảng 3.2 Chúng tôi tiến hành thực nghiệm với số lượng tập văn bản Bảng 3.2: Dữ liệu đầu vào của quá trình huấn luyện phân đầu vào khác nhau (tăng dần về số lượng) lần lượt ở các loại (300 văn bản) ngưỡng minSup 20, 30 như bảng 3.1 dưới đây: Tên Số lượng văn Số đồ thị con phổ Bảng 3.1: So sánh số lượng đồ thị con phổ biến bản đầu vào biến (FreqGraph) chủ đề được chọn lọc minSup=30% Số lượng đồ thị phổ biến (FreqGraph) Chính trị - xã Số 300 75 minSup = 20% minSup = 30% hội Chủ đề văn bản Không Có Không Có Sức khỏe 300 77 % % tf-idf tf-idf tf-idf tf-idf Thể thao 300 68 Chính 300 402 94 23.38 294 75 25.51 Kinh doanh 300 62 trị - xã hội Sau khi hoàn tất quá trình huấn luyện. Ttiến hành thu 500 613 140 22.84 476 96 20.17 thập một số lượng lớn bài báo thuộc bốn chủ đề trên từ các 300 354 97 27.40 281 77 27.40 nguồn tin tức điện tử http://vnexpress.net/, Sức http://dantri.com.vn/, http://tuoitre.vn/, quá trình kiểm khỏe nghiệm được tiến hành như sau: lần lượt một số lượng nhất 500 567 113 19.93 432 102 23.61 định các văn bản của mỗi chủ đề: Lấy 200 văn bản cho mỗi 300 456 85 18.64 378 68 17.99 chủ đề sẽ được đưa vào để thử nghiệm phân loại – sau đó Thể thao tiến hành tính toán các độ đo. Kết quả thực nghiệm được 500 546 122 22.34 436 98 22.48 trình bày trong bảng 3.3 dưới đây: 300 430 76 17.67 362 62 17.12 Bảng 3.3: Kết quả phân loại dữ liệu huấn luyện 300 văn bản Kinh doanh Độ chính Độ phủ 500 542 120 22.14 420 86 20.47 Tên chủ đề Độ đo F1 xác (Recall) 107
(Precision) (F-measure) Sức khỏe 0.908 0.84 0.873 Chính trị - 0.818 0.855 0.836 Thể thao 0.849 0.9 0.874 xã hội Kinh doanh 0.864 0.86 0.862 Sức khỏe 0.878 0.825 0.851 Trung bình 0.874 0.873 0.873 Thể thao 0.866 0.87 0.868 Tỷ lệ (%) độ chính xác của phân loại được thể hiện trong Kinh doanh 0.832 0.84 0.836 hình 3.2 dưới đây: Trung bình 0.849 0.848 0.848 Tỷ lệ (%) độ chính xác của phân loại được thể hiện trong hình 3.1 dưới đây: Hình 3.2: Kết quả phân loại dữ liệu huấn luyện 500 văn bản Sau khi tiến hành phân loại lại khi tăng bộ dữ liệu huấn luyện đầu vào. Chúng tôi nhận thấy rằng khi dữ liệu huấn luyện đầu vào càng tăng thì độ chính xác của phân loại càng Hình 3.1: Kết quả phân loại dữ liệu huấn luyện 300 văn bản tăng. Điều này càng khẳng định tính đúng đắn của qúa trình Để đánh giá mức độ chính xác hơn nữa mô hình phân học có giám sát. loại văn bản. Trong bước thực nghiệm tiếp theo tiến hành Chúng tôi cài đặt thuật toán cây quyết định để so sánh tăng dữ liệu đầu vào của quá trình huấn luyện lên trong mỗi với mô hình biểu diễn văn bản bằng đồ thị của chúng tôi. chủ đề. Với mỗi chủ đề tăng số lượng văn bản huấn luyện Hình 3.3 là đồ thị so sánh kết quả phân lớp theo từng mô lên thành 500 văn bản cho mỗi chủ đề. hình trên các chủ đề. Mô hình biểu diễn văn bản bằng đồ thị Dữ liệu đầu vào của quá trình huấn luyện được cho trong sử dụng kỹ thuật khai thác đồ thị con phổ biến cho kết quả bảng 3.4 phân loại tốt hơn. Bảng 3.4: Dữ liệu đầu vào của quá trình huấn luyện phân loại (500 văn bản) Số lượng văn Số đồ thị con phổ biến Tên chủ đề bản đầu vào (FreqGraph) được chọn lọc minSup=30% Chính trị - 500 96 xã hội Sức khỏe 500 102 Thể thao 500 98 Kinh doanh 500 86 Sau khi hoàn tất quá trình huấn luyện tiến hành lấy 200 Hình 3.3: Kết quả phân loại (%) theo từng chủ đề văn bản cho mỗi chủ đề đã có ở trên sẽ được đưa vào để thử IV KẾT LUẬN nghiệm phân loại – sau đó tiến hành kiểm tra số lượng bài báo được phân loại chính xác vào chủ đề đó làm kết quả so Bài báo nghiên cứu cách biểu diễn văn bản thành đồ thị, sánh và đưa ra kết quả như trong bảng 3.5 kỹ thuật khai thác đồ thị con phổ biến. Chúng tôi đã tiến hành xây dựng chương trình phân loại văn bản tiếng Việt Bảng 3.5: Kết quả phân loại dữ liệu huấn luyện 500 văn bản dựa trên mô hình biểu diễn văn bản bằng đồ thị và kỹ thuật Độ chính khai thác đồ thị con phổ biến. Mô hình đồ thị cho phép lưu Độ phủ Độ đo F1 trữ các thông tin cấu trúc quan trọng của văn bản như vị trí, Tên chủ đề xác (Precision) (Recall) (F-measure) sự đồng hiện hay thứ tự của từ. Những công việc đó là: tách từ tiếng Việt, xác định trọng số từ TF-IDF, mô hình hóa văn Chính trị - 0.873 0.89 0.881 bản thành đồ thị, cài đặt thuật toán gSpan để khai phá các đồ xã hội thị con phổ biến, tiến hành xây dựng các vec tơ đặc trưng cho các đồ thị và cài đặt bộ phân loại các vec tơ đặc trưng dựa trên thuật toán SVM. Đóng góp của chúng tôi là đưa ra 108
phương pháp xác định ngưỡng TF-IDF được áp dụng lấy 1473-1479, IEEE, 2015. trung bình cộng trọng số TF-IDF của tất cả các từ trong văn [3] ROUSSEAU, F. (2015). “GRAPH-OF-WORDS: MINING AND bản đó để làm ngưỡng chung cho một văn bản từ đó làm RETRIEVING TEXT WITH NETWORKS OF FEATURES” Doctoral giảm thiểu kích thước của đồ thị đi rất nhiều cũng như số dissertation, École Polytechnique, 2015. lượng tập đồ thị phổ biến (frequent graph) được rút trích. [4] Vazirgiannis, M. (2015). “Graph-of-word: boosting text mining with graphs”. In CORIA, 2015. Tiến hành kiểm chứng, thực nghiệm và đánh giá độ chính xác của mô hình đã xây dựng với bộ dữ liệu thực [5] Blanco, R., & Lioma, C. (2012). “Graph-based term weighting for information retrieval” Information retrieval, 15(1), pp. 54-92, 2012. nghiệm là các bài báo tiếng việt được lấy từ các nguồn tin tức điện tử http://vnexpress.net/, http://dantri.com.vn/, [6] Rousseau, F., & Vazirgiannis, M. (2015, March). “Main core retention http://tuoitre.vn/ on graph-of-words for single-document keyword extraction”. In European Conference on Information Retrieval, pp. 382-393. Springer International Kết quả thực nghiệm cho thấy mô hình phân loại này đạt Publishing, 2015. độ chính xác cao trên 84%. Đặc biệt với chủ đề Chính trị - [7] Rousseau, F., & Vazirgiannis, M. (2013, October). “Graph-of-word and xã hội và chủ đề Thể thao, khẳng định hướng nghiên cứu là TW-IDF: new approach to ad hoc IR”. In Proceedings of the 22nd ACM đúng đắn. international conference on Information & Knowledge Management, pp. 59-68, ACM, 2013. Kết quả thử nghiệm cho thấy mô hình đồ thị kết hợp khai [8] Yan, X., & Han, J. (2002). “gspan: Graph-based substructure pattern thác đồ thị con phổ biến cho kết quả phân loại tốt hơn mô mining”. In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE hình truyền thống. Để đánh giá chính xác hơn nữa, dự kiến International Conference on, pp. 721-724, IEEE, 2002. sẽ thu thập và xây dựng bộ dữ liệu thử nghiệm lớn. Đồng [9] Joachims, T. (1998). “Text categorization with support vector thời, sẽ thử nghiệm áp dụng các loại mô hình đồ thị khác machines: Learning with many relevant features”. Machine learning: nhau vào bài toán phân loại để xác định loại mô hình phù ECML-98, pp. 137-142, 1998. hợp nhất. [10] Huan, J., Wang, W., & Prins, J. (2003, November). “Efficient mining of frequent subgraphs in the presence of isomorphism”. In Data Mining, HƯỚNG PHÁT TRIỂN 2003. ICDM 2003. Third IEEE International Conference on, pp. 549-552, IEEE, 2003. Trong thời gian tới, dự kiến sẽ tiến hành nghiên cứu, phát triển thêm để hoàn thiện nhiều chức năng hơn như: [11] Yang, Y., & Liu, X. (1999, August). “A re-examination of text categorization methods.” In Proceedings of the 22nd annual international Đưa mô hình đồ thị có hướng vào trong bài toán xây ACM SIGIR conference on Research and development in information dựng đồ thị văn bản. retrieval, pp. 42-49, ACM, 1999. Áp dụng mô hình đề xuất cho các bài toán thực tế khác như: khai phá các mạng xã hội, phân loại cảm xúc, phân loại phản hồi, ... IEEE conference templates contain guidance text TÀI LIỆU THAM KHẢO for composing and formatting conference papers. Please ensure that all template text is removed from [1] Rousseau, F., Kiagias, E., & Vazirgiannis, M. (2015). “Text Categorization as a Graph Classification Problem”. In ACL (1), pp. 1702- your conference paper prior to submission to the 1712, 2015. conference. Failure to remove template text from your paper may result in your paper not being [2] Malliaros, F. D., & Skianis, K. (2015, August). “Graph-based term weighting for text categorization”. In Advances in Social Networks Analysis published. and Mining (ASONAM), 2015 IEEE/ACM International Conference on, pp. 109