Luận văn Thạc sĩ Máy tính: Khai thác sự đa dạng trong tư vấn thông tin liên lĩnh vực

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:83

Thêm vào BST

Báo xấu

14
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung chính của đề tài là khảo sát hiện trạng về các hệ thống tư vấn đã có, phân tích ưu và khuyết điểm của những phương pháp được áp dụng phổ biến hiện nay. ‐ Tìm hiểu về các thuật toán liên lĩnh vực, các thuật toán tư vấn đạt hiệu quả cao như: phân chia item (item splitting), phân rã ma trận (matrix factorization), hay phương pháp contextualizing users’ latent features. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Máy tính: Khai thác sự đa dạng trong tư vấn thông tin liên lĩnh vực

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Đặng Thị Hà KHAI THÁC SỰ ĐA DẠNG TRONG TƯ VẤN THÔNG TIN LIÊN LĨNH VỰC LUẬN VĂN THẠC SĨ MÁY TÍNH Thành phố Hồ Chí Minh – 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Đặng Thị Hà KHAI THÁC SỰ ĐA DẠNG TRONG TƯ VẤN THÔNG TIN LIÊN LĨNH VỰC Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN AN TẾ Thành phố Hồ Chí Minh – 2018
LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn khoa học của TS. Nguyễn An Tế. Các thông tin và số liệu của luận văn có nguồn gốc rõ ràng, cụ thể, các trích dẫn theo đúng quy định. Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan và chưa từng được sử dụng hay công bố trong bất kỳ công trình nghiên cứu nào khác. Tp. Hồ Chí Minh tháng 9 năm 2018 Học viên Đặng Thị Hà
LỜI CẢM ƠN Đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy Nguyễn An Tế − giảng viên hướng dẫn luận văn. Trong quá trình tìm hiểu và nghiên cứu, tôi đã gặp nhiều khó khăn, nhưng nhờ Thầy đã luôn tận tình hướng dẫn và động viên nên tôi đã hoàn thành luận văn này. Tôi xin gửi lời cảm ơn chân thành đến quý Thầy/Cô − khoa Công nghệ thông tin – Trường Đại học Sư phạm TP. HCM đã truyền đạt những kiến thức quý báu cho tôi trong quá trình học tập. Đồng thời, tôi cũng xin gửi lời cảm ơn đến Ban chủ nhiệm khoa Công nghệ thông tin − Trường Đại học Sư phạm TP. HCM đã hỗ trợ và tạo điều kiện cho tôi trong thời gian qua. Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc đối với gia đình đã luôn động viên và giúp đỡ tôi trong suốt quá trình học tập cũng như thực hiện luận văn. TP. HCM tháng 9 năm 2018 Học viên thực hiện Đặng Thị Hà
MỤC LỤC Lời cam đoan Lời cảm ơn Mục lục Danh mục thuật ngữ và viết tắt Danh mục các bảng Danh mục hình vẽ Chương 1. GIỚI THIỆU ............................................................................................... 1 1.1. Đặt vấn đề ........................................................................................................ 1 1.2. Mục tiêu của luận văn ...................................................................................... 3 1.3. Nội dung thực hiện và đối tượng nghiên cứu .................................................. 5 1.4. Tóm tắt những đóng góp của luận văn ............................................................ 7 1.5. Bố cục của luận văn ......................................................................................... 8 Chương 2. HỆ THỐNG TƯ VẤN ................................................................................ 9 2.1. Khái niệm dùng trong hệ thống tư vấn ............................................................ 9 2.2. Một số cách tiếp cận ...................................................................................... 11 2.2.1. Tiếp cận theo nội dung (CbF) .............................................................. 12 2.2.2. Tiếp cận theo cộng tác (CF) ................................................................. 13 2.2.3. Tiếp cận theo lai ghép (hybrid) ............................................................ 16 2.3. Những lợi ích của hệ thống tư vấn................................................................. 17 2.4. Các vấn đề của hệ thống tư vấn ..................................................................... 18 2.5. Các kỹ thuật trong hệ thống tư vấn ................................................................ 19 2.5.1. Kỹ thuật K-NN dùng Users/Items ........................................................ 19 2.5.2. Kỹ thuật phân rã ma trận SVD ............................................................. 20 2.5.3. Kỹ thuật xử lý dữ liệu .......................................................................... 22 2.6. Độ đo sự tương đồng của những NSD........................................................... 25 2.7. Đánh giá các hệ thống tiếp cận tư vấn liên lĩnh vực ...................................... 28 2.7.1. Nghi thức kiểm tra................................................................................ 28 2.7.2. Tiêu chí đánh giá .................................................................................. 28 2.7.3. Thuật toán tính độ lỗi của hệ thống tư vấn........................................... 30 Chương 3. MÔ HÌNH TƯ VẤN LIÊN LĨNH VỰC ................................................. 32 3.1. Hệ thống tư vấn liên lĩnh vực ........................................................................ 32 3.2. Bài toán tư vấn liên lĩnh vực .......................................................................... 35 3.3. Thuật toán tư vấn liên lĩnh vực CRF ............................................................. 36 Chương 4. KHAI THÁC SỰ ĐA DẠNG TRONG TƯ VẤN THÔNG TIN LIÊN LĨNH VỰC..................................................................................... 45
4.1. Cơ sở đề xuất thuật toán CRF cải tiến ........................................................... 45 4.2. Thuật toán tư vấn liên lĩnh vực CRF cải tiến................................................. 46 4.3. Giải pháp ánh xạ hồ sơ của NSD theo giải thuật CRF cải tiến...................... 47 4.3.1. Thuật toán ánh xạ NSD trên lĩnh vực S  T của CRF cải tiến ........... 48 4.3.2. Thuật toán ánh xạ NSD T  S của CRF cải tiến................................. 54 4.3.3. Các bước tạo danh sách tư vấn cho NSD theo thuật toán CRF cải tiến ....................................................................................................... 56 Chương 5. THỰC NGHIỆM ...................................................................................... 59 5.1. Cơ sở dữ liệu thực nghiệm ............................................................................. 59 5.2. Quy trình thực nghiệm ................................................................................... 62 5.3. Kết quả thực nghiệm và bàn luận .................................................................. 63 5.3.1. Kết quả thực nghiệm 1: Thống kê theo độ đo RMSE cho Amazon sách-phim ............................................................................................ 63 5.3.2. Kết quả thực nghiệm 2: Thống kê theo độ đo MAE cho Amazon sách-phim ............................................................................................ 65 5.3.3. Kết quả thực nghiệm 3: Thống kê theo độ đo CBD cho Amazon sách-phim ........................................................................................... 67 Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................. 70 6.1. Kết luận .......................................................................................................... 70 6.2. Hướng phát triển ............................................................................................ 71 TÀI LIỆU THAM KHẢO........................................................................................... 72
DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT Cross Recommendation Framework CRF Collaborative Filtering CF Content-based Filtering CbF Người Sử Dụng NSD Matrix Factorization Recommender MF Hệ thống tư vấn (recommender system) RS
DANH MỤC CÁC BẢNG Bảng 2. 1. Ma trận đánh giá theo NSD..........................................................................15 Bảng 2. 2. Ma trận ước lượng đánh giá theo sản phẩm. ................................................15 Bảng 2. 3. Ma trận đánh giá phim. ................................................................................23 Bảng 2. 4. Ma trận đánh giá sách. .................................................................................24 Bảng 2. 5. Ma trận đánh giá sách sau khi chuẩn hóa. ...................................................24 Bảng 2.6. Ma trận đánh giá phim. .................................................................................25 Bảng 2. 7. Ma trận đánh giá phim sau khi chuẩn hóa. ..................................................25 Bảng 4. 1. Ma trận đánh giá sách trước khi chuẩn hóa. ................................................50 Bảng 4. 2. Ma trận đánh giá sách sau khi chuẩn hóa. ...................................................51 Bảng 4. 3. Ma trận đánh giá phim trước khi chuẩn hóa. ...............................................51 Bảng 4. 4. Ma trận đánh giá phim sau khi chuẩn hóa. ..................................................52 Bảng 5. 1. Mô tả CSDL Sách và Phim của Amazon. ....................................................61 Bảng 5. 2. Kết quả thực nghiệm theo độ đo RMSE cho Amazon 100K. ......................64 Bảng 5. 3. Kết quả thực nghiệm theo độ đo MAE trên Amzon 100K. .........................66 Bảng 5. 4. Kết quả thực nghiệm theo độ đo CBD trên Amazon 100K. ........................68
DANH MỤC HÌNH VẼ Hình 1. 1. Tư vấn liên lĩnh vực........................................................................................7 Hình 2. 1. Các thành phần trong hệ thống tư vấn. .........................................................11 Hình 2. 2. Minh họa hệ thống tư vấn - lọc cộng tác. .....................................................13 Hình 2. 3. Cách tính khoảng cách Manhattan. ..............................................................27 Hình 3. 1. Ví dụ minh họa về khái niệm lĩnh vực ở 4 mức [22]. ..................................34 Hình 3. 2. Nhiệm vụ của hệ thống tư vấn liên lĩnh vực [22]. ........................................36 Hình 3. 3. Sơ đồ các bước thực hiện của thuật toán CRF. ............................................37 Hình 3. 4. Tạo danh sách tư vấn cho NSD có đánh giá chung trong cả S và T (uc∈US-T). ......................................................................................................41 Hình 3. 5. Tạo danh sách tư vấn cho NSD chỉ có đánh giá trong lĩnh vực S (uc ∈US -US-T) ................................................................................................42 Hình 3. 6. Tạo danh sách tư vấn cho NSD chỉ có đánh giá trong lĩnh vực T (uc ∈UT-US-T). ...............................................................................................43 Hình 4. 1. Mô hình ánh xạ hồ sơ NSD trong CRF cải tiến. ..........................................48 Hình 5. 1. Phân bố NSD của Phim-Sách trên CSDL Amazon. .....................................62 Hình 5. 2. Kết quả thực nghiệm theo độ đo RMSE.......................................................65 Hình 5. 3. Kết quả thực nghiệm theo độ đo MAE.........................................................67 Hình 5. 4. Kết quả thực nghiệm theo độ đo CBD. ........................................................69
1 Chương 1. GIỚI THIỆU Chương 1 sẽ trình bày một số vấn đề đã thúc đẩy luận văn đi tìm hiểu và tiến hành nghiên cứu về các hệ thống tư vấn liên lĩnh vực. Tiếp theo đó, chương mở đầu này cũng sẽ giới thiệu những mục tiêu, nội dung nghiên cứu và tóm tắt những kết quả đạt được của luận văn. 1.1. Đặt vấn đề Từ nhiều năm nay, sự ra đời của những hệ thống như Google, Netflix, Amazon đã giúp chúng ta giải quyết nhu cầu về thông tin trong nhiều lĩnh vực của cuộc sống hằng ngày. Thông thường, sau khi cung cấp một vài từ khóa hay những điều kiện lựa chọn sản phẩm thể hiện nhu cầu, người sử dụng (NSD) sẽ nhận được một danh sách rất nhiều những thông tin hay những sản phẩm có liên quan [18]. Lúc này, NSD phải đối mặt với vấn đề quá tải thông tin (information overload) nghĩa là danh sách kết quả trả về chứa quá nhiều thông tin (có khi lên đến hàng triệu thông tin) và họ phải tốn nhiều thời gian, công sức để loại bỏ những thông tin không phù hợp và chọn lọc lại những gì thật sự có ích. NSD cũng có thể tinh chế lại tập từ khóa hay điều kiện lựa chọn để thu hẹp danh sách thông tin kết quả, nhưng vấn đề mấu chốt ở đây là các hệ thống đã đồng nhất nhu cầu của mọi cá nhân trong từng lĩnh vực tương ứng [2]. Nhìn chung, danh sách kết quả chứa những thông tin có liên quan nhưng không ít trong số đó là không phù hợp với NSD. Ví dụ, nếu cùng thời điểm mà một giáo sư hay một chuyên gia và một sinh viên ngành công nghệ thông tin cùng nhập những từ khóa giống nhau thì cả hai đều sẽ nhận được danh sách kết quả giống như nhau, trong đó có một phần danh sách chỉ phù hợp với người này và không phù hợp với người kia vì trình độ và nhu cầu của hai đối tượng là khác nhau. Hệ thống tư vấn (Recommender Systems) mang lại nhiều ý nghĩa to lớn, giúp cho NSD có thể vượt qua tình trạng quá tải thông tin và đã trở thành một công cụ
2 mạnh mẽ và phổ biến hiện nay. Những ý nghĩa thực tiễn của hệ thống tư vấn có thể liệt kê như sau: khả năng đưa ra các dịch vụ cá nhân hóa, hướng tới từng đối tượng khách hàng cụ thể, tăng mức tín nhiệm và trung thành của khách hàng, tăng doanh thu, tăng CTR (click through rate) và thêm hiểu biết về khách hàng. Một số giá trị cụ thể do các công ty lớn đã công bố khi áp dụng công nghệ tư vấn như: Netflix, hệ thống cung cấp phim bản quyền trực tuyến, cho biết 2/3 số phim được xem từ hệ thống tư vấn; Amazon, hệ thống bán hàng trực tuyến hàng đầu thế giới hiện nay, có 35% doanh số bán hàng từ kết quả của tư vấn; Google New đem lại 38% click- throughs; Choicestream có 28% NSD quyết định mua sản phẩm âm nhạc khi họ tìm được sản phẩm yêu thích từ những tư vấn của hệ thống [6]. Hiện nay các hệ thống tư vấn đã và đang được ứng dụng một cách rộng rãi trong lĩnh vực công nghệ thông tin và truyền thông nhằm tư vấn một cách phù hợp cho NSD cũng như hỗ trợ cho các nhà cung cấp dịch vụ những thông tin, hàng hóa, dịch vụ, hay thông tin thị trường, hành vi của NSD. Ví dụ, các hệ thống như Facebook, Amazon, MovieLens, … cung cấp những chức năng giới thiệu những thông tin về kết bạn, sách, phim ảnh, … theo nhu cầu hay sở thích của từng NSD [4], [3]. Đa số các hệ thống tư vấn hiện nay được dựa trên hai cách tiếp cận chính: tiếp cận dựa trên nội dung (Content- based Filtering - CbF) và tiếp cận dựa trên sự cộng tác (Collaborative Filtering – CF) [10], [25]. Theo cách tiếp cận dựa trên nội dung (CbF), mỗi NSD có một hồ sơ đặc trưng (profile) mà tùy theo từng lĩnh vực sẽ bao gồm những thông tin mô tả khác nhau như: tên, tuổi, giới tính, nghề nghiệp, thói quen, vùng địa lý, … Sau đó, hệ thống sẽ so khớp giữa hồ sơ đặc trưng của NSD và sản phẩm, hàng hóa, hay thông tin, … (gọi chung là item) để cung cấp các thông tin về các items phù hợp với hồ sơ NSD. Ngược lại, NSD phải phản hồi cho hệ thống những đánh giá (ratings) trên những gì mình đã nhận được để hệ thống có thể cập nhật hồ sơ NSD một cách đúng đắn. Cách tiếp cận này có ưu điểm là không đánh đồng nhu cầu của mọi cá nhân trong từng lĩnh vực tương ứng, nhưng mắc phải khuyết điểm theo lối mòn trong khai thác, nghĩa là một khi hồ sơ đã “ổn định”
3 thì NSD chỉ nhận được những gì được mô tả trong hồ sơ và không có cơ hội khám phá những lĩnh vực mới mà có thể cũng rất đáng quan tâm. Trong cách tiếp cận dựa trên sự cộng tác (CF), dựa trên một ma trận đánh giá R (ratings matrix), hệ thống sẽ xác định một cộng đồng cho NSD dựa trên độ tương đồng của các NSD trong ma trận R. Sau khi xác định cộng đồng, NSD sẽ được hệ thống tư vấn những items mà cộng đồng của mình cho điểm cao. Ưu điểm của CF chính là sự chia sẻ thông tin giữa những NSD và đã giải quyết được vấn đề lối mòn trong khai thác vì thông qua cộng đồng của mình, NSD có thể khám phá thêm những chủ đề mới, ngay cả khi không thể hiện trong hồ sơ NSD. 1.2. Mục tiêu của luận văn Hầu hết các hệ thống tư vấn hiện nay chỉ quan tâm đến một lĩnh vực cụ thể để tư vấn thông tin cho NSD, ví dụ hệ thống MovieLens sẽ giới thiệu cho NSD những thông tin liên quan đến sở thích phim ảnh, Facebook tư vấn kết bạn cho NSD dựa trên các thói quen giao tiếp trên mạng xã hội. Hiện nay có rất ít hệ thống tư vấn cho NSD dựa trên ngữ cảnh của nhiều lĩnh vực. Zihan [25] đề xuất hệ thống tư vấn mới dựa trên đa lĩnh vực tại hội nghị AAAI-16 cho học tích cực (Active Learning). Kết quả thực nghiệm cho thấy tính khả thi của việc khai thác liên lĩnh vực cho hoạt động tư vấn trong học tập so với tư vấn một cách độc lập theo từng lĩnh vực riêng lẻ. Ngoài ra, Kotkov [14] cũng nghiên cứu phát triển một hệ thống tư vấn liên lĩnh vực cho các items chồng lắp trên nhiều lĩnh vực, và Zhenzhen đã đề xuất mô hình CRUS [15] cho việc tư vấn liên lĩnh vực dựa trên độ đo sự tương đồng của NSD. Trong phạm vi nghiên cứu này, luận văn quan tâm đến những hệ thống tư vấn liên lĩnh vực, ví dụ giữa phim và sách, nhằm mục đích hướng đến tính đa dạng phong phú của thông tin tư vấn. Giả sử một NSD (u1) chỉ mới có những đánh giá về phim mà chưa có đánh giá về sách thì không thể tư vấn sách cho u1 được. Tuy nhiên nếu NSD u1 chia sẻ hay có một sự tương đồng về sở thích hay nhu cầu với một NSD ui mà ui nằm trong một cộng đồng ưa thích đọc một số loại sách thì có thể u1 cũng thuộc vào cộng đồng đó. Cụ thể: Giả sử trong lĩnh vực D1 thì u1 được xếp vào cộng đồng G11 và trong G11 lại có
4 một NSD u2 mà trong lĩnh vực D2 thì u2 này lại được xếp vào cộng đồng G23 vậy thì có khả năng u1 cũng được xếp vào G23. Trên cơ sở đó, u1 sẽ nhận được các tư vấn về sách mà G23 ưa thích. Nhìn chung, phát triển mô hình tư vấn liên lĩnh vực sẽ giúp nâng cao khả năng ứng dụng của hệ thống tư vấn trong thực tế, đặc biệt là trong lĩnh vực thương mại điện tử bởi vì, NSD của các hệ thống trong thương mại điện tử thường tìm hiểu trên các items của nhiều lĩnh vực khác nhau. Ví dụ, NSD của hệ thống Lazada sẽ tìm kiếm để mua sắm items về đồ dùng dân dụng, sách, nhu yếu phẩm, hay các thiết bị điện tử, … Ngoài ra, hình thức tư vấn liên lĩnh vực cũng sẽ giúp các công ty phát triển hệ thống tư vấn có thể tái sử dụng thông tin về hành vi của NSD trong lĩnh vực ứng dụng hiện tại khi phát triển tính năng tư vấn cho các items của lĩnh vực mới trong hệ thống. Ví dụ, hệ thống ban đầu chỉ tư vấn NSD trong việc lựa chọn phim ảnh để xem. Sau đó, hệ thống phát triển thêm sản phẩm ca nhạc để phục vụ NSD thì các dữ liệu phân tích hành vi NSD trên việc lựa chọn phim ảnh sẽ được tái sử dụng cho lĩnh vực ca nhạc. Phần lớn các hệ thống tư vấn đều chỉ chú trọng đến độ chính xác (precision) của các thuật toán tư vấn và chưa đáp ứng hoàn toàn nhu cầu rất đa dạng (diversity) của NSD. Ví dụ, một danh sách tư vấn các đầu sách có độ chính xác cao, có thể phù hợp với sở thích của NSD, nhưng lại rất gần giống nhau, như tập hợp nhiều phiên bản/tái bản của cùng một đầu sách hay cùng một chủ đề về Nha Trang, thì có vẻ đơn điệu, và không thích hợp bằng việc ngoài một danh sách tư vấn chứa những đầu sách về Nha Trang thì hệ thống tư vấn còn có thể giới thiệu thêm các clip, phim, các sự kiện văn hóa, ... có liên quan nhưng vẫn bảo đảm được một độ chính xác nhất định. Rõ ràng các hệ thống tư vấn liên lĩnh vực sẽ giúp tăng tính đa dạng trong kết quả tư vấn hơn hệ thống tư vấn trên một lĩnh vực. Do đó, luận văn xác định mục tiêu phát triển hệ thống tư vấn liên lĩnh vực (ví dụ hai lĩnh vực: sách và phim) có xét tới yếu tố giá trị thuộc tính của các items (ví dụ sách thì có các thể loại như sách truyện, sách học thuật, ...) để tăng tính đa dạng so với cách tiếp cận truyền thống của hệ thống tư vấn trên một lĩnh vực. Ngoài ra, chất lượng của thông tin tư vấn còn được thể hiện qua tính mới (novelty),
5 có nghĩa là hệ thống có khả năng tư vấn những items mà NSD chưa hề biết đến. Ví dụ, một NSD ưa thích những bài thơ tình của tác giả Chấn Uy, khi đó việc tư vấn một truyện ngắn của cùng tác giả có thể được đánh giá là có tính mới mẻ. Vì vậy, luận văn đặt ra mục tiêu phát triển một mô hình tư vấn liên lĩnh vực thay vì tư vấn trên một lĩnh vực như cách tiếp cận truyền thống. 1.3. Nội dung thực hiện và đối tượng nghiên cứu Nhằm đạt được những mục tiêu đã nêu, về mặt lý thuyết, luận văn sẽ tiến hành nghiên cứu những công trình, những thuật toán có liên quan đến các phương pháp tư vấn liên lĩnh vực. Những công việc cụ thể bao gồm: ‐ Khảo sát hiện trạng về các hệ thống tư vấn đã có, phân tích ưu và khuyết điểm của những phương pháp được áp dụng phổ biến hiện nay. ‐ Tìm hiểu về các thuật toán liên lĩnh vực, các thuật toán tư vấn đạt hiệu quả cao như: phân chia item (item splitting), phân rã ma trận (matrix factorization), hay phương pháp contextualizing users’ latent features, … ‐ Xây dựng những thuật toán tư vấn liên lĩnh vực với mối quan tâm đặc biệt đến giá trị thuộc tính của các items, sự tương đồng giữa NSD trong nhiều lĩnh vực khác nhau. Về mặt thực nghiệm, những thuật toán tư vấn được trình bày trong luận văn sẽ được thử nghiệm và đánh giá theo phương pháp offline, nghĩa là các thuật toán sẽ được thử nghiệm trên một bộ dữ liệu mẫu như Amazon trong lĩnh vực hệ thống tư vấn sách và phim. Quá trình thử nghiệm của luận văn sẽ được tiến hành theo những bước chính như sau: ‐ Chuẩn bị dữ liệu. ‐ Xây dựng quy trình thử nghiệm (protocol). ‐ Tiến hành thử nghiệm theo phương pháp offline.
6 ‐ Phân tích và đánh giá kết quả. Đối tượng nghiên cứu chính của luận văn là hệ thống tư vấn liên lĩnh vực. Trong đó, lĩnh vực được định nghĩa vắn tắt là tập các đánh giá được tạo ra trên cùng một phân phối dữ liệu. “A domain is a collection of ratings which are drawn under the same data distribution” [7]. Trong các hệ thống tư vấn “truyền thống”, ma trận đánh giá R theo từng lĩnh vực được thể hiện qua một hàm hai biến: RA: UserDomainA x AItem → ARating RB:UserDomainB x BItem → BRating Trong khi đó luận văn sẽ quan tâm nghiên cứu thêm các yếu tố về ngữ cảnh trong ma trận đánh giá: RContext: User x ABItem x RelationContextAB → ABRating Trong các hàm nêu trên, UserDomainA là tập hợp những NSD có đánh giá cho các items của lĩnh vực A, AItem là danh sách items trong lĩnh vực A và ARating là tập hợp các đánh giá của các items trong lĩnh vực A của NSD. Tương tự, UserDomainB là tập hợp những NSD có đánh giá cho các items của lĩnh vực B, BItem là danh sách items trong lĩnh vực B và BRating tập hợp các đánh giá của các items trong lĩnh vực B của NSD. RelationContextAB là tập hợp các giá trị của các thuộc tính ngữ cảnh liên quan đến hai lĩnh vực A và B của ứng dụng. ABItem là danh sách items trong lĩnh vực A và B. ABRating là tập hợp các đánh giá của các items trong lĩnh vực A và B của NSD. Luận văn tập trung khai thác sự tương đồng giữa NSD trong từng lĩnh vực với tập hợp những NSD chung của nhiều lĩnh vực để phản ánh ngữ cảnh mối liên hệ giữa các lĩnh vực. Về mặt lý thuyết, đề tài sẽ tiến hành nghiên cứu những độ đo và những thuật toán giúp tăng cường những khía cạnh chất lượng tư vấn (diversity, novelty, serendipity)
7 trong điều kiện liên lĩnh vực (giới hạn ở hai lĩnh vực). Đồng thời luận văn mong muốn phát triển mô hình tương quan giữa hai lĩnh vực để tận dụng thông tin trung gian của hai lĩnh vực này thực hiện tư vấn cho NSD trong lĩnh vực kia (xem hình 1.1). Hình 1. 1. Tư vấn liên lĩnh vực. 1.4. Tóm tắt những đóng góp của luận văn Luận văn đã sử dụng những khái niệm cơ bản về hệ thống tư vấn, nghiên cứu và thực nghiệm một mô hình liên lĩnh vực (thuật toán CRF), sau đó luận văn đề xuất một thuật toán CRF cải tiến nhằm tăng cường sự đa dạng trong danh sách tư vấn. Trên cơ sở đó, luận văn cài đặt hệ thống thử nghiệm mô hình đề xuất bằng C# với thư viện tư vấn MyMediaLite và thư viện hỗ trợ các thuật toán máy học CS5. Luận văn đã tiến hành thử nghiệm các phương pháp đề xuất cũng như phân tích kết quả ở nhiều khía cạnh khác nhau. Thông qua kết quả thực nghiệm, luận văn đã cho thấy hệ thống tư vấn liên lĩnh vực (cài đặt dựa trên thuật toán CRF và CRF cải tiến) giúp giải quyết một phần các vấn đề của hệ thống tư vấn liên lĩnh vực:  Khởi đầu lạnh (cold – start).  Vấn đề dữ liệu thưa (sparsity). Đồng thời, kết quả thực nghiệm cũng cho thấy thuật toán CRF cải tiến do luận văn
8 đề xuất đạt hiệu quả cao hơn thuật toán CRF. 1.5. Bố cục của luận văn Bố cục của luận văn được trình bày thành 6 chương như sau: Chương 1 giới thiệu tổng quan về những vấn đề của hệ thống tư vấn, nêu lên mục tiêu, nội dung nghiên cứu và những kết quả đạt được của luận văn. Chương 2 trình bày hiện trạng của các hệ thống tư vấn. Chương 3 trình bày hệ thống tư vấn liên lĩnh vực và một mô hình tư vấn liên lĩnh vực. Chương 4 trình bày giải pháp đề xuất cải tiến để tăng tính đa dạng trong mô hình tư vấn liên lĩnh vực. Chương 5 trình bày quá trình tiến hành cũng như kết quả thực nghiệm của thuật toán được đề xuất trên bộ dữ liệu Amazon. Những đánh giá và phân tích cũng được trình bày nhằm giúp cho việc áp dụng mô hình cải tiến đã đề xuất. Chương 6 là phần kết luận và nêu lên một số hướng phát triển trong tương lai của luận văn.
9 Chương 2. HỆ THỐNG TƯ VẤN Chương 2 sẽ trình bày hiện trạng nghiên cứu có liên quan đến luận văn, bao gồm phần tổng quan về hệ thống tư vấn, các cách tiếp cận chính và các kỹ thuật (đặc biệt kỹ thuật Matrix Factorization được đánh giá là có hiệu quả cao) thường được áp dụng trong hệ thống tư vấn. 2.1. Khái niệm dùng trong hệ thống tư vấn Hệ thống tư vấn thường được sử dụng để dự đoán sở thích của NSD dựa vào những phản hồi của NSD nhằm gợi ý cho họ các sản phẩm mà NSD có thể thích. Hệ thống tư vấn hiện nay đang được ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại điện tử (bán hàng trực tuyến, gợi ý các sản phẩm phù hợp với nhu cầu của NSD), trong giải trí và truyền thông đa phương tiện (tư vấn phim, nhạc, tin tức, …) mà NSD có thể quan tâm, trong giáo dục và đào tạo (gợi ý nguồn học liệu phù hợp với nhu cầu học tập và nghiên cứu). Ví dụ, hệ thống bán hàng trực tuyến của Amazon nhằm mục đích tối ưu hóa việc mua sắm trực tuyến của khách hàng. Hệ thống này phân tích những khách hàng nào đã chọn “like” những sản phẩm theo dữ liệu trong quá khứ (dữ liệu này được xếp hạng dựa vào bình chọn, đánh giá trên sản phẩm, số lần click chuột trên sản phẩm, …) từ đó hệ thống sẽ dự đoán NSD có thể yêu thích sản phẩm nào để đưa ra những gợi ý phù hợp. Trong hầu hết các trường hợp, bài toán tư vấn được coi là bài toán ước lượng trước đánh giá (rating) của các sản phẩm (phim, sách, nhu yếu phẩm, nhà hàng,...) chưa được NSD xem xét. Việc ước lượng này dựa trên đánh giá của chính NSD này hoặc của những NSD khác. Admovicius và Tuzhinlin [4], [5], đã đưa ra các khái niệm dùng trong hệ thống tư vấn như sau: Không gian NSD (User Space): là tập hợp tất cả những NSD mà hệ thống quan
10 sát được để thực hiện việc phân tích, gợi ý tư vấn. Ký hiệu U = {u1, u2, ..., un}. Không gian tư vấn (Recommendation Items Space): là tập hợp tất cả các đối tượng sẽ được gợi ý tư vấn cho NSD. Tùy vào từng lớp bài toán cụ thể, các đối tượng có thể là sách, phim, báo, địa điểm, món ăn, hay khóa học, … Ký hiệu I = {i1, i2, .., im}. Hàm hữu ích (Useful Function): là ánh xạ f(u,i): U x I  R dùng để ước lượng mức độ hữu ích. Trong đó, i là một đối tượng trong không gian tư vấn I, u là một NSD trong không gian NSD U. R là tập hợp có thứ tự các số nguyên hoặc số thực trong một khoảng nhất định. Tập hợp R phổ biến là 1-5 (tương tự đánh giá 5 sao các ứng dụng hay nhà hàng khách sạn). Bài toán tư vấn: Cho trước không gian NSD U = {u1, u2, ...,un} và không gian tư vấn I = {i1, i2, ..., im}. Xác định hàm hữu ích f(u,i): U x I  R. Giá trị f(u,i) sẽ giúp tiên đoán u thích i nhiều hay ít, hay nói cách khác i hữu ích thế nào với NSD u. Đối với mỗi NSD u, hệ thống tư vấn sẽ chọn TopN đối tượng i hữu ích đối với u để tư vấn ITopN = với TopN
11 Hình 2. 1. Các thành phần trong hệ thống tư vấn. Hình 2.1 trên mô tả các thành phần chính trong một hệ thống tư vấn gồm: (1) Thành phần lưu trữ cơ sở dữ liệu về sản phẩm, hàng hóa hay thông tin cần tư vấn cho NSD. (2) Thành phần lưu trữ hồ sơ NSD giúp hệ thống “hiểu” về hành vi, sở thích của NSD. (3) Thành phần tư vấn sử dụng một thuật toán để tư vấn cho NSD. 2.2. Một số cách tiếp cận Dựa vào cách xác định ước lượng hạng/điểm cho các sản phẩm đối với NSD, hệ thống tư vấn thường được chia thành ba loại chính: Thứ nhất là các hệ thống dựa vào CbF, tư vấn những items tương đồng với những gì mà NSD ưa thích trong quá khứ. Thứ hai là phương pháp CF, tư vấn những items dựa vào những ý kiến đánh giá trong cộng đồng của NSD. Thứ ba là cách tiếp cận lai ghép kết hợp cả hai phương pháp trên để tận dụng ưu điểm và hạn chế nhược điểm của từng cách tiếp cận [3].