Một tiếp cận trong xây dựng hệ thống gợi ý theo ngữ cảnh

Chia sẻ: Lavie Lavie | Ngày: | Loại File: PDF | Số trang:10

Thêm vào BST

Báo xấu

130
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Một tiếp cận trong xây dựng hệ thống gợi ý theo ngữ cảnh đề xuất một giải pháp trong xây dựng hệ thống gợi ý theo ngữ cảnh, áp dụng cho gợi ý du lịch nhằm gợi ý các điểm du lịch phù hợp nhất với du khách. Mời các bạn tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một tiếp cận trong xây dựng hệ thống gợi ý theo ngữ cảnh

Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000185 MỘT TIẾP CẬN TRONG XÂY DỰNG HỆ THỐNG GỢI Ý THEO NGỮ CẢNH 1 Lư Chân Thiện1 và Nguyễn Thái Nghe2 Khoa Kỹ thuật Công nghệ, Trường Cao đẳng Cộng đồng Kiên Giang, E-mail: lcthien_kgcc@yahoo.com 2 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ, E-mail: ntnghe@cit.ctu.edu.vn Tóm tắt - Hệ thống gợi ý (Recommender Systems - RS) đang được ứng dụng rộng rãi trong nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục,...) nhằm dự đoán sở thích của người dùng nhờ vào thông tin cá nhân hoặc những phản hồi (đánh giá) của họ. Bài viết này đề xuất một giải pháp trong xây dựng hệ thống gợi ý theo ngữ cảnh, áp dụng cho gợi ý du lịch nhằm gợi ý các điểm du lịch phù hợp nhất với du khách. Hệ thống này kết hợp các phương pháp như gợi ý dựa trên ngữ cảnh đầu vào (contextual preﬁltering), tích hợp với kỹ thuật phân rã ma trận (matrix factorization) và xử lý ngữ cảnh đầu ra (contextual post-ﬁltering) nhằm tăng độ chính xác cho hệ thống. Sau khi xây dựng hệ thống và tích hợp các giải thuât gợi ý, chúng tôi thu thập thông tin từ người dùng thực nhằm đánh giá hiệu quả của hệ thống đã đề xuất. Thực nghiệm cho thấy việc ứng dụng giải pháp này trong hỗ trợ phát triển du lịch là hoàn toàn khả thi. Từ khóa: Hệ thống gợi ý theo ngữ cảnh, hệ thống gợi ý du lịch, kỹ thuật phân rã ma trận, lọc cộng tác. I. GIỚI THIỆU Ngành du lịch trong những năm qua đã phát triển mạnh mẽ, đem lại lợi ích to lớn về kinh tế - xã hội, góp phần thúc đẩy các ngành sản xuất và dịch vụ phát triển. Với tiềm năng du lịch đa dạng và phong phú, Việt Nam là một nước có nhiều danh lam thắng cảnh, từ đó thu hút không ít khách du lịch cả trong và ngoài nước. Tuy nhiên, khách du lịch thường gặp phải rất nhiều khó khăn khi đi đến những thành phố lạ lẫm. Họ cần phải nhờ đến sự trợ giúp của hướng dẫn viên du lịch hoặc ít nhất là phải dựa vào sách hướng dẫn hay bản đồ để có được những thông tin mà họ cần tìm. Tuy nhiên những sự trợ giúp này cũng có những hạn chế nhất định như: Khách du lịch sẽ có thể khó tìm thấy những thông tin chi tiết về những địa điểm du lịch cần tham quan để có sự chuẩn bị cần thiết. Hoặc là, những hướng dẫn viên du lịch thường hướng dẫn cho cả đoàn khách, họ đi theo những tour du lịch đã được định sẵn và chỉ được tham quan những điểm du lịch chính, trong khi những điểm du lịch thú vị lại không được tham quan, mặc dù cách địa điểm chính rất gần.. Như vậy làm thế nào để hỗ trợ khách khi đi du lịch có thể dễ dàng tìm thấy những địa điểm phù hợp với họ, phù hợp với những điều kiện ngữ cảnh xung quanh (như thời tiết, tâm trạng, bạn đồng hành,...). Để đáp ứng những đòi hỏi trên, việc ứng dụng các công nghệ trong hệ thống gợi ý với các yếu tố ngữ cảnh có thể sẽ cho kết quả phù hợp. Hệ thống gợi ý (Recommender Systems - RS) là một dạng kỹ thuật trong lọc thông tin, RS đang được ứng dụng rộng rãi trong nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục,...) nhằm dự đoán sở thích của người dùng nhờ vào thông tin cá nhân hoặc những phản hồi (đánh giá) của họ. Bài viết này đề xuất một giải pháp xây dựng hệ thống gợi ý dựa trên ngữ cảnh, sau đó ứng dụng giải pháp này cho bài toán gợi ý các điểm du lịch. Hệ thống có thể vận hành trên nền Web để hỗ trợ khách du lịch nhằm đem lại sự thoải mái và sự tiện dụng tối đa cho họ khi tham gia vào hệ thống. Để thực hiện, chúng tôi đã nghiên cứu các phương pháp hiện có và đề xuất phương pháp xây dựng hệ thống bằng cách kết hợp phương pháp gợi ý dựa trên ngữ cảnh đầu vào (contextual pre-ﬁltering), tích hợp với kỹ thuật phân rã ma trận (matrix factorization) và xử lý ngữ cảnh đầu ra (contextual post-ﬁltering), đồng thời tìm hiểu và đề xuất hướng khắc phục vấn đề người dùng mới trong hệ thống. Sau khi xây dựng hệ thống hoàn chỉnh, chúng tôi thu thập ý kiến phản hồi từ người dùng thực, từ đó đánh giá hiệu quả của hệ thống đã xây dựng. II. HỆ THỐNG GỢI Ý (RECOMMENDER SYSTEMS - RS) VÀ CÁC NGHIÊN CỨU LIÊN QUAN Hệ thống gợi ý (RS) là hệ thống có khả năng dự đoán và cung cấp cho người dùng những thông tin, sản phẩm hay dịch vụ mà họ có thể thích/quan tâm. RS sẽ đưa ra các gợi ý dựa trên phản hồi trong quá khứ của người dùng (như bình luận, đánh giá,…) trên sản phẩm, bài hát, bộ phim, điểm du lịch,... Các hệ thống gợi ý nổi tiếng hiện có như: gợi ý sản phẩm của Amazon/Ebay, gợi ý phim/video clip của NetFlix/Youtube,… RS đã cho thấy được ý nghĩa to lớn của nó trong việc giúp người dùng giải quyết tình trạng quá tải thông tin. Có hai loại mô hình RS được nghiên cứu và ứng dụng trong thực tiễn đó là: hệ thống gợi ý 2 chiều (2D RS) và hệ thống gợi ý theo ngữ cảnh (đa chiều, thông thường là 3 chiều – 3D RS). A. Hệ thống gợi ý hai chiều Trong hệ thống gợi ý 2 chiều có hai khái niệm chính là người dùng (user) và mục tin (item) cần được gợi ý đến cho người dùng. Quá trình gợi ý dựa vào các phản hồi (feedbacks/rating) của người dùng về các đối tượng. Ví dụ, đánh giá của người dùng về các sản phẩm mà họ đã từng mua trên Amazon từ đến . Nhiệm vụ của RS là dự đoán các đánh giá của những người dùng đối với những item mà họ chưa thấy/mua và sau đó gợi ý cho họ. Một cách hình thức, gọi U là tập người dùng (users); I là tập mục tin (items). Tập I có thể rất lớn, từ hàng trăm ngàn (sách, CD,…) đến hàng triệu (như bài báo, bản tin,…). R là tập các giá trị đánh giá của người dùng trên các mục tin. 486 4 MỘT TIẾP CẬ TRONG XÂY DỰNG HỆ TH ẬN Y HỐNG GỢI Ý TH HEO NGỮ CẢNH H Thông thường dữ liệu được biểu diễn tro một ma trận 2 chiều, t T g c ong trong đó mỗi dòng là một user, mỗi cột là một item v u và mỗi ô là đánh giá của user trên item tươn ứng). Với m người dùn u ∈ U, cần tìm mục i ∈ I (u chưa xem/ m t ng mỗi ng /mua i) sao ch ho hàm ̂ đo độ p hợp (xếp hạng/đánh giá của người dù u đạt giá trị lớn nhất trê i: h phù h á) ùng ên ̂: U × I → R (1 1) Các kỹ thuật trong R thường đượ phân thành ba nhóm [1]: RS ợc Dựa t trên nội dung (content-base filtering): người dùng đư gợi ý nhữ item tương tự như các i ed n ược ững g item từng đượ ợc họ đá giá cao; ánh - Lọc c cộng tác (colla aborative filte ering): người d dùng được gợ ý các sản ph mà những người cùng sở thích với h ợi hẩm g họ đánh giá cao. Đây là kỹ thuật thư ường được sử dụng nhất; ử - Lai ghép (hybrid): kết hợp cả 2 p phương pháp trên. - Ý tưởn chính của kỹ thuật lọc cộ tác là dự đoán độ phù h của item i được đánh gi bởi người d ng k ộng đ hợp iá dùng u dựa trê ên tập N(ui,i) giữa người dùng ui và i, trong đó ui là ngườ có cùng sở t t ời thích với u. Ví dụ, để gợi ý một điểm du lịch cho ngườ ời dùng u, đầu tiê hệ thống lọ cộng tác tìm những ngườ dùng khác c cùng sở thích với u. Sau đó, những nơ được họ đán d ên ọc m ời có ơi nh giá cao sẽ đượ dùng để gợi ý cho u. g ợc i B. Hệ thống g ý theo ngữ cảnh (Contex B gợi ữ xt-aware RS) Thông thường trong RS hai chiều, người ta thườ biểu diễn dữ liệu vào m trận user-it do vậy ch quan tâm đế , ờng n ma tem hỉ ến người dùng v mục tin là chính chứ kh n và hông quan tâm đến các thô tin ngữ c m ông cảnh (context) bên ngoài có tác động đế ) ến quyết định của người dùng hay không. “T q a Thông tin ngữ cảnh là nhữn thông tin c thể mô tả đư hoàn cản của một thự ữ ng có được nh ực thể” [3]. Ví dụ thời gian, nơi chốn, thời tiết, tâm trạng t ụ: n g,… là những thông tin ngữ cảnh, chúng có thể ảnh h g ữ g hưởng đến đán nh giá của người dùng đối với các item, từ đ dẫn đến sự ảnh hưởng củ những gợi ý trong RS. g đó ủa đa ng g h Với hệ thống gợi ý đ chiều, hàm ̂ được bổ sun thêm thông tin ngữ cảnh (context) và trở thành: ̂: U × I × C → R (C là th hông tin ngữ c cảnh) trong hệ thống gợi ý du lịch user là khác du lịch, item là những đị điểm du lịch và ngữ cảnh có thể là thờ g h, ch m ịa h, ời ví dụ, t gian (buổi sán g ng/tối, cuối tu uần, mùa, lễ, t tết,…), bạn đ đồng hành (đi một mình, đi với bạn trai/ i /bạn gái, đi vớ gia đình, tr ới rẻ nhỏ…). Những đánh giá ch một điểm d lịch bởi một người dùng có thể sẽ phụ thuộc vào nh n g ho du ụ hững ngữ cảnh đó. Ví dụ và h ào buổi tối mùa x b xuân đi cùng gia đình thì đ điểm ABC là hấp dẫn n địa C nhất, nhưng khi đi cùng bạ gái thì có th địa điểm đó k ạn hể đ không phù hợp nữa. k p Không gian gợi ý b chiều có th được mô tả trong khối lập phương như ở Hình 1 Ô tô đậm c biết chỉ s ba hể t n 1. cho số R(101,7,1) = 6 có ý nghĩa là người dùng có mã số 101 đánh giá sản phẩm có mã số 7 trong điều kiện thời g có mã số 1 R 1 n gian với giá trị đán giá là 6. Trong khối lập phương này không phải ô nào cũng có giá trị, nhữ ô không c giá trị là do v nh T p y, c ững có d người dùng ch đánh giá. Mục tiêu của hệ thống gợi ý là dự đoán giá trị tại nhữ ô còn thiế đó, từ đó đ ra lời gợi ý n hưa a i n ững ếu đưa đến với người dùng. đ Hình 1. Minh họa cho không gian gợi ý ba chiều (ng . guồn [3]) ếp hệ hể t ]: Các phương pháp tiế cận trong h thống gợi ý đa chiều có th được tóm tắt như sau [3] • Xử lý ngữ cảnh đầu và (Contextua pre-ﬁltering Trong tiếp cận này, thô tin về ngữ cảnh được s dụng để lự ữ ào al g): p ông ữ sử ựa chọn hoặc xây dựng cá thiết lập có liên quan đế dữ liệu (xế hạng). Sau khi lọc thôn tin ngữ cản hệ thống đ c ác ó ến ếp u ng nh, đa chiều sẽ tr thành hệ th rở hống hai chiều và ta có thể sử dụng bất k phương phá gợi ý truyề thống nào t u kỳ áp ền trên các dữ liệ ệu đã chọn. Lư Chân Thiện, N L Nguyễn Thái Ngh he • • 48 87 Xử lý ngữ cảnh đầu ra (Contextual post-ﬁltering) Trong tiếp cận này, ngữ cảnh thông ti ban đầu bị bỏ qua và xế ữ a ): in ếp hạng được dự đoán bằn cách sử dụ bất kỳ phư c ng ụng ương pháp gợi ý truyền thống trên toàn bộ dữ liệu. Sa đó, các gợi ý i b au được điều chỉnh cho mỗ người sử dụ bằng cách sử dụng các thông tin theo ngữ cảnh. u ỗi ụng h o Mô hình h ngữ cảnh (Contextual m hóa modeling): Ph hương pháp nà xây dựng một mô hình d đoán. Ví dụ mô hình nà ày m dự ụ, ày có thể đưa ra xác suất m người dù cụ thể chọ một sản ph a một ùng ọn hẩm cụ thể tro một bối cả cụ thể là bao nhiêu. Sa ong ảnh au đó xác suấ này được dù để điều ch ất ùng hỉnh và tìm ra gợi ý phù hợ a ợp. C. Các nghiên cứu liên qua C n an Hiện cũ đã có nhi nghiên cứ về xây dựn hệ thống gợ ý hỗ trợ du lịch, nhưng đa phần là sử dụng phươn ũng iều ứu ng ợi u ử ng pháp lọc theo nội dung (co p o ontent-based filtering) (Ge ediminas Adomavicius and Alexander T d Tuzhilin, 2008 (Francesc 8), co Ricci, 2002), ( R (Linaza et al., 2011). Ngoài ra, cũng đã c nhiều nghiê cứu xây dự hệ thống gợi ý du lịch trên nền thiết b i có ên ựng g bị di động, như tr d rình bày trong (José et al., 2 g 2012), (Damia anos et al., 2014), (Gavalas et al., 2013) ( s (Manuel et al. 2012). ., Ở đây c chúng tôi sẽ đ xuất xây dự hệ thống gợi ý có tích hợp các phươ pháp như xử lý ngữ cản đầu vào, kế đề ựng ơng nh ết hợp với kỹ thu phân rã ma trận (matrix factorization (Koren et al 2009) (Ngu h uật a x n) l., uyễn Thái Ngh 2013), và x lý ngữ cản he, xử nh đầu ra. đ III. PHƯƠ ƠNG PHÁP Đ XUẤT ĐỀ y ng ngữ úng t phương pháp như minh họa trong Hình 2 a 2: Để xây dựng hệ thốn gợi ý theo n cảnh, chú tôi đề xuất kết hợp các p Trước tiên xử lý thông tin n cảnh đầu vào, kế đến dùng kỹ thuật p T ngữ phân rã ma trậ để dự đoán kết quả, sau đó xử lý thôn ận n ng tin ngữ cảnh đ ra. t đầu Hình 2. Qu trình gợi ý th ngữ cảnh uy heo A. Xử lý thông tin ngữ cảnh đầu vào A g h Phương pháp này dù những điều kiện ngữ cảnh hiện tại được cung cấ trực tiếp từ người dùng (sở thích, tâm g ùng c ấp ừ g m trạng,…) hoặc từ môi trườn (thời gian, t t c ng thời tiết, vị trí hiện tại,…) s đó truy vấn tìm kiếm nh sau n, hững nguồn tà nguyên thíc ài ch hợp nhất để đư ra gợi ý. Dữ liệu đầu và là một tập b gồm: ngư dùng, đối t h ưa D ào bao ười tượng, ngữ cả và những đ ảnh đánh giá tươn ng ứng. Sau đó dù điều kiện ngữ cảnh hiệ tại của ngườ dùng cung cấp để lọc ra tập dữ liệu có liên quan đế ngữ cảnh đó ứ ùng n ện ời ó ến ó. Sau khi lọc ta có thể bỏ qu thông tin n cảnh, như vậy bài toán gợi ý đa chiề lúc này trở về dạng bài toán gợi ý ha S a ua ngữ ư n ều ở ai chiều như min họa trong H c nh Hình 3. Từ đâ ta có thể áp dụng bất kỳ phương pháp gợi ý hai ch nào để dự đoán các item ây, p ỳ p hiều ự m cho người dùn Lợi ích củ việc này là có thể tái sử dụng tất cả n c ng. ủa à ử những phương pháp gợi ý hai chiều sau khi chiều ng g u gữ cảnh được thu giảm. c u Hình 3. Sử dụ phương phá Pre-ﬁltering ụng áp Ví dụ: Giả sử ta có tập dữ liệu ngữ cảnh gợi ý d lịch như Bả 1, gồm: n ữ du ảng người dùng (us ser), địa điểm du lịch (item m m), các thông tin n cảnh (thời gian, bạn đồ hành, thời tiết) và đánh giá của người dùng trên địa điểm du lịch tương ứng. c ngữ i ồng i a h Bả 1. Minh hoạ tập dữ liệu du lịch với ngữ cảnh ảng ạ u user 1 1 1 2 2 3 3 4 item 2 5 3 2 1 5 4 3 time Cuối tuần C Cuối tuần C Lễ - tết Ngà trong tuần ày Lễ - tết Lễ - tết Cuối tuần C Lễ - tết Bạn Đồng hành g Bạn b bè Một m mình Gia đì ình Bạn b bè Gia đì ình Gia đì ình Bạn b bè Gia đì ình Thời tiết Trời nắng Trời âm u Trời T trong xan nh Trời nắng Trời T trong xan nh Trời T trong xan nh Trời nắng Trời T trong xan nh ra ate 4 1 5 2 3 4 3 5 488 4 MỘT TIẾP CẬ TRONG XÂY DỰNG HỆ TH ẬN Y HỐNG GỢI Ý TH HEO NGỮ CẢNH H Để gợi ý cho người dùng với các thông tin ngữ cảnh là: (dịp Lễ - tết, đi cù Gia đình, Trời trong xa d ữ ùng anh) ta sử dụn ng phương pháp x lý ngữ cảnh đầu vào để l ra (các dòn được tô đậ tập dữ liệu như trong Bảng 2. p xử h lọc ng ậm) u Bảng 2. Tập dữ liệu sau khi sử dụng Pre-ﬁlteri l ing user item rate e 1 3 5 2 1 3 3 5 4 4 3 5 Như vậ sau khi xử lý xong ta sẽ được một tập dữ liệu hai ch ậy hiều. Lúc này, ta có thể áp dụng các thuậ toán trong h ật hệ thống gợi ý tru t uyền thống để dự đoán xếp hạng và gợi ý cho người dùng. Trong bài viết này, chúng tôi sử d ể p b c dụng một tron ng những phương pháp lọc cộn tác dựa trên mô hình đó là kỹ thuật p n g ng ó phân rã ma trậ (Matrix Fac ận ctorization - M trên tập d MF) dữ liệu đã được x lý ngữ cảnh đầu vào. Kỹ thuật MF có độ tin cậy ca hơn so với các kỹ thuật khác hiện nay (Koren et al xử h ỹ ó ao y l., 2009). 2 B. Kỹ thuật ph rã ma trậ (Matrix Fac B hân ận ctorization - M MF) Kỹ thuậ phân rã ma trận là việc ch một ma trậ lớn X thành hai ma trận có kích thước nhỏ hơn W v H, sao cho ta ật hia ận h c và t có thể xây dựn lại X từ hai ma trận nhỏ h này càng chính xác càng tốt, nghĩa là X ~ WHT, như minh họa tro Hình 4. c ng hơn c g ư ong Hình 4. Minh họa kỹ thuật p h phân rã ma trận K Trong đ W∈ℜ|U|×K là một ma tr mà mỗi dò u là một v đó, rận òng véctơ bao gồm K nhân tố ti m iềm ẩn (latent factors) mô tả t t |I|×K người dùng u; và H∈ℜ n ; ận éctơ bao gồm K nhân tố tiề ẩn mô tả c item i. Gọ m ềm cho ọi là một ma trậ mà mỗi dòng i là một vé wuk và hik là cá phần tử tươ ứng của ha ma trận W và H, khi đó x hạng của người dùng u trên mục tin i được dự đoá ác ơng ai xếp án bởi công thức: b : K ˆ rui = ∑ wuk hik = w.hT (1 1) k =1 Như vậ vấn đề then chốt của kỹ thuật MF là làm thế nào để tìm được giá trị của hai th số W và H Hai tham s ậy, n ể á ham H. số này có được bằ cách tối ư hóa hàm mụ tiêu (object function). Trong RS, hà mục tiêu củ MF hay đượ sử dụng nh n ằng ưu ục tive àm ủa ợc hư sau: s O MF = ∑ u ,i∈D train ˆ ( rui − rui ) 2 = K ⎛ ⎞ ∑train ⎜ rui − ∑ wuk hik ⎟ t k =1 ⎝ ⎠ u ,i∈D 2 (2 2) Một tro những kỹ thuật có thể d ong dùng để tối ưu hóa hàm mục tiêu là dùng S c SGD (Stochas Gradient D stic Descent). Để tố ối ưu hóa hàm m tiêu (2), tr ư mục rước tiên ta kh tạo các gi trị ngẫu nhi cho W và H, sau đó từ bước cập n hởi iá iên à ừng nhật giá trị củ ủa chúng cho đến khi hàm mục tiêu hội tụ v giá trị nhỏ n (converge c n c về nhất ence). Để làm được điều đó ta cần phải x định là nê m ó, xác ên tăng hay nên g t giảm các giá trị của W và H qua mỗi lần cập nhật, do vậ cần phải tìm đạo hàm từn phần của ch ị ậy m ng húng: ∂ ˆ O MF = −2(ruii − rui )hik ∂wuk 3) (3 ∂ MF ˆ O = −2(rui − rui )wuk ∂hik (4 4) Lư Chân Thiện, N L Nguyễn Thái Ngh he 48 89 Sau khi tìm đạo hàm, các phần tử c W và H sẽ được cập nhậ ngược hướn với giá trị củ đạo hàm, qu công thức: i , của ẽ ật ng ủa ua n old wukew = wuk − β ⋅ k ne old hikew = hik − β ⋅ ∂ old ˆ O MF = wuk + 2β ⋅ (rui − rui )hik ∂wuk ∂ MF old ˆ O = hik + 2β ⋅ (rui − rui ) wuk ∂hik 5) (5 (6 6) Trong đ β là tốc độ học (learning rate, 0 < β