intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:66

27
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung chính của đề tài là tìm hiểu mạng xã hội, cấu trúc cộng đồng trên đồ thị mạng xã hội và các phương pháp tìm kiếm cấu trúc cộng đồng mạng xã hội. Nghiên cứu các độ đo trên đồ thị mạng xã hội và tìm hiểu các thuật toán phát hiện cấu trúc cộng đồng trên mạng xã hội. Xây dựng ứng dụng phát hiện cộng đồng mạng xã hội ở tập dữ liệu đã được công bố trên mạng. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội

  1. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG DƯƠNG THỊ TÌNH NGHIÊN CỨU ĐỘ ĐO TRUNG GIAN VÀ THUẬT TOÁN PHÁT HIỆN CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2020
  2. LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu trong luận văn này là do tự bản thân tôi tìm hiểu dưới sự hướng dẫn của PGS. TS. Đoàn Văn Ban. Các chương trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực. Các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc. TÁC GIẢ LUẬN VĂN Dương Thị Tình
  3. LỜI CẢM ƠN Để hoàn thành được luận văn này, tôi đã nhận được rất nhiều sự quan tâm, giúp đỡ và góp ý quý báu của các cá nhân và tập thể. Trước hết tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS. Đoàn Văn Ban đã quan tâm, định hướng và đưa ra những góp ý chỉnh sửa quý báu cho tôi trong quá trình làm luận văn tốt nghiệp. Đồng thời tôi cũng xin chân thành cảm ơn sự góp ý chân thành của các thầy, cô giáo Viện Công nghệ thông tin, các thầy, cô giáo Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên đã tạo mọi điều kiện thuận lợi cho tôi hoàn thành đề tài này. Dù đã rất cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót vì vậy rất mong nhận được sự góp ý của các thầy, cô và các bạn để luận văn này được hoàn thiện hơn. Tôi xin chân thành cảm ơn! Thái Nguyên, tháng 08 năm 2020 Dương Thị Tình
  4. MỤC LỤC Trang MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG 1 MẠNG XÃ HỘI VÀ CÁC ĐỘ ĐO TRÊN ĐỒ THỊ MẠNG XÃ HỘI ............................................................................................................ 4 1.1. MẠNG XÃ HỘI ......................................................................................... 4 1.2. CẤU TRÚC CỘNG ĐỒNG MẠNG XÃ HỘI ...................................................... 8 1.3. CÁC ĐỘ ĐO TRÊN ĐỒ THỊ MẠNG XÃ HỘI .................................................. 11 1.3.1. Hệ số cố kết của mạng .................................................................. 12 1.3.2. Hệ số trung tâm vector đặc trưng .................................................. 13 1.3.3. Độ đo trung tâm của đỉnh .............................................................. 14 1.3.4. Hệ số trung gian của đỉnh ............................................................. 18 1.3.5. Độ đo trung gian của cạnh ............................................................ 20 1.4. THUẬT TOÁN TÍNH ĐỘ TRUNG GIAN ....................................................... 22 1.5. KẾT LUẬN CHƯƠNG ............................................................................... 26 CHƯƠNG 2 THUẬT TOÁN PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI ......................................................................................................................... 27 2.1. BÀI TOÁN PHÁT HIỆN CỘNG ĐỒNG TRÊN ĐỒ THỊ MẠNG XÃ HỘI ............... 27 2.2. THUẬT TOÁN PHÂN CỤM PHÂN CẤP........................................................ 28 2.3. THUẬT TOÁN PHÁT HIỆN CỘNG ĐỒNG DỰA TRÊN TỐI ƯU HOÁ ĐỘ ĐO ĐƠN THỂ ............................................................................................................... 30 2.4. THUẬT TOÁN PHÁT HIỆN CỘNG ĐỒNG DỰA VÀO ĐỘ ĐO TRUNG GIAN ...... 30 2.5. PHÁT HIỆN CÁC CỘNG ĐỒNG GỐI NHAU .................................................. 33 2.5.1. Phát hiện các k-cliques trong mạng xã hội ................................... 34 2.5.2. Thuật toán phát hiện k-clique........................................................ 36 2.5.3. Thuật toán EAGLE ....................................................................... 38 2.5.4. Đánh giá thuật toán ....................................................................... 43 2.6. KẾT LUẬN CHƯƠNG 2............................................................................. 44 CHƯƠNG 3 ỨNG DỤNG THUẬT TOÁN GIRVAN-NEWMAN TRONG PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI .......................................... 45
  5. 3.1. MÔ TẢ BÀI TOÁN PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI ........................ 45 3.2. CHƯƠNG TRÌNH PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI .......................... 45 3.2.1. Bộ cơ sở dữ liệu ............................................................................ 45 3.2.2. Môi trường thử nghiệm ................................................................. 47 3.2.3. Thử nghiệm và đánh giá................................................................ 49 3.3. KẾT LUẬN CHƯƠNG 3............................................................................. 54 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................... 55 TÀI LIỆU THAM KHẢO ............................................................................ 56
  6. DANH MỤC CÁC HÌNH VẼ Hình 1.1. Mạng xã hội Facebook ...................................................................... 7 Hình 1.2. Mạng xã hội Zing me ........................................................................ 7 Hình 1.3. Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI 9 Hình 1.4. Đồ thị có 4 đỉnh và 5 cạnh .............................................................. 15 Hình 1.5. Những đồ thị hình sao, bánh xe có số đỉnh 3, 4, 5, 6, 7 .................. 17 Hình 1.6. Đồ thị mạng xã hội đơn giản gồm 7 nút ......................................... 21 Hình 2.1. Phát hiện cộng đồng mạng sử dụng Girven-Newman .................... 32 Hình 2.2. Ví dụ 1-clique, 2-clique và 3-clique................................................ 35 Hình 2.3. 2-cliques, 2-clan và 2-club .............................................................. 36 Hình 2.4. (a), (b). Mạng ban đầu ..................................................................... 40 Hình 2.5. (c). Các cộng đồng được phát hiện bởi thuận toán của Newman ... 41 Hình 2.6.(d). Các cộng đồng được phát hiện bởi thuật toán k-clique ............. 41 Hình 2.7.(e). Các cộng đồng thể hiện sự chồng chéo và phân cấp rõ ràng được phát hiện bởi thuật toán EAGLE ..................................................................... 42 Hình 3.1. Mô phỏng số cộng đồng tìm được trong đồ thị simple_network.... 49 Hình 3.2. Mô phỏng số cộng đồng tìm được trong bộ dữ liệu dolphin. ......... 50 Hình 3.3. Mô phỏng số cộng đồng tìm được trong bộ dữ liệu karate. ............ 50 Hình 3.4. Mô phỏng số cộng đồng tìm được trong bộ dữ liệu football. ......... 51 Hình 3.5. Mô phỏng kết quả tìm kiếm cộng đồng trên bộ dữ liệu amazon_small ......................................................................................................................... 51
  7. DANH MỤC CÁC BẢNG Bảng 3.1. Mô tả chi tiết về các bộ dữ liệu được sử dụng trong phát hiện cộng đồng mạng ....................................................................................................... 47 Bảng 3.2. Thông tin phần cứng được sử dụng ................................................ 48 Bảng 3.3. Bảng tổng hợp kết quả của 2 thuật toán Girvan-Newman và k-cliques trên các bộ dữ liệu khác nhau .......................................................................... 53
  8. 1 MỞ ĐẦU 1. Lý do chọn đề tài Sự phát triển vượt bậc của công nghệ thông tin làm cho lượng thông tin được lưu trữ trên các thiết bị nhớ không ngừng tăng lên. Những đồ thị lớn và mạng (networks) là những mô hình toán học tự nhiên cho những đối tượng tương tác với nhau như mối quan hệ giữa con người trong mạng xã hội, các cấu trúc phân tử trong mạng sinh học, mạng biểu diễn gene, ... Trong thực tế, cỡ của các mạng như thế khá lớn mà khả năng phân tích, khai thác các tính chất của chúng lại rất hạn chế. Mặt khác, xu thế phát triển công nghệ và ngày càng xuất hiện nhiều loại hình truyền thông mạng xã hội dẫn đến sự thay đổi về hành vi của con người trong xã hội và hình thành những cộng đồng trực tuyến. Hành vi con người thay đổi dẫn đến nhiều hình thức kinh doanh, tiếp thị, dịch vụ và kể cả trong lĩnh vực giáo dục, an ninh, chính trị cũng thay đổi theo từ cách tiếp cận cho đến việc quản lý người dùng. Sự phát triển nhanh chóng của các mạng xã hội kéo theo sự bùng nổ dữ liệu trên mạng xã hội. Đây là một nguồn thông tin hết sức hữu ích, liên tục được cập nhật. Một đặc trưng bản chất của mạng xã hội là tính cộng đồng. Mạng xã hội và bài toán phát hiện cộng đồng mạng xã hội là nội dung nghiên cứu mang tính thời sự, là nhu cầu bức thiết trong thời điểm hiện nay và nó đang thu hút được rất nhiều sự quan tâm của các nhà khoa học thuộc các lĩnh vực khác nhau như xã hội học, khoa học máy tính, kinh tế, sinh học, … Do đó, việc đánh giá một sự vật, hiện tượng theo từng cộng đồng có ý nghĩa to lớn trong việc xác định mối quan tâm của từng nhóm đối tượng. Vì em quyết định lựa chọn đề tài “Nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội” để nghiên cứu làm luận văn thạc sĩ của mình.
  9. 2 2. Mục đích nghiên cứu Những mục tiêu nghiên cứu của luận văn: - Tìm hiểu mạng xã hội, cấu trúc cộng đồng trên đồ thị mạng xã hội và các phương pháp tìm kiếm cấu trúc cộng đồng mạng xã hội - Nghiên cứu các độ đo trên đồ thị mạng xã hội và tìm hiểu các thuật toán phát hiện cấu trúc cộng đồng trên mạng xã hội - Xây dựng ứng dụng phát hiện cộng đồng mạng xã hội ở tập dữ liệu đã được công bố trên mạng. 3. Đối tượng nghiên cứu - Lý thuyết đồ thị - Mạng xã hội và mô hình cộng đồng mạng xã hội - Thuật toán Girvan-Newman phát hiện cộng đồng mạng 4. Phạm vi nghiên cứu + Lý thuyết: - Kỹ thuật khai phá dữ liệu đồ thị, - Các thuật toán phát hiện cấu trúc cộng đồng của mạng xã hội. + Thực nghiệm: - Thực nghiệm chương trình phát hiện cộng đồng mạng dựa trên họ các thuật toán Girvan-Newman và k-cliques - Áp dụng chương trình để phát hiện cộng đồng mạng trên một số bộ dữ liệu mạng xã hội trực tuyến. 5. Ý nghĩa khoa học
  10. 3 Đây là một hướng nghiên cứu lý thuyết và ứng dụng về phân tích và phát hiện cộng động mạng xã hội. 6. Phương pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết: Sưu tập các tài liệu có liên quan đến đề tài, nghiên cứu để hiểu sâu các nội dung vấn đề cần nghiên cứu. - Phương pháp nghiên cứu thực nghiệm: Cài đặt thử nghiệm kiểm thử chương trình - Phương pháp trao đổi khoa học: Trao đổi nội dung nghiên cứu với giáo viên hướng dẫn, với các đồng nghiệp để đề xuất và giải quyết các nội dung luận văn đề ra. 7. Cấu trúc đề tài Luận văn được chia thành các phần chính như sau: Chương 1: Mạng xã hội và các độ đo trên đồ thị mạng xã. Chương 2: Thuật toán xác định cấu trúc cộng đồng mạng. Chương 3: Ứng dụng thuật toán GN trong phát hiện cộng đồng mạng xã hội Kết luận và hướng phát triển
  11. 4 CHƯƠNG 1 MẠNG XÃ HỘI VÀ CÁC ĐỘ ĐO TRÊN ĐỒ THỊ MẠNG XÃ HỘI Mạng xã hội là một tập hợp các thực thể được kết nối với nhau thông qua các mối quan hệ, mối liên kết, ... Phân tích mạng xã hội là xem xét các mối quan hệ xã hội dựa vào lý thuyết đồ thị bao gồm các đỉnh và các cạnh (còn được gọi là các liên kết hoặc kết nối). Các đỉnh được xem là những cộng đồng riêng lẻ trên mạng, và các cạnh là các mối quan hệ giữa các cộng đồng. Cộng đồng mạng xã hội là một tập hợp các cá nhân (tác nhân, thực thể) tương tác với nhau thông qua các phương tiện truyền thông cụ thể, có khả năng vượt qua những ranh giới địa lý và chính trị để theo đuổi lợi ích hay mục tiêu chung. Chương này giới thiệu khái quát về mạng xã hội và các độ đo phúc vụ cho phân tích, phát hiện cộng đồng trên đồ thị mạng xã hội. 1.1. Mạng xã hội Mạng xã hội là một cấu trúc xã hội xã hội được tạo ra từ các thực thể, tác nhân (actor) hoặc các tổ chức được liên kết, kết nối bởi một hoặc nhiều quan hệ với nhau [3], [4], [27]. Theo Fortunato và các cộng sự [25] mạng xã hội là một tập hợp các thực thể được kết nối với nhau bằng một tập hợp các mối quan hệ, liên kết, như quan hệ bạn bè, gia đình, cộng sự hay trao đổi thông tin,… Các mối quan hệ giữa các thực thể có thể mang nhiều nội dung khác nhau từ sự tương trợ, trao đổi thông tin cho đến việc trao đổi hàng hóa, các dịch vụ, … Mạng cung cấp nhiều cách khác nhau để các tổ chức thu thập thông tin, cạnh tranh với nhau trong việc thiết lập giá kinh doanh hoặc chính sách, … Mạng xã hội thường có những đặc tính như sau [11], [25], [26]:  Dựa vào người dùng (User-based): Trước khi các mạng xã hội như Facebook hoặc MySpace trở thành chuẩn mực, các trang web dựa trên nội dung được cập nhật bởi người dùng và được các khách truy cập Internet
  12. 5 để đọc, tham khảo thông tin. Không có người dùng, mạng sẽ là một không gian trống chứa đầy các diễn đàn, ứng dụng và phòng trò chuyện trống. Hướng của nội dung đó được xác định bởi bất kỳ ai tham gia vào cuộc thảo luận. Đây là những gì làm cho các mạng xã hội trở nên thú vị và năng động hơn nhiều đối với người dùng Internet thông thường.  Tương tác (Interactive): Một đặc điểm khác của các mạng xã hội hiện đại là các thực thể thường xuyên tương tác thông qua các mối liên kết. Điều này có nghĩa là một mạng xã hội không chỉ là một bộ sưu tập các phòng chat, diễn đàn, …, các trang web như Facebook còn chứa đầy các ứng dụng chơi trò chơi, quảng cáo, bán hàng online, phổ biến tin tức, … Các mạng xã hội trở thành trò tiêu khiển mà nhiều người dùng lựa chọn nhiều hơn trên truyền hình bởi vì nó không chỉ là giải trí, học tập, trao đổi công việc và đó còn là cách thức để mọi người kết nối, tương tác với nhau.  Hướng đến cộng đồng (Community-driven): Mạng xã hội được xây dựng và phát triển từ các khái niệm về cộng đồng. Điều này có nghĩa là giống như các cộng đồng hoặc các nhóm xã hội trên toàn thế giới được thành lập dựa trên thực tế là các thành viên có niềm tin hoặc sở thích chung, có chung điểm chung, ...  Các mối quan hệ (Relationships): Không giống như các trang web trong quá khứ, các mạng xã hội phát triển mạnh về các mối quan hệ. Càng có nhiều mối quan hệ trong mạng, các thực thể càng thiết lập được vai trò trung tâm của mạng đó. Tồn tại tính địa phương, mối quan hệ giữa các thực thể có xu hướng tạo thành các cụm (cộng đồng). Đồng thời tạo môi trường cho việc tương tác và chia sẻ thông tin giữa các thành viên trong mạng như người thân, đồng nghiệp, gia đình, bạn bè, người hâm mộ, …  Cảm xúc về nội dung (Emotion over content): Một đặc điểm độc đáo khác của mạng xã hội là yếu tố cảm xúc. Mặc dù các trang web trong quá khứ
  13. 6 tập trung chủ yếu vào việc cung cấp thông tin cho khách truy cập, nhưng mạng xã hội ngày nay thực sự mang đến cho người dùng sự an toàn về mặt cảm xúc và cảm giác rằng dù có chuyện gì xảy ra, bạn bè của họ vẫn ở trong tầm kiểm soát. Trong mạng có nhiều kiểu liên kết như liên kết vô hướng, liên kết một chiều, liên kết hai chiều, … Ta có thể biểu diễn mạng mạng xã hội bằng một đồ thị (được gọi là đồ thị mạng xã hội) mà các thực thể được biểu diễn bởi các đỉnh, còn các liên kết được biểu diễn bởi các cạnh. Trong đó với hai đỉnh A và B có cạnh nối với nhau là thể hiện mối quan hệ giữa chúng. Ngoài ra, các liên kết này còn có thể đánh trọng số để biểu diễn độ mạnh yếu của mối liên kết. Mạng xã hội phát triển rất nhanh chóng, với số lượng người tham gia và mối quan hệ với nhau rất lớn đòi hỏi phải có những phương pháp nghiên cứu phù hợp về mạng xã hội. Ví dụ 1.1. Mạng xã hội Facebook là mạng xã hội được coi là phổ biến nhất hiện nay, Facebook là mạng xã hội miễn phí do công ty Facebook Inc điều hành. Người sử dụng có thể tham gia các mạng lưới được tổ chức theo thành phố, nơi làm việc, trường học và khu vực để liên kết và giao tiếp với người khác trên thế giới. mọi người đều có thể kết bạn và gửi tin nhắn cho nhau, và cập nhật thông tin của mình cho bạn bè biết. Tên của Facebook nhắc tới những cuốn sổ lưu niệm dùng để ghi tên những thành viên của cộng đồng campus mà một số trường đại học và cao đẳng tại Mỹ đưa cho các sinh viên mới vào trường, phòng ban, và nhân viên để có thể làm quen với nhau trong khuôn viên trường.
  14. 7 Hình 1.1. Mạng xã hội Facebook Zing me là một trong những mạng xã hội phố biến hiện nay tại Việt Nam, nó có khả năng kết nối người dùng trên phạm vi rộng lớn, đồng thời khi sử dụng bạn có thể tham gia các trò chơi, tiện ích, tính năng kết nối cộng đồng mà ứng dụng đang sở hữu. Ngoài ra ở Việt Nam còn có thể kể đến mạng xã hội Zalo. Hình 1.2. Mạng xã hội Zing me
  15. 8 Trên mạng, một số đỉnh có liên kết chặt chẽ với nhau tạo thành từng cụm, và giữa các cụm đó được nối với nhau chỉ bằng một vài cạnh khác. Tính chất đó của các mạng trên thực tế được gọi là tính cộng đồng (community) [1], [9]. Đây là một tính chất quan trọng của mạng xã hội và đang ngày càng được nhiều người quan tâm nghiên cứu, phân tích cấu trúc cộng đồng của mạng xã hội bởi tần quan trọng của chúng. Khả năng phát hiện và phân tích các cộng đồng sẽ cung cấp cho chúng ta những sự giúp đỡ vô giá để hiểu biết và hình dung được những cấu trúc, tính chất đặc trưng của mạng xã hội. 1.2. Cấu trúc cộng đồng mạng xã hội Cấu trúc cộng đồng mạng xã hội (Community social structure) gọi tắt là cộng đồng mạng xã hội là một tập hợp các tác nhân tương tác thông qua các phương tiện truyền thông cụ thể, có khả năng vượt qua những ranh giới địa lý và chính trị để theo đuổi lợi ích hay mục tiêu chung. Cộng đồng là một nhóm các thực thể có những tính chất tương tự nhau, liên kết chặt chẽ với nhau hơn và cùng đóng một vai trò nhất định trong mạng xã hội. Một cộng đồng được mô tả như một nhóm các đỉnh (đồ thị con) cùng chia sẻ các thuộc tính chung hoặc đóng vai trò tương tự trong một mạng. Một cộng đồng có thể được định nghĩa là một tập hợp các đỉnh có mật độ liên kết giữa các đỉnh cao và mật độ liên kết thấp với phần còn lại của mạng. Nói một cách khác một cộng đồng được tạo ra bởi một tập hợp các tác nhân có tương tác thường xuyên với nhau hơn so với cá nhân khác ngoài cộng đồng. Do vậy, nó thường là một tập hợp như: bạn bè, đồng nghiệp, nhóm những người có cùng sở thích, cùng chuyên môn, mối quan tâm, … [1], [3], [9], [14], [26], ... Ví dụ 1.2. Hình 1.3. hiển thị các thành phần kết nối lớn nhất trong mạng lưới các cộng tác nghiên cứu của các nhà khoa học làm việc tại Viện Santa Fe (SFI). Đồ
  16. 9 thị bao gồm 118 đỉnh đại diện cho các nhà khoa học làm việc tại SFI và các cộng tác viên của họ. Các cạnh được liên kết giữa các nhà khoa học khi họ đã công bố cùng với nhau ít nhất một bài báo. Ở mạng này ta quan sát được một số cộng đồng, mỗi cộng đồng biểu hiện cho những tác giả đã cùng nhau công bố một hay nhiều bài báo khoa học. Mặt khác ta cũng thấy giữa các cộng đồng trong mạng trên chỉ có một số ít mối liên kết. Các đỉnh cùng màu là cùng một cộng đồng theo các lĩnh vực nghiên cứu của SFI. Hình 1.3. Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI Trong mạng xã hội, việc trích xuất, phát hiện được những cấu trúc cộng đồng là rất hữu ích vì nó giúp chúng ta nghiên cứu được cấu trúc tổng thể của mạng. Khái niệm của khám phá, phát hiện cộng đồng tương tự như phân vùng (phân cụm) đồ thị nhưng có một số khác biệt như trong phân vùng đồ thị, số lượng nhóm và kích thước của chúng đã được biết trước, nhưng trong trường hợp phát hiện ra cộng đồng, chúng ta không biết về số lượng cộng đồng trong mạng và cộng đồng cũng có thể không cùng kích cỡ với nhau.
  17. 10 Một số ứng dụng chính của bài toán phát hiện cộng đồng mạng xã hội [1], [3], [4] , [14], [25] là: - Phát hiện cộng đồng có thể được sử dụng trong tư vấn thông tin và xác định được những cộng đồng có cùng một số quan tâm, sở thích tương tự. - Cộng đồng cũng sẽ giúp chúng ta hiểu cấu trúc của mạng xã hội, làm rõ các thuộc tính và chức năng của mạng. - Phát hiện các cộng đồng để hiểu hành vi của mạng xã hội trong quy mô lớn vì nó sẽ làm rõ các quá trình chia sẻ thông tin và truyền bá thông tin. - Các phương pháp phát hiện cộng đồng có lợi thế lớn trong việc định tuyến nhận thức trong xã hội và ngăn chặn thông tin độc hại trên mạng xã hội. - Các cộng đồng trong mạng sinh học giúp chúng ta hiểu các cơ chế cơ bản kiểm soát các quá trình thay đổi của các tế bào. - Trong các cộng đồng mạng của các khách hàng có cùng sở thích có thể được sử dụng để tạo ra hệ thống tư vấn thông tin để nâng cao hiệu quả của sản xuất, kinh doanh. - Có thể dễ dàng hiểu được các cấu trúc của các đồ thị phức tạp với sự trợ giúp của các cộng đồng được phát hiện. - Mạng xã hội loài người thể hiện cấu trúc cộng đồng mạnh mẽ. Một mạng lưới có cấu trúc cộng đồng mạnh bao gồm các cộng đồng, các cộng đồng này có nhiều kết nối trong đó và ít kết nối giữa các cộng đồng. Cấu trúc cộng đồng không chỉ ảnh hưởng đến sự lây lan của bệnh truyền nhiễm trong cộng đồng nhưng cũng bảo vệ mạng khỏi dịch bệnh quy mô lớn. - Trong hệ sinh học và hệ chăm sóc sức khỏe, có nhiều thuật toán phát hiện cộng đồng được phát triển cho các mạng xã hội cũng có thể được mở rộng thành công cho các mạng sinh học. Ví dụ phát hiện cộng đồng
  18. 11 được sử dụng trong Calderone để so sánh các mạng tương tác Alzheimer và Parkinson. 1.3. Các độ đo trên đồ thị mạng xã hội Theo quan điểm cấu trúc, chúng ta có thể mô hình hóa các mối quan hệ trong mạng xã hội như là đồ thị vô hướng G = (V, E), với V là tập các đỉnh và E là tập các cạnh, được gọi là đồ thị mạng xã hội. Tập V biểu diễn cho các thành viên (tác nhân) của mạng xã hội, còn E thể hiện mối quan hệ xã hội giữa các thành viên với nhau. Dựa vào lý thuyết đồ thị, cấu trúc mạng xã hội cũng có thể được biểu diễn thông qua ma trận liền kề A = (Aij) ∈ {0, 1}n×n, với n = |V| và Aij = 1 nếu hai đỉnh i và j có cạnh nối giữa chúng (có liên kết - quan hệ trực tiếp với nhau), ngược lại Aij = 0. Để áp dụng được kỹ thuật khai phá dữ liệu trong phân tích mạng xã hội và phát hiện cộng đồng thì trước tiên phải định nghĩa được độ đo khoảng cách (distance measure) giữa các đỉnh, cạnh của đồ thị. Khi các cạnh của đồ thị được gắn nhãn thì các nhãn này có thể được sử dụng như là độ đo khoảng cách, tùy thuộc vào những gì mà chúng đại diện. Nhưng khi các cạnh không có nhãn, như đồ thị “bạn bè” thì cần phải định nghĩa độ đo khoảng cách giữa các đỉnh. Giả thiết mạng xã hội được biểu diễn bởi một đồ thị G = (V, E), trong đó V là tập các đỉnh, E là tập các cạnh. Trước tiên ta quy ước, những đỉnh gần nhau (closed) nếu chúng có cạnh nối trực tiếp giữa chúng, ngược lại là những đỉnh xa nhau (distant). Khoảng cách giữa đỉnh x và y  V, ký hiệu là d(x, y), có thể định nghĩa d(x, y) theo hai cách:  d(x, y) = 0 nếu (x, y)  E, ngược lại là d(x, y) = 1.  Hoặc d(x, y) = 1 nếu có cạnh nối giữa chúng, và bằng  khi chúng xa nhau, không có cạnh nối giữa chúng.
  19. 12 Tuy nhiên, cả hai trường hợp trên đều không phải là định nghĩa độ đo khoảng cách thực sự (metric), bởi chúng không thỏa mãn bất đẳng thức tam giác. Dễ nhận thấy, nếu có cạnh nối A với B và cạnh nối B với C, thì không có gì đảm bảo có cạnh nối A với C. Có nhiều độ đo (measures) khác nhau được sử dụng để phân loại, phân tích, đánh giá đồ thị mạng xã hội. Chúng thường được sử dụng bởi các nhà nghiên cứu và người dùng thương mại để phân tích các đặc điểm của mạng xã hội được xem xét. Các phép đo quan trọng nhất được xác định phần lớn đều dựa trên lý thuyết đồ thị. Tasleem Arif [4] sử dụng các hệ số cố kết mạng và hệ số trung tâm vector đặc trưng [24] để phân tích, đánh giá mạng xã hội. Freeman [12] đề xuất một tập các độ đo (Measures) xác định độ trung tâm của các đỉnh, cạnh trên đồ thị, như hệ số trung tâm trực tiếp theo bậc của đỉnh, hệ trung tâm lân cận và độ trung gian (Betweenness) và được sử dụng nhiều trong phân tích mạng xã hội và phát hiện các cộng đồng. 1.3.1. Hệ số cố kết của mạng Trong phân tích mạng xã hội có rất nhiều hệ số để so sánh các mạng xã hội với nhau, một trong những hệ số quan trọng nhất đó là hệ số cố kết (Density, Cohesion) [4]. Khi hệ số cố kết của mạng càng lớn, mức độ gắn kết, sự chặt chẽ của các mối quan hệ giữa các thực thể (tác nhân) trong mạng càng lớn, và do đó, sự tương trợ, hỗ trợ, … giữa các tác nhân cũng càng nhiều, càng hiệu quả hơn, sự điều tiết của mạng đối với hành vi của tác nhân cũng cũng mạnh mẽ hơn và ngược lại. Một cách tổng quát, tính cố kết của mạng lưới là tỷ lệ giữa tổng các mối liên hệ thực tế trong mạng và tổng các mối quan hệ lý thuyết của nó (tức là tổng các mối quan hệ có thể có của mạng). Hệ số cố kết của đồ thị G, được tính như sau: 2𝑘 𝐷𝐺 = (1.1) 𝑛 (𝑛−1)
  20. 13 Trong đó, k là tổng các mối liên hệ thực tế của mạng, k = |E| và n = |V|. Giá trị của hệ số này chạy từ 0.00 - 1.00. Càng gần tới giá trị 1.00 thì tính cố kết của mạng lưới càng mạnh và do đó sự tương trợ, sự trao đổi thông tin, … giữa các thành viên trong mạng được diễn ra càng tốt và ngược lại. Theo Scott [27], hệ số cố kết của mạng lưới phụ thuộc vào số lượng tác nhân của nó, tức là khi càng có nhiều tác nhân thì hệ số cố kết của nó càng nhỏ và ngược lại. Đối với những đồ thị đầy đủ (clique) thì hệ số cố kết là tuyệt đối, tức là DG = 1.00. 1.3.2. Hệ số trung tâm vector đặc trưng Dựa trên ý tưởng là những tác nhân có vị trí trung tâm, có tầm ảnh hưởng hay nổi tiếng trên mạng là những tác nhân có quan hệ với nhiều tác nhân mà bản thân những tác nhân đó cũng là tác nhân trung tâm (có tầm ảnh hưởng hay nổi tiếng). Do vậy, độ trung tâm không chỉ phụ thuộc vào số các đỉnh liền kề mà còn phụ thuộc vào độ trung tâm của những đỉnh liền kề với những đỉnh đó. Độ trung tâm hay vị thế (status) của đỉnh thường xác định tổng quát theo quan hệ đệ quy (recursively related) theo các độ trung tâm hoặc vị thế mà chúng có mối liên kết (trực tiếp hoặc gián tiếp) với nhau. Độ đo đó được gọi là độ trung tâm vector đặc trưng (Eigenvector centrality) [24]. Giả thiết A = (Aij) là ma trận liền kề không âm của đồ thị có hướng G = (V, E). Độ trung tâm vector đặc trưng xi của đỉnh i được định nghĩa như sau: xi = Ai1x1 + Ai2x2 + … + Ainxn, i = 1, 2, …, |V| = n (1.2) Độ trung tâm của mỗi đỉnh xi là một hàm của những đỉnh có liên kết với đỉnh đó. Tập các phương trình (1.2) được thể hiện theo ma trận (AT là ma trận chuyển vị của A) là: AT x = x (1.3)
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2