Một ước lượng tương quan giữa hành vi và quan tâm của người dùng trên mạng xã hội

Tóm tắt: Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng, . Trong bài báo này, chúng tôi đề xuất một mô hình phân tích một số hành vi của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực. Kết quả thực nghiệm cho thấy nếu hai người dùng có nhiều hành vi giống nhau thì sẽ có quan tâm tương tự nhau.

pdf8 trang | Chia sẻ: thanhle95 | Lượt xem: 586 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Một ước lượng tương quan giữa hành vi và quan tâm của người dùng trên mạng xã hội, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Thị Hội, Trần Đình Quế Tác giả liên hệ: Nguyễn Thị Hội Email: hoint2002@gmail.com Đến toàn soạn: 5/2018 , chỉnh sửa: 7/2018 , chấp nhận đăng: 8/2018 MỘT ƯỚC LƯỢNG TƯƠNG QUAN GIỮA HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI Nguyễn Thị Hội*, Trần Đình Quế+ * Trường Đại học Thương Mại +Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng, ... Trong bài báo này, chúng tôi đề xuất một mô hình phân tích một số hành vi của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực. Kết quả thực nghiệm cho thấy nếu hai người dùng có nhiều hành vi giống nhau thì sẽ có quan tâm tương tự nhau. Từ khóa: Mạng xã hội, hành vi người dùng, quan tâm của người dùng, độ đo tương tự I. MỞ ĐẦU Theo từ điển Tiếng Việt [18] thì quan tâm là sự chú ý và để tâm một cách thường xuyên đến chủ đề nào đó, các chủ đề quan tâm của người dùng trên các mạng xã hội thường rất đa dạng và không dễ dàng để xếp vào một lĩnh vực nào đó: Chẳng hạn như một người dùng thường xuyên chia sẻ các bài viết về lịch trình các trận tennis, tham gia vào nhóm cổ động viên của Man U, thường xuyên thích hoặc bình luận hình ảnh các vận động viên có thể xem người dùng đó quan tâm đến chủ đề thể thao, hoặc một người dùng thường xuyên chú ý đến các bộ phim bom tấn, tham gia nhóm hâm mộ một ca sĩ, diễn viên nào đó, thường xuyên theo dõi lịch chiếu và các sự kiện bên lề của các liên hoan phim, có thể xem người dùng đó quan tâm đến chủ đề phim ảnh, giải trí Như vậy, có thể nói rằng, quan tâm của người dùng trên các mạng xã hội là sự để tâm và chú ý thường xuyên đến một hoặc một số chủ đề nào đó trên các mạng xã hội. Cũng theo từ điển Tiếng Việt [18], hành vi là toàn bộ những phản ứng, cách cư xử ra bên ngoài của một người trong một hoàn cảnh cụ thể. Còn theo từ điển Wikipedia [19] thì hành vi là một chuỗi các hành động lặp đi lặp lại. Hành động là toàn thể những hoạt động (phản ứng, cách ứng xử) của cơ thể, có mục đích cụ thể là nhằm đáp ứng lại kích thích ngoại giới, là hành động hoặc phản ứng của đối tượng (khách thể) hoặc sinh vật, thường sử dụng trong sự tác động đến môi trường, xã hội. Hành vi có thể thuộc về ý thức, tiềm thức, công khai hay bí mật, có thể tự giác hoặc không tự giác. Hành vi là một giá trị có thể thay đổi qua thời gian. Hiện nay, với sự lớn mạnh và ảnh hưởng sâu rộng của các mạng xã hội, các nghiên cứu về quan tâm của người dùng trên các mạng xã hội không những được rất nhiều cá nhân, tổ chức chú ý mà chúng còn có rất nhiều ứng dụng trong các dịch vụ trực tuyến như các hệ thống khuyến nghị người dùng, các chiến lược quảng cáo sản phẩm, các chương trình giới thiệu dịch vụ cho người dùngQuan tâm của người dùng trên các mạng xã hội là một hướng được rất nhiều nhà nghiên cứu phân tích và đưa ra nhiều cách thức để thu được các kết quả nghiên cứu khác nhau. Theo khảo sát của chúng tôi, có một số cách phát hiện quan tâm người dùng phổ biến dùng trên các phương tiện truyền thông như: trích xuất thông tin từ thông tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ các liên kết của người dùng đến các người dùng khác (follows, link) [2, 7, 12]; trích xuất hành vi đánh dấu, đăng bài (tag, post)của người dùng [9, 10, 12, 13] Tuy nhiên, hiện nay các thông tin cá nhân của người dùng trên các mạng xã hội rất khó thu thập do yêu cầu bảo mật người dùng hoặc người dùng cũng thường xuyên không cung cấp đầy đủ thông tin. Thêm nữa, các thông tin của người dùng thường quá ít, quá rời rạc cũng là một trở ngại trong nghiên cứu về quan tâm của người dùng trên các mạng xã hội, vì vậy, các nghiên cứu về quan tâm của người dùng trên các mạng xã hội những năm gần đây thường đi theo hai hướng tiếp cận chính: một là phân tích về các kết nối, quan hệ bạn bè, những danh sách những người được theo dõi, các đánh dấu của người dùng trên các mạng xã hội như [2, 7, 8]; hai là phân tích các bài đăng (status) và các thuộc tính liên quan đến các bài đăng của người SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 9 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI dùng trên các mạng xã hội [7, 9, 11, 12]. Các nghiên cứu này chủ yếu đi sâu vào vấn đề xác định hoặc phát hiện quan tâm của từng cá nhân người dùng, chưa chú ý nghiên cứu nhiều về mối liên quan giữa những người dùng trên các mạng xã hội Bài báo của chúng tôi dựa trên kết quả nghiên cứu đã có về mô hình hành vi của người dùng để ước lượng quan tâm tương tự của các người dùng trên mạng xã hội Phần còn lại của bài báo được tổ chức như sau: Phần 2 là giới thiệu về mô hình bài viết và ước lượng độ tương tự giữa các bài viết; Phần 3 giới thiệu về hành vi và ước lượng độ tương tự hành vi; Phần 4 là ước lượng quan tâm tương tự của người dùng và phần 5 là phần thực nghiệm và đánh giá; II. MÔ HÌNH BÀI VIẾT VÀ ĐỘ TƯƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN MẠNG XÃ HỘI A. Mô hình bài viết của người dùng Trên một mạng xã hội, có một tập những người dùng, mỗi người dùng có thể có một hoặc một số bài viết, một bài viết trên một mạng xã hội có thể là một video clip, một hoặc một số bức ảnh, một văn bản, hoặc một sự kết hợp những thành phần này. Các bài viết trên mạng xã hội thường chia thành hai nhóm: Nhóm thứ nhất là bài viết của người dùng tự viết sau đó đăng lên tường của mình, có thể đánh dấu vị trí, và đánh dấu những người liên quan, đánh dấu cảm xúc Nhóm thứ hai là bài viết bao gồm nội dung của người viết tự viết và một nội dung được chia sẻ có thể bài viết của chính họ hoặc của người dùng khác, có thể chia sẻ từ mạng xã hội hiện tại hoặc từ một mạng xã hội khác, hoặc chia sẻ từ một phương tiện truyền thông xã hội khác nữa. Bài báo chỉ quan tâm đến phần chứa văn bản (text) và đánh dấu (tag) hoặc biểu tượng cảm xúc (emotion icon) của bài viết còn các hình ảnh, các video, các âm thaanh sẽ không được xem xét trong bài báo này. Vì vậy trong bài báo, một bài viết được mô tả bởi các đặc tính của chúng, bao gồm: tiêu đề (caption), thể loại (category), các đánh dấu (tags), nội dung (content), cảm xúc (emotion), quan điểm (sentiment), B. Độ tương tự các bài viết trên các mạng xã hội Khi đăng một bài viết trên mạng xã hội người dùng phần nào đã thể hiện thái độ và sự chú ý của mình về một chủ đề nào đó thông qua bài viết, vì vậy, để ước lượng độ tương tự các bài viết đã đăng của người dùng, bài báo xem xét độ tương tự giữa các thành phần đã đăng của người dùng và xây dựng bộ từ khóa tương ứng. Cách thức xây dựng bộ từ khóa dựa trên nghiên cứu trong [10] của nhóm tác giả, sau đó được tính toán và ước lượng dựa trên TF-IDF của các từ khóa của mỗi bài viết Khoảng cách cosine được sử dụng để tính độ tương tự giữa hai đối tượng, bài báo cũng sử dụng kỹ thuật N-gram được giới thiệu bởi W.B. Cavnar và J.M. Trenkle [16] để xây dựng các tập từ khóa và kế thừa và mở rộng thuật toán đề xuất bởi S.A.Takale và S.S Nandgaonkar [14] cho từng từ Tiếng Anh để xây dựng và phân tích các N-gram áp dụng cho ngôn ngữ Tiếng Việt. Sau khi phân tích, bài báo sử dụng TF-IDF để xây dựng vectơ chứa giá trị của các thành phần trong bộ hành vi của người dùng. TF-IDF (Term Frequency – Inverse Document Frequency) là trọng số của một từ trong tài liệu của người dùng được tính dựa trên thống kê mức độ quan trọng hay số lần xuất hiện của từ này trong tài liệu đó, cách tính như sau: Gọi là số lần từ khóa xuất hiện trong vectơ của bài viết , là tổng số từ khóa của bài viết e được biểu diễn bởi vectơ là tổng số các bài viết của người dùng u, là tổng số các bài viết của người dùng u có chứa từ khóa k. Khi đó: Tần suất của từ khóa k xuất hiện trong vec tơ của bài viết e là TF được tính theo công thức (1) như sau: ( ) , (1) Tần suất nghịch đảo của từ khóa k xuất hiện trong vec tơ của bài viết e là IDF được tính theo công thức (2) như sau: ( ) ( ), (2) Trọng số của từ khóa k xuất hiện trong vec tơ của bài viết e là TF-IDF được tính theo công thức (3) như sau: và ( ) ( ) ( ) (3) Như vậy dựa trên các công thức (1), (2) và (3) bài báo tính toán các giá trị cho vec tơ thuộc tính của các bài viết của người dùng trên các mạng xã hội như sau: Giả sử U là một tập người dùng trên một mạng xã hội và mỗi có một tập bài viết đã đăng , với mỗi bài viết được biểu diễn bởi 5 thành phần, ký hiệu tương ứng như sau: nội dung là cont, đánh dấu là tags, nhóm bài viết là cate, quan điểm là sent và cuối cùng cảm xúc ký hiệu là emot. Gọi , là hai bài viết tương ứng của , mỗi tập từ khóa của mỗi bài viết được biểu diễn bằng một vectơ tương ứng. Sau khi tính TF-IDF của các từ khóa trong hai vectơ biểu diễn hai bài đăng, bài viết thu được các vectơ chứa trọng số của hai bài viết tương ứng . Khi đó, độ tương tự của của hai bài viết được tính theo công thức (4) như sau: ( ) ( ) (4) Trong đó, là các vectơ chứa trọng số tính theo TF-IDF của hai bài viết tương ứng III. MÔ HÌNH HÀNH VI VÀ ƯỚC LƯỢNG TƯƠNG TỰ HÀNH VI CỦA NGƯỜI DÙNG A. Mô hình hành vi người dùng trên mạng xã hội Trong một mạng xã hội, có nhiều người dùng kết nối với nhau theo các kiểu quan hệ như quan hệ bạn SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 10 Nguyễn Thị Hội, Trần Đình Quế bè, quan hệ gia đình, quan hệ đồng nghiệp... Trong đó, mỗi người dùng có một không gian cá nhân riêng và người dùng có toàn quyền làm những việc họ muốn, chẳng hạn như đăng các bài viết mô tả trạng thái cá nhân; thích và chia sẻ niềm vui vì hoàn thành công việc hay đạt được một thành tựu nào đó; trích dẫn và chia sẻ lại những bài viết, bài báo, bức ảnh, đoạn phim mà bản thân thấy thú vị... Những hành động như đăng bài viết, bài chia sẻ, thích hoặc bình luận trong một bài viết hoặc bài chia sẻ, tham gia một nhóm trên mạng xã hội gọi chung là các hành vi của người dùng trên các mạng xã hội. Các hành vi trên mạng xã hội phản ánh một phần cách ứng xử của người dùng đó với các sự kiện hoặc hiện tượng xảy ra trên mạng xã hội Ví dụ với một người dùng trên mạng xã hội Facebook như Hình 1 thì có các thông tin như giới thiệu về bản thân, đăng nội dung bài viết, chia sẻ nội dung từ phương tiện truyền thông xã hội khác, nhóm tham gia, thích, bình luận, trả lời bình luận, Thông tin cá nhân Thông tin cá nhân Bài người dùng viết Nút thích Nút bình luận Nút chia sẻ Bài người dùng chia sẻ Hình 1. Ví dụ về người dùng trên MXH Facebook Các hành vi trên mạng xã hội có rất nhiều kiểu khác nhau như: đăng bài viết, chia sẻ bài viết, bình luận trong một bài viết, kết bạn, theo dõi một người dùng khác hoặc một trang khác, nhưng trong bài báo chỉ tập trung nghiên cứu và xem xét các hành vi phổ biến nhất bao gồm: đăng một bài viết (post), chia sẻ bài viết (share), thích bài viết (like), bình luận trong bài viết (comment) Tuy nhiên, hành vi chia sẻ bài viết trên mạng xã hội của người dùng được bao hàm trong hành vi đăng bài nên bài báo xem hành vi chia sẻ đồng nhất với hành vi đăng bài. Trên một số mạng xã hội như Facebook.com, Twitter.com hành vi bình luận về một bình luận trong một bài viết của người dùng được xem như là bình luận trong bài viết để tránh phức tạp và nhập nhằng khi thống kê các bình luận và thống nhất về khái niệm sử dụng. Như vậy, mỗi người dùng trên mạng xã hội được bài báo tập trung xem xét với các hành vi sau: đăng bài viết, thích bài viết, bình luận trong bài viết B. Ước lượng độ tương tự hành vi người dùng Giả sử U là một tập người dùng trên một mạng xã hội, khi đó, mỗi có một tập các hành vi , với mỗi có thể là một trong ba hành vi được ký hiệu tương ứng như: đăng/chia sẻ bài là post, thích bài viết là like, và bình luận trong bài viết là comm Khi đó, việc ước lượng độ tương tự giữa hai tập hành vi người dùng và của được tính toán bằng cách tích hợp các độ tương tự của ba tập con các thuộc tính post, like và comm. Để tính độ tương tự giữa các thuộc tính hành vi của bộ hành vi thì bài báo tính toán như sau: - Độ tương tự hành vi đăng bài viết (post) Gọi là hai người dùng, mỗi người dùng có tập các bài viết đã được đăng và mỗi người dùng sẽ có một vectơ trọng số biểu diễn các bài viết của họ tương ứng là ⃗ ⃗ . Với mỗi cặp người dùng thì mỗi thành phần của vectơ ⃗ được tính như sau: Mỗi của tính độ tương tự của với tất cả các bài viết của . Mỗi thành phần được tính theo công thức: ( ( ) ( )) (5) Trong đó, và m là số bài viết của và ( ) là độ tương tự của hai bài viết tương ứng Mỗi thành phần của vectơ ⃗ cũng được tính tương tự, khi đó, độ tương tự của hai người dùng dựa trên hành vi đăng bài viết được tính bằng: ( ) ( ⃗ ⃗ ) (6) Trong đó ⃗ ⃗ là các vec tơ chứa trọng số các bài viết đã được đăng của hai người dùng tương ứng, có thể thấy rằng ( ) nằm trong khoảng [0,1] - Độ tương tự hành vi thích/ quan tâm bài viết Mỗi người dùng trên mạng xã hội có thể thích hay quan tâm (người dùng thể hiện các thái độ yêu, mỉm cười, lo âu, buồn, giận dữtrong bài báo đều được coi là có quan tâm đến bài viết) hoặc bỏ qua một bài viết trên mạng xã hội, để ước lượng độ tương tự hành vi thích/quan tâm của hai người dùng về bài viết thì bài báo xem xét và tính toán như sau: Gọi và lần lượt là tập của các bài viết đã được thích/quan tâm của người dùng , khi đó độ tương tự về hành vi thích/quan tâm bài viết của hai người dùng được tính bằng độ tương tự giữa hai tập bài viết đã được thích/quan tâm của hai người dùng dựa trên công thức (5) và (6) như sau: ( ) ( ⃗ ⃗ ) (7) Trong đó ⃗ ⃗ là các vectơ chứa trọng số các bài viết đã được thích của hai người dùng tương ứng, có thể thấy rằng ( ) nằm trong khoảng [0,1] - Độ tương tự hành vi bình luận trong bài viết Mỗi người dùng có thể bình luận hoặc thích một vài bình luận mà các người dùng đã bình luận trong SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 11 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI một bài viết, để ước lượng độ tương tự về hành vi bình luận của hai người dùng, bài báo xem xét các bình luận của hai người dùng và bài viết mà họ đã bình luận trên mạng xã hội. Các bình luận của người dùng đó cùng với bài viết mà người dùng đã bình luận được xây dựng bộ từ khóa dựa trên nghiên cứu của [16, 14] và tính toán TF-IDF tập từ khóa như cách ước lượng trọng số của bài viết đã đăng của người dùng theo các công thức (1), (2) và (3). Khi đó, độ tương tự hành vi bình luận của hai người dùng được bài báo tính toán như sau: Gọi là hai người dùng, mỗi người dùng có tập các bình luận cùng các bài viết mà họ đã bình luận trong đó, và mỗi người dùng sẽ có một vectơ trọng số biểu diễn các bình luận và bài viết mà họ đã bình luận tương ứng là ⃗ ⃗ . Mỗi thành phần của ⃗ ⃗ được tính như công thức (5), trong đó các bài viết được kết hợp thêm các bình luận của người dùng trong thuộc tính nội dung cont để tính toán và ước lượng Khi đó, độ tương tự về hành vi bình luận của hai người dùng được tính dựa trên công thức (5) và (6) như sau: ( ) ( ⃗ ⃗ ) (8) Trong đó ⃗ ⃗ là các vec tơ chứa trọng số các bình luận và bài viết đã được bình luận của hai người dùng tương ứng, có thể thấy rằng ( ) nằm trong khoảng [0,1] C. Độ tương tự của người dùng theo hành vi Sau khi ước lượng độ tương tự trên từng tập hành vi của hai người dùng thì độ tương tự của hai người dùng dựa trên các hành vi được tính như sau: Gọi là hai người dùng, mỗi người dùng có tập các bộ hành vi và mỗi người dùng sẽ có một vectơ trọng số biểu diễn các hành vi của họ tương ứng là ⃗ ⃗ được tính bằng: ⃗ { ( ) ( ) ( ) (9) và ⃗ { ( ) ( ) ( ) (10) Khi đó, độ tương tự của hai người dùng dựa trên các hành vi được tính bằng: ( ) ( ⃗ ⃗ ) (11) Trong đó ⃗ ⃗ là các vec tơ chứa trọng số các bộ hành vi đã thực hiện trên mạng xã hội của hai người dùng tương ứng, có thể thấy rằng ( ) nằm trong khoảng [0,1] IV. ƯỚC LƯỢNG QUAN TÂM TƯƠNG TỰ NGƯỜI DÙNG A. Xác định các chủ đề trên mạng xã hội Phát hiện các chủ đề và các quan tâm đến các chủ đề của người dùng đã được rất nhiều nghiên cứu đưa ra như các nghiên cứu của Bhattacharya et al [2], Diana et al [7], Li Xin et al [9], Sheng Bin et al [13]. Bài báo dựa trên các kết quả nghiên cứu trước đó của chính nhóm tác giả [11] để áp dụng cho bài toán phân loại các bài viết của người dùng theo các chủ đề, nhóm nghiên cứu sau khi phân tích đã thu được một danh sách gồm 21 chủ đề chính và 81 chủ đề con được sử dụng phổ biến trên mạng xã hội. Bài báo kế thừa kết quả nghiên cứu đó để áp dụng cho ước lượng và phân loại các bài viết của người dùng trên mạng xã hội vào các chủ đề. Ví dụ một số chủ đề được minh họa trong Bảng I. như sau: Bảng I. Ví dụ về chủ đề cùng từ khóa của chủ đề Chủ đề Danh sách từ khóa Giáo dục Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, thế hệ, giảng dạy, đào tạo, nghiên cứu, trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, toàn cầu, Quốc tế, Kinh tế, Xã hội, Văn hóa, Quốc công, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến, giáo dục tiểu học, Môi trường Môi trường, tổ hợp, tự nhiên, xã hội, hệ thống, tập hợp, tương tác, định nghĩa, con người, không khí, độ ẩm, sinh vật, loài người, môi trường, vật chất, đối tượng, tập hợp con, Mỗi chủ đề sau khi xác định danh sách từ khóa được biểu diễn bằng một vectơ trọng số được tính toán theo công thức (3), trong đó, chỉ số k là chủ đề thứ k trong danh sách các chủ đề và w là ký hiệu vec tơ chứa trọng số các từ khóa của chủ đề thứ k. B. Xác định quan tâm theo các chủ đề Với mỗi người dùng , bài báo xác định mức độ quan tâm của các hành vi ( ) theo chủ đề như sau: Gọi lần lượt là tập các bài viết đã đăng, đã thích, đã bình luận, bài báo ước lượng độ tương tự của mỗi bài viết đã đăng của người dùng với mỗi chủ đề được tính bằng công thức: ( ) ( ) (11) Trong đó, là vectơ trọng số của bài viết của và là vectơ trọng số của chủ đề . Nghĩa là độ quan tâm của bài viết theo chủ đề dựa trên độ tương tự của các từ khóa của bài viết và từ khóa của chủ đề đang xem xét. Khi đó: Độ quan tâm dựa trên hành vi đăng bài viết của người dùng theo chủ đề được tính bằng: SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 12 Nguyễn Thị Hội, Trần Đình Quế ( ) { ( ( ) ( ( )} (12) Trong đó, n là số bài viết đã đăng của người dùng và là chủ đề thứ j trong danh sách các chủ đề đang xem xét Độ quan tâm dựa trên hành vi thích/quan tâm bài viết của người dùng theo chủ đề được tính bằng: ( ) { ( ( ) ( ( )} (13) Trong đó, m là số bài viết đã thích/quan tâm của người dùng và là chủ đề thứ j trong danh sách các chủ đề đang xem xét Độ quan tâm dựa trên hành vi bình luận bài viết của người dùng theo chủ đề được tính bằng: ( ) { ( ( ) ( ( )} (14) Trong đó, p là số bài viết đã bình luận của người dùng và là chủ đề thứ j trong danh sách các chủ đề đang xem xét Như vậy, mức độ quan tâm của người dùng với chủ đề được tính dựa trên các công thức (12), (13), (14) ( ) { ( ) ( ) ( ) } (15) C. Độ quan tâm tương tự của người dùng theo chủ đề dựa trên hành vi Với mỗi trên mạng xã hội cùng tập các hành vi ,