ỨNG DỤNG HỆ TƯ VẤN TRONG ĐỌC TIN TỨC TRỰC TUYẾN Bùi Thị Hồng Nhung Khoa Hệ thống thông tin Quản lý Học viện Ngân hàng Email: nhungbh79@gmail.com Điện thoại: 0983.250.479 Tóm tắt Sự phát triển của Internet ngày càng mang đến cho con người những tiện ích hữu dụng đồng thời cũng là một kênh thông tin phổ biến để chuyển tải các thông tin cá nhân nói riêng và xã hội nói chung một cách nhanh chóng tới cộng đồng. Theo báo cáo của We are Social năm 2014 số lượng người sử dụng Internet ở Việt Nam đã chiếm đến 39% trên tổng dân số; Báo cáo của NetCitizens Việt Nam cũng thống kê hoạt động quan trọng nhất của người dùng trên Internet là thu thập thông tin, hơn 90% người dùng đã từng sử dụng các trang web tìm kiếm thông tin nghiên cứu cho học tập hoặc công việc và thường xuyên đọc tin tức trực tuyến. Tuy nhiên bên cạnh lợi ích của một thế giới thông tin đa dạng và phong phú là một thực tế không thể tránh khỏi của việc thông tin trở nên hỗn tạp và chồng chéo. Một số công cụ tìm kiếm điển hình như Google, Yahoo giúp ích rất nhiều trong việc tìm kiếm những thông tin cần thiết, nhưng với lượng thông tin tăng lên nhanh chóng, các công cụ tìm kiếm theo từ khóa cũng đang dần tỏ ra không hoàn toàn đáp ứng được nhu cầu của con người. Hàng ngày, người dùng phải bỏ ra quá nhiều thời gian để lọc những thông tin tìm kiếm được và rất khó khăn trong việc tìm xem thông tin nào phù hợp với mình. Hơn nữa, đôi khi người dùng cũng không hiểu hết nhu cầu của mình, không biết được từ khóa chính xác mình muốn tìm kiếm, do đó rất khó để tìm được thông tin mình cần Từ những vấn đề trên, hệ tư vấn được hình thành và ra đời nhằm đáp ứng nhu cầu tư vấn thông tin một cách phù hợp nhất đối với từng đối tượng người dùng. Các hệ tư vấn tính toán và dự đoán khả năng người dùng sẽ thích một sản phẩm hoặc quan tâm đến một loại thông tin nhất định, trên cơ sở đó sẽ gợi ý những sản phẩm và thông tin đó cho người dùng một cách hiệu quả. Từ khóa hệ tư vấn, hệ gợi ý, lọc cộng tác, lọc nội dung, lọc kết hợp, khai phá dữ liệu. 1. Tổng quan về hệ tư vấn 1.1 Giới thiệu hệ tư vấn Hệ tư vấn (Recommender systems hoặc Recommendation systems) là một hệ thống có khả năng tự động phân tích, phân loại và cung cấp những gợi ý về một sản phẩm, dịch vụ phù hợp trên Internet cho người dùng dựa trên những gì người dùng đã làm trong quá khứ hoặc các ý kiến của người dùng khác như gợi ý những sách nào có thể người dùng muốn mua, những bài hát nào có thể người dùng thích nghe hoặc tin tức nào người dùng muốn đọc... [1],[2]
Các vấn đề phân tích hành vì và sở thích của người dùng cùng với tư vấn tự động đóng vai trò hết sức quan trọng trong kinh doanh thương mại điện tử ngày nay. Sự hài lòng của đông đảo người dùng trực tuyến sẽ giúp tăng doanh thu và lợi nhuận một cách bền vững. Với vai trò to lớn như vậy, hệ tư vấn đã trở thành một ứng dụng quan trọng và thu hút được sự quan tâm lớn của các nhà nghiên cứu cũng như các doanh nghiệp trong việc quảng bá sản phẩm của mình tới người dùng một cách trọng tâm nhất, thông minh nhất. Trên thị trường đã có nhiều hệ tư vấn được thương mại hóa và triển khai thành công như: hệ tư vấn sản phẩm của Amazon.com hay hệ tư vấn phim của NetFlix Hình 1. Hệ thống gợi ý của Amazon. Ảnh: http://netdna.webdesignerdepot.com Một trong những công việc quan trọng nhất của hệ tư vấn là xây dựng hồ sơ người dùng, khi các dịch vụ trực tuyến phát triển bùng nổ và người dùng tạo ra một lượng dữ liệu khổng lồ thông qua hành vi của họ thì việc xây dựng hồ sơ người dùng không chỉ bao gồm việc xác định các thông tin tường minh mà còn phải xác định cả các thông tin ngầm định về người dùng. Thông tin tường minh là những thông tin được người dùng cung cấp cụ thể thông qua các bài nhận xét, bình luận, đánh giá theo thang điểm, cảm nhận thích hoặc không thích về một sản phẩm, một bài hát, một món ăn, một loại tin tức... Tuy nhiên, những thông tin tường minh này rất khó thu thập và đôi khi không đủ để có thể dự đoán và tính toán độ phù hợp của người dùng. Thông tin ngầm định là những thông tin như lịch sử các từ khóa tìm kiếm, tần số lặp lại các từ khóa, số lần xem, thời gian xem tin Trong nhiều hệ tư vấn, những thông tin ngầm định này đóng vai trò quyết định đối với kết quả tư vấn. Trong hầu hết các trường hợp, bài toán tư vấn được coi là bài toán ước lượng trước hạng của các sản phẩm chưa được người dùng xem xét. Những nghiên cứu về hệ tư vấn thường tập trung giải quyết mối quan hệ giữa người dùng và sản phẩm, từ hồ sơ người dùng và hồ sơ sản phẩm hệ tư vấn sẽ tính toán và đưa ra danh sách các sản phẩm có khả năng người dùng sẽ quan tâm.
1.2 Các chức năng của hệ tư vấn Tăng số lượng bán chéo các sản phẩm: Đây là chức năng quan trọng của hệ tư vấn. Hệ tư vấn tìm ra những mối quan tâm tiềm ẩn liên quan đến một sản phẩm mà người dùng mua, do đó thay vì người dùng chỉ mua một sản phẩm mà họ cần thì họ được giới thiệu mua những sản phẩm có thể họ cũng quan tâm mà bản thân họ không nhận ra. Bằng cách đó, hệ tư vấn làm gia tăng nhu cầu của người dùng và gia tăng số lượng mặt hàng bán ra. Tương tự đối với các hệ thống phi thương mại như các trang báo, hệ tư vấn cũng sẽ giúp người dùng tiếp cận với nhiều mục tin hơn. Cung cấp sự lựa chọn đa dạng: Hầu hết các mặt hàng trong các hệ thống thương mại đều có chủng loại, mẫu mã, nguồn gốc, giá thành rất phong phú. Khi nắm bắt được nhu cầu của người dùng, hệ tư vấn sẽ dễ dàng giới thiệu tới người dùng nhiều sự lựa chọn đa dạng và phù hợp nhất. Điều này làm gia tăng khả năng mua sản phẩm của người dùng. Tăng sự hài lòng người dùng: Vai trò chủ đạo của hệ tư vấn là hiểu nhu cầu của người dùng, gợi ý cho họ những thứ họ thực sự quan tâm do đó làm tăng sự hài lòng của người dùng trên hệ thống. Tăng độ tin cậy, độ trung thực của người dùng: Khi hệ tư vấn gợi ý cho người dùng những lựa chọn và họ hài lòng vể những gợi ý đó thì lòng tin của họ đối với hệ thống được nâng lên một cách đáng kể. Ngoài ra hệ tư vấn hoạt động dựa trên những xếp hạng thật từ chính bản thân người dùng trong quá khứ, do đó khi người dùng càng tin cậy vào hệ thống thì sẽ càng đưa ra những đánh giá trung thực hơn về các sản phẩm, từ đó hệ thống sẽ lại mang tới người dùng nhiều gợi ý chính xác hơn, phù hợp với nhu cầu, sở thích của họ hơn. 1.3 Bài toán tổng quát của hệ tư vấn Một cách hình thức, bài toán tư vấn được các tác giả Adomavicius và Tuzhilin [1] mô tả như sau: Gọi U là tập tất cả người dùng trong hệ tư vấn. I là tập tất cả các sản phẩm có thể tư vấn. Hàm r(u, i) có tác dụng đo độ phù hợp của sản phẩm i với người dùng u: r: U x I R, trong đó R là tập các đánh giá được sắp thứ tự. Với mỗi người dùng u U, hệ tư vấn cần chọn ra các sản phẩm i I chưa biết với người dùng u sao cho hàm r(u, i) đạt giá trị lớn nhất. Trong các hệ tư vấn, mức độ phù hợp của sản phẩm thường được biểu diễn theo đánh giá thang điểm (rating), tùy vào từng ứng dụng các đánh giá này có thể được thực hiện trực tiếp bởi người dùng hoặc được tính toán bởi hệ thống. Một cách tổng quát ta có các hoạt động của hệ tư vấn gồm 3 bước:
Bước 1: Thu thập thông tin của người dùng khi người dùng tương tác với hệ thống và lưu vào trong hồ sơ người dùng. Bước 2: Hệ thống xác định mối quan tâm của người dùng và thực thi một thuật toán tư vấn nhằm so sánh, đánh giá mối liên hệ đối với hồ sơ của người dùng tương tự khác hoặc đối với hồ sơ sản phẩm đã có. Bước 3: Đề xuất một tập hợp những sản phẩm người dùng có thể quan tâm. 2. Phân loại hệ tư vấn Hình 2. Các thành phần hệ tư vấn[4] Dựa vào cách xác định ước lượng hạng/điểm cho các sản phẩm đối với người dùng, hệ tư vấn thường được chia thành ba loại gồm: [1],[2] + Hệ tư vấn dựa trên nội dung (content-based): người dùng được gợi ý những sản phẩm tương tự với các sản phẩm từng được họ đánh giá cao. + Hệ tư vấn cộng tác (collaborative): người dùng được gợi ý những sản phẩm mà những người cùng sở thích với họ đánh giá cao. + Hệ tư vấn lai ghép (hybrid): kết hợp cả hai phương pháp dựa trên. 2.1 Hệ tư vấn dựa trên nội dung Phương pháp tư vấn dựa trên nội dung xác định độ phù hợp r(u, i) của sản phẩm i chưa biết với người dùng u thông qua độ phù hợp r(u, ii) của sản phẩm ii ϵ I đã được người dùng u mua hoặc đánh giá và ii có đặc điểm tương tự như i. Ví dụ, để gợi ý một tin tức mới cho người dùng u, hệ tư vấn sẽ tìm ra những mục tin tức trước đã từng được u
đánh giá cao chẳng hạn mục tin Thể thao, sau đó đưa ra những tin tức tương đồng với sở thích của người dùng để giới thiệu. Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu thập thông tin và lọc thông tin, do đó rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào tư vấn các đối tượng chứa dữ liệu text như văn bản, tin tức, website Trong hướng tiếp cận này hồ sơ người dùng được xây dựng dựa trên những thông tin được người dùng cung cấp từ các giao dịch của người dùng. Ưu điểm của hướng tiếp cận này là không yêu cầu số lượng người sử dụng lớn để đạt được độ chính xác đề nghị hợp lý, ngoài ra các mặt hàng mới có thể được khuyến nghị ngay dựa trên thuộc tính có sẵn. Tuy nhiên phương pháp này vẫn còn tồn tại một số vấn đề cần phải nghiên cứu giải quyết: + Vấn đề trích chọn đặc trưng: Lọc theo nội dung kế thừa và phát triển chủ yếu vào các phương pháp trích chọn đặc trưng trong lĩnh vực truy vấn thông tin. Để có một tập các đặc trưng đầy đủ, nội dung tài liệu phải được biểu diễn dưới dạng phù hợp để máy tính có thể tự động phân tích tính toán trọng số các đặc trưng nội dung hoặc phải được thực hiện bán tự động. Phương pháp sẽ khó áp dụng trong những trường hợp việc trích chọn nội dung phức tạp, chẳng hạn trích chọn đặc trưng nội dung các đối tượng dữ liệu đa phương tiện (hình ảnh, âm thanh). + Sự phân tích nội dung bị hạn chế: Tính hiệu quả của hệ tư vấn này phụ thuộc vào việc mô tả một cách đầy đủ các đặc trưng nội dung của sản phẩm. Vì vậy, nội dung sản phẩm phải hoặc có thể được trích xuất tự động bởi máy tính hoặc dễ dàng được trích xuất bằng tay. Có nhiều trường hợp, yêu cầu này rất khó thực hiện, ví dụ trong miền ứng dụng tư vấn dữ liệu đa phương tiện như ảnh đồ họa, phim, âm thanh, Trích xuất tự động đặc trưng nội dung của các đối tượng dữ liệu này là một bài toán khó, và việc trích xuất bằng tay là không khả thi do chi phí lớn. + Sự lạm dụng nội dung chuyên môn: Sự tư vấn chỉ được tạo ra từ phân tích nội dung các sản phẩm đã từng được người dùng ưa thích, tức là những tư vấn dựa trên nội dung chỉ có thể đưa ra những sản phẩm tương tự với những gì họ đã từng đánh giá cao trước đây. Trong nhiều trường hợp, những sản phẩm không nên được tư vấn nếu nó quá giống với các sản phẩm đã được đánh giá từ trước. Một ví dụ điển hình là trong các hệ thống tư vấn tin tức, những tin tức tư vấn được đánh giá cao hơn nếu nó không phải là một bản trích dẫn hoặc có nội dung thông tin trùng lặp. 2.2 Hệ tư vấn cộng tác Ý tưởng cơ bản của hệ tư vấn cộng tác là dự đoán độ phù hợp r(u i,i) của sản phẩm i với người dùng u i dựa trên độ phù hợp r(u j, i) của người dùng u j và i, trong đó u j là người có cùng sở thích với u i. Ví dụ, để gợi ý một bộ phim cho người dùng u i, đầu tiên hệ
thống tìm những người dùng khác có cùng sở thích với u i, chẳng hạn cùng thích các bộ phim hành động. Sau đó, những bộ phim được họ đánh giá cao sẽ được dùng để tư vấn cho u i. Ưu điểm của phương pháp tiếp cận lọc cộng tác khắc phục được các nhược điểm của phương pháp lọc nội dung bao gồm: + Không giới hạn về loại đối tượng dùng để tư vấn: phương pháp lọc cộng tác dựa hoàn toàn vào đánh giá của những người dùng để đưa ra các nhận định về sở thích của người dùng, chính vì thế các tính chất của đối tượng được tư vấn không có ảnh hưởng đến quá trình tư vấn. Ưu điểm này giúp cho phương pháp lọc cộng tác được áp dụng đa dạng trên nhiều hệ thống khác nhau, từ trang thông tin đến âm nhạc, hình ảnh + Tư vấn đa dạng: Phương pháp lọc cộng tác có thể đưa ra các đối tượng sản phẩm tư vấn hoàn toàn khác so với các sản phẩm mà người dùng u đã thích trong quá khứ. So với lọc theo nội dung, lọc cộng tác có ưu điểm là không đòi hỏi biểu diễn sản phẩm dưới dạng các đặc trưng nội dung, ngoài ra lọc cộng tác cho kết quả chính xác hơn trong một số lĩnh vực. Tuy nhiên lọc cộng tác vẫn gặp phải những hạn chế cần được tiếp tục nghiên cứu như: + Vấn đề người dùng mới: Cũng giống như lọc theo nội dung, để phân bổ chính xác các sản phẩm người dùng quan tâm, lọc cộng tác phải ước lượng được sở thích của người dùng đối với các sản phẩm mới thông qua những đánh giá của họ trong quá khứ. Trong trường hợp một người dùng mới, số đánh giá của người dùng cho các sản phẩm bằng không, khi đó phương pháp cộng tác không thể đưa ra những tư vấn chính xác cho người dùng này. + Vấn đề sản phẩm mới: Trong quá trình tư vấn, khi xuất hiện một sản phẩm mới mà tất cả đánh giá người dùng cho sản phẩm này đều bằng không thì phương pháp lọc cộng tác không thể tư vấn sản phẩm cho bất kì người dùng nào trong hệ thống. + Vấn đề dữ liệu thưa: Kết quả dự đoán của lọc cộng tác phụ thuộc chủ yếu vào số các đánh giá có trước của người dùng đối với các sản phẩm. Tuy nhiên, đối với các hệ thống thực tế, số lượng người dùng và sản phẩm là rất lớn (hàng triệu người dùng và sản phẩm) thì số những đánh giá biết trước thường rất nhỏ so với số lượng các đánh giá cần được dự đoán. 2.3 Hệ tư vấn kết hợp Lọc kết hợp hay còn gọi là phương pháp lai là phương pháp kết hợp giữa cộng tác và lọc nội dung nhằm tận dụng lợi thế và tránh những hạn chế của mỗi phương pháp. So
với các phương pháp khác, lọc kết hợp cho kết quả dự đoán tốt và có nhiều triển vọng áp dụng trong các ứng dụng thực tế. Lọc kết hợp được tiếp cận theo bốn xu hướng chính: Kết hợp tuyến tính; Kết hợp đặc tính của lọc nội dung vào lọc cộng tác; Kết hợp đặc tính của lọc cộng tác vào lọc nội dung; Xây dựng mô hình hợp nhất giữa lọc cộng tác và lọc nội dung. + Kết hợp tuyến tính: là phương pháp xây dựng hai lược đồ lọc nội dung và lọc cộng tác độc lập nhau. Kết quả dự đoán của toàn bộ mô hình có thể được lựa chọn từ phương pháp cho kết quả tốt hơn. Ưu điểm của phương pháp này là kế thừa được phương pháp biểu diễn và tính toán vốn có của các phương pháp. Nhược điểm của mô hình là cho kết quả không cao vì chưa có sự kết hợp hiệu quả giữa nội dung và đánh giá người dùng. + Kết hợp đặc tính của lọc nội dung vào lọc cộng tác: là phương pháp dựa trên kỹ thuật lọc cộng tác thuần túy nhưng vẫn duy trì hồ sơ người dùng như một tham biến tham khảo khi tính toán sự tương tự giữa các cặp người dùng. Phương pháp có thể phát hiện ra các sản phẩm tương tự với hồ sơ người dùng hoặc không tương tự với hồ sơ người dùng. Trong trường hợp dữ liệu thưa hoặc người dùng mới, mức độ tương tự giữa hồ sơ người dùng và sản phẩm sẽ được xem xét đến để tạo nên dự đoán. + Kết hợp đặc tính của lọc cộng tác vào lọc nội dung: là phương pháp xem xét các đánh giá người dùng của lọc cộng tác như một thành phần trong mỗi hồ sơ người dùng. Phương pháp dự đoán thực hiện theo lọc nội dung thuần túy và so sánh với kết quả dựa trên biểu diễn hồ sơ người dùng mở rộng. + Mô hình hợp nhất: là phương pháp biểu diễn đặc trưng nội dung và đánh giá người dùng trên cùng mô hình. Kết quả dự đoán dựa trên mô hình hợp nhất của cả nội dung và đánh giá người dùng. 3. Xây dựng mô hình hệ tư vấn tin tức online Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác. Tuy nhiên, đi kèm theo đó là các thử thách về các đặc trưng riêng của miền đối tượng tin tức cũng như các đặc trưng chung của người sử dụng tư vấn [3] + Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng cách kết hợp các yếu tố: nội dung thông tin của bản tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả, người nhận tin, + Tính dễ sinh ra: Một số lượng lớn tin tức có thể nảy sinh xung quanh một sự kiện, hiện tượng. + Tính dễ tàn lụi: Hiện tượng tin tức đánh mất giá trị khi vấn đề được đề cập không còn tính thời sự.
+ Tính đa quan tâm: Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau như cả về chính trị lẫn thể thao. + Tính đa chủ đề: Một bài viết cùng một lúc có thể đề cập tới nhiều chủ đề khác nhau như vừa chính trị lẫn thể thao. Từ những đặc trưng trên, chúng tôi đề xuất phương pháp lọc nội dung để xây dựng hệ tư vấn tin tức và chia thành 2 trường hợp gồm: Trường hợp 1- Người dùng cũ: Đối với mỗi người dùng chúng tôi thu thập thông tin và xác định danh sách các chủ đề tin tức mà họ quan tâm, với mỗi chủ đề chúng tôi tiếp tục xác định các thực thể xuất hiện thường xuyên. Sau đó mỗi khi người dùng đăng nhập hệ thống chúng tôi sẽ tư vấn cho họ danh sách các bài viết thuộc các chủ đề mà họ quan tâm nhất sắp theo thứ tự ưu tiên của các thực thể. Đồng thời tư vấn cả các bài viết thuộc các chủ đề khác nhưng có liên quan tới các thực thể mà họ quan tâm. Ví dụ người dùng quan tâm tới chủ đề Thể thao, trong đó thường xuyên đọc các bài viết về Quần vợt và Nadal sẽ được tư vấn danh sách các bài viết về thể thao ưu tiên liên quan đến hai thực thể Quần vợt và Nadal, ngoài ra danh sách các bài viết về Nadal thuộc các chủ đề khác như chủ đề Đời sống cũng được tư vấn giới thiệu. Trường hợp 2- Người dùng mới: Hệ thống sẽ tư vấn danh sách các bài viết được đánh giá cao bởi những người dùng khác. Mô hình tư vấn tin tức trực tuyến bao gồm hai pha: 3.1 Pha phân tích cơ sở dữ liệu Ứng dụng tư vấn tin tức được tích hợp trong một hệ thống quản lý nội dung, cơ sở dữ liệu của hệ thống được xây dựng theo các bước sau: Bước 1- Xác định danh sách các chủ đề và thực thể: Với mỗi bài viết khi được cập nhật vào cơ sở dữ liệu sẽ được gán nhãn các chủ đề và các thực thể chính liên quan, ví dụ bài viết Mỹ Tâm rạng rỡ giành giải thưởng tại World Music Awards 2014 có thể xếp vào chủ đề Ca nhạc và Giải trí; các thực thể liên quan có thể là Mỹ Tâm và World Music Awards. Mỗi bài viết có thể thuộc nhiều chủ đề và có thể chứa nhiều thực thể nên mỗi bài viết sẽ tương ứng với hai danh sách gồm danh sách các chủ đề và danh sách các thực thể. Đồng thời chúng tôi cũng ghi nhận tới số lượt các người dùng tương tác với bài viết để xác định danh sách các bài viết được đánh giá cao nhằm tư vấn cho những người dùng mới mà hệ thống chưa có thông tin. Bước 2- Xác định và phân tích hành vi người dùng: Đối với người dùng, hệ thống sẽ thu thập các thông tin cá nhân và phân tích các hành vi của người dùng trên hệ thống như số lần kích chọn và thời gian đọc các bài viết, từ đó xác định danh sách các chủ đề cũng như các thực thể mà người dùng quan tâm. Như vậy ta có ba danh sách liên quan người dùng gồm danh sách các bài viết, danh sách các chủ đề và danh sách các thực
thể. Để tránh thông tin nhiễu chúng tôi không xét các bài viết mà người dùng đọc dưới 5 giây. Bước 3- Tính điểm xếp hạng của người dùng cho mỗi chủ đề và thực thể: Mỗi khi kích chọn một bài viết, hệ thống sẽ cập nhật lại điểm đánh giá d của người dùng đối với các chủ đề/thực thể liên quan tới bài viết. Điểm đánh giá các chủ đề được tính bằng tỷ lệ số lần người dùng kích chọn chủ đề trên tổng số lần người dùng tương tác với hệ thống. Điểm đánh giá các thực thể được tính bằng tỷ lệ số lần người dùng kích chọn thực thể trên tổng số lần người dùng kích chọn chủ đề tương ứng. Điểm d có giá trị từ 1 đến 5 với các giá trị cụ thể là d=1 nếu tỷ lệ từ 1% đến 20%; d=2 nếu tỷ lệ từ 21% đến 40%; d=3 nếu tỷ lệ từ 41% đến 60%; d=4 nếu tỷ lệ từ 61% đến 80%; d=5 nếu tỷ lệ từ 81% đến 100%. Bài viết Tương tác Người dùng Lịch sử tương tác Gán nhãn Chủ đề, Thực thể Xác định Chủ đề, Thực thể quan tâm CSDL Các bài viết có chủ đề người dùng quan tâm Các thực thể người dùng quan tâm Xếp hạng lại các bài viết 3.2 Pha tư vấn Danh sách các bài viết đề xuất Hình 3. Mô hình pha tư vấn trực tuyến. Pha tư vấn dựa vào kho dữ liệu của hệ thống sẽ tự động sinh các truy vấn các bài viết về các chủ đề và các thực thể mà người dùng từng quan tâm. Gồm các bước thực hiện sau:
Bước 1: Hệ thống lọc ra danh sách các tin tức mà người dùng chưa đánh giá bằng cách đối sánh các chủ đề và thực thể của bài viết với các chủ đề và thực thể trong cơ sở dữ liệu mà người dùng quan tâm. Trong trường hợp người dùng mới hệ thống sẽ lọc ra n bài viết có số người quan tâm nhiều nhất. Bước 2: Xếp hạng lại các tin tức. Kết quả của bước 1 là một lớp các tin tức người dùng quan tâm ở mức chủ đề, có thể có quá nhiều tin tức như vậy, do đó cần phải xếp hạng lại các tin tức này theo thứ tự giảm dần của điểm đánh giá các chủ đề của người dùng. Với mỗi một chủ đề chúng ta tiếp tục xếp hạng các tin tức theo thứ tự giảm dần của điểm đánh giá các thực thể của người dùng. Khi xếp hạng các tin tức luôn ưu tiên cho các bài viết có chủ đề và thực thể được người dùng đánh giá cao cũng như các bài viết được nhiều người quan tâm. Bước 3: Tư vấn top các tin tức xếp hạng cao nhất. Quá trình xếp hạng cho ra một danh sách các tin tức được sắp xếp theo thứ tự giảm dần về mức độ liên quan tới các chủ đề và thực thể người dùng đang quan tâm. 3.3 Thực nghiệm Để minh họa mô hình hệ tư vấn tin tức online chúng tôi thu thập dữ liệu mẫu như sau: Danh sách các chủ đề Mã chủ đề Tên chủ đề Mã chủ đề Tên chủ đề 1 Chính trị 6 Ca nhạc 2 Khoa học 7 Pháp luật 3 Kinh doanh 8 Đời sống 4 Giải trí 9 Du lịch 5 Thể thao 10 Khác Danh sách các bài viết Bảng 1. Danh sách các chủ đề [5] Với mỗi bài viết thu thập được chúng tôi xác định chủ đề và các thực thể chính của chúng, cũng như số người quan tâm đọc bài viết đó. Mã bài viết Mã chủ đề Thực thể Số người quan tâm 1 1, 8 Chiến tranh, Cựu binh Mỹ 50 2 8, 7 Lừa đảo, Facebook 200 3 4, 6 Mỹ Tâm, Liveshow 157 4 1, 2 Bom nguyên tử 300 5 7 Lừa đảo 47 6 2 Tên lửa 500 7 1 Nổ súng 177 8 4 Tomcruis 670 9 6 Trọng Tấn 800 10 1 Nổ súng 750
11 4 Bom tấn, Tomcruis 479 12 9 Biển, Phú Quốc 30 13 5 Nadal 87 14 3 Bánh gato 345 15 3 Bánh gato 21 16 7, 9 Đà Lạt, Móc túi 189 17 5 Quần vợt, Nadal 578 18 9 Mỹ Tâm, Đà Lạt 460 19 6 Mỹ Tâm 40 20 3, 5 Quần vợt, Vợt 500 Bảng 2. Danh sách các bài viết [5] Đánh giá của người dùng về các chủ đề quan tâm Với mỗi người dùng, chúng tôi thu thập danh sách các bài báo mà người dùng đó đã đọc, từ đó xác định các chủ đề mà người dùng đó quan tâm. Tiếp theo chúng tôi thống kê số lượng các bài báo theo từng chủ đề để tính điểm đánh giá của người dùng với chủ đề đó. Dữ liệu dưới đây chúng tôi minh họa cho một người dùng có mã 1. Mã người dùng Mã chủ đề Điểm 1 1 3 1 2 1 1 3 4 1 4 2 1 5 5 1 6 5 1 7 2 1 8 3 1 9 3 Bảng 3. Điểm đánh giá các chủ đề của người dùng 1 [Tác giả] Đánh giá của người dùng về các thực thể quan tâm Tương tự, chúng tôi xác định điểm đánh giá của người dùng đối với từng thực thể. Mã người dùng Mã thực thể Điểm 1 Mỹ Tâm 5 1 Tên lửa 4 1 Bom tấn 2 1 Quần vợt 3 1 Biển 4 Bảng 4. Điểm đánh giá các thực thể của người dùng 1 [Tác giả] Với thang điểm đánh giá trong bảng 3, 4 khi người dùng 1 đăng nhập hệ thống sẽ được hệ thống tư vấn 10 bài viết từ bảng 2 theo mức độ ưu tiên giảm dần là:
Mã bài viết Số người quan tâm Mã chủ đề Thực thể 3 157 4, 6 Mỹ Tâm, Liveshow 19 40 6 Mỹ Tâm 18 460 9 Mỹ Tâm, Đà Lạt 9 800 6 Trọng Tấn 17 578 5 Quần vợt, Nadal 20 500 3, 5 Quần vợt, Vợt 13 87 5 Nadal 14 345 3 Bánh gato 15 21 3 Bánh gato 6 500 2 Tên lửa Bảng 5. Danh sách bài viết hệ thống tư vấn cho người dùng 1 [Tác giả] Trong trường hợp người cần tư vấn là người dùng mới thì hệ thống sẽ tư vấn danh sách 10 bài viết theo thứ tự số người quan tâm giảm dần như sau: Mã bài viết Số người quan tâm Mã chủ đề Thực thể 9 800 6 Trọng Tấn 10 750 1 Nổ súng 8 670 4 Tomcruis 17 578 5 Quần vợt, Nadal 6 500 2 Tên lửa 20 500 3, 5 Quần vợt, Vợt 11 479 4 Bom tấn, Tomcruis 18 460 9 Mỹ Tâm, Đà Lạt 14 345 3 Bánh gato 4 300 1, 2 Bom nguyên tử Kết luận Bảng 6. Danh sách bài viết hệ thống tư vấn cho người dùng mới [Tác giả] Việc tích hợp hệ tư vấn trong hệ thống các website, đặc biệt là các website thương mại điện tử đã và đang là một xu hướng tất yếu cho các tổ chức doanh nghiệp nhằm quảng bá các sản phẩm của mình tới người dùng một cách thông minh và hiệu quả nhất. Để xây dựng một hệ tư vấn đạt chất lượng cao chúng ta phải đánh giá thật kỹ loại sản phẩm cần tư vấn từ đó lựa chọn các phương pháp tư vấn phù hợp như tư vấn dựa nội dung, tư vấn cộng tác, tư vấn kết hợp hay tư vấn theo ngữ cảnh người dùng. Vấn đề thứ hai liên quan tới chất lượng của hệ tư vấn là tập dữ liệu sử dụng, một hệ tư vấn có mô hình tốt chưa chắc đã tư vấn tốt hơn một hệ tư vấn có dữ liệu tốt. Trong bài viết của mình chúng tôi mới chỉ thu thập một số dữ liệu mẫu đại diện nhằm minh họa cho mô hình tư vấn tin tức đề ra, để mô hình đạt hiệu quả cao và có thể áp dụng được trong thực tế, trong tương lai chúng tôi tiếp tục hoàn thiện bộ dữ liệu mẫu với số lượng lớn để đảm bảo tính đúng đắn và khách quan khi tư vấn. Tài liệu tham khảo:
[1] G.Adomavicius, A.Tuzhilin. Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, 2005. [2] Jong Seo Lee, Survey of Recommender Systems, California Polytechnic State University - San Luis Obispo, 2012. [3] Doychin Doychev, Aonghus Lawlor, Rachael Rafter, and Barry Smyth, An Analysis of Recommender Algorithms for Online News, University College Dublin Belfield, 2014. [4] Uông Huy Long, Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức, 2010. [5] Website: http://vnexpress.net/