IT4853 Tìm kiếm và trình diễn thông tin

Tài liệu tương tự
MỞ ĐẦU

Dịch vụ điện tử FPT

GV: Trần Thiên Đức - V2011 HƯỚNG DẪN THÍ NGHIỆM BÀI 4 1. Tên bài: Khảo sát hiện tượng bức xạ nhiệt Nghiệm định luật Stef

OpenStax-CNX module: m Các ứng dụng của hệ thống thông tin địa lý Võ Quang Minh This work is produced by OpenStax-CNX and licensed under the Cr

Có bao nhiêu từ khóa có thể được xếp hạng cho một trang? • Đức Anh Plus

Microsoft Word - 03-GD-HO THI THU HO(18-24)

ĐIỀU KHOẢN KHÁCH HÀNG CỦA HP - Portfolio Số Hợp đồng nếu cần: HP: Khách hàng: CÁC ĐIỀU KHOẢN KHÁCH HÀNG CỦA CÔNG TY HP 1. Các Bên. Các điều khoản này

CHÍNH PHỦ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 63/2014/NĐ-CP Hà Nội, ngày 26 tháng 06 năm 2014 N

Microsoft Word - Phan phoi normal.doc

Hướng dẫn làm bài thi xếp lớp tiếng Anh GIỚI THIỆU VỀ BÀI THI XẾP LỚP Bài thi kiểm tra xếp lớp tiếng Anh của Cambridge English là dạng bài thi trực tu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN V

QoL Max Accumulator+ Bảo hiểm Nhân thọ Phổ thông Dựa trên Chỉ số Một sản phẩm bảo hiểm nhân thọ được thiết kế để trợ giúp cho quý vị trong hành trình

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Tóm tắt ngữ pháp tiếng Anh Tổng hợp và biên soạn: Thầy Tâm - Anh Văn ( TÓM TẮT NGỮ PHÁP TIẾNG ANH Mục lục Tóm tắt

PowerPoint 프레젠테이션

Gói Dự đoán bao trúng 100% áp dụng toàn VN cho cả BC và IDP, hình thức thi trên giấy, Academic, UKVI Gói dự đoán Platinum (4 kĩ năng -Giá 2tr): ĐỘC QU

Microsoft Word - bai1.DOC

Điều khoản sử dụng The Chemours Company, các chi nhánh và công ty con (gọi chung là Chemours ) cung cấp trang web ( Trang web ) này cho bạn theo các đ

QoL Value+ Protector Bảo hiểm Nhân thọ Phổ thông Dựa trên Chỉ số Chỉ Áp dụng Tại California Một sản phẩm bảo hiểm nhân thọ linh hoạt được thiết kế để

Microsoft Word - DA17-TRAN THI HIEN( )

Chương 2 Biến ngẫu nhiên và phân phối xác suất

Chuyên đề

Chương 5 Kiểm định giả thuyết thống kê Bài giảng Lý thuyết xác suất và thống kê toán Khái niệm chung Giả thuyết thống kê Thủ tục kiểm định Các bước ti

Microsoft Word - 18-TNN-34HUYNH VUONG THU MINH( )

Phong cách học tập BÁO CÁO CỦA Sample Report Phong cách học tập Bản đánh giá Phong cách học tập Của: Sample Report Ngày: 09/07/2019 Copyright

(Microsoft Word - 4_Vuong NC-T\ doc)

BIẾN ĐỔI ỨNG SUẤT THẲNG ĐỨNG MIỀN VÕNG HÀ NỘI Nguyễn Văn Hướng, Phan Trọng Trịnh Viện Địa chất, Viện KH&CN Việt Nam Cù Minh Hoàng Tổng Công ty Thăm dò

Microsoft Word - 2.3_BaiQHtichhopDBSCL(GS.TS Vo).docx

CÔNG BÁO/Số /Ngày PHẦN VĂN BẢN QUY PHẠM PHÁP LUẬT BỘ NGOẠI GIAO BỘ NGOẠI GIAO Số: 01/2012/TT-BNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT

BỘ GIÁO DỤC VÀ ĐÀO TẠO HỌC VIỆN TÀI CHÍNH BỘ TÀI CHÍNH NGUYỄN HOÀNG DŨNG HOÀN THIỆN TỔ CHỨC HỆ THỐNG THÔNG TIN KẾ TOÁN QUẢN TRỊ TRONG CÁC DOANH NGHIỆP

Hỗ trợ ôn tập [ĐỀ CƯƠNG CHƯƠNG TRÌNH ĐẠI HỌC] BÍ QUYẾT NGHIÊN CỨU KEYWORD HIỆU QUẢ Đây chính là bước đầu tiên bạn phải t

Microsoft Word - Bai 8. Nguyen Hong Son.doc

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM

CHƯƠNG 1

Winmeen Tnpsc Gr 1 & 2 Self Preparation Course

... SỞ GIÁO DỤC ĐÀO TẠO HÀ NỘI TRƯỜNG THPT LÝ THƯỜNG KIỆT (50 câu trắc nghiệm) ĐỀ THI THỬ THPT QUỐC GIA LẦN 2 MÔN TOÁN Năm học: Thời gian là

QUẬN MARIN 12/6/2018 GIÁM ĐỐC Ủy ban Giám sát Quận Marin 3501 Civic Center Drive San Rafael, CA CHỦ ĐỀ: Báo cáo Tiến trình Đánh giá Kế hoạch Làm

TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG TÀI LIỆU HƯỚNG DẪN BÀI TẬP CHUYÊN ĐỀ QUẢN LÝ Dành cho học viên Chuyên khoa II Tổ chức quản lý y tế Hà Nội, 2018

CHƯƠNG VI PHÂN TÍCH HỒI QUI LOGISTIC (LOGISTIC REGRESSION) Môn học: PPTN Bộ Môn: Giống Động Vật GV: Cao Phước Uyên Trân

BỘ GIAO THÔNG VẬN TẢI TRƯỜNG ĐAI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH Biểu mẫu 20 THÔNG BÁO Công khai cam kết chất lượng đào tạo của cơ sở giá

QUÂN CHỦNG HẢI QUÂN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ỔNG CÔNG TY TÂN CẢNG SÀI GÒN Độc lập Tự do Hạnh phúc Số: 1219/QĐ-TC-TTĐĐ Tp.Hồ Chí Minh, ngày 0

Sách hướng dẫn kiểm tra cho TiX560/TiX520

BỘ TÀI CHÍNH CÔNG TY XỔ SỐ ĐIỆN TOÁN VIỆT NAM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập Tự do Hạnh phúc THỂ LỆ QUAY SỐ MỞ THƯỞNG XỔ SỐ TỰ CHỌN SỐ QUA


QUY TẮC ỨNG XỬ

1 Überschrift 1

Chương trình Giảng dạy Kinh tế Fulbright Niên khóa Kinh tế học khu vực công Nghiên cứu tình huống Mô hình tập đoàn kinh tế Nghiên cứu tình h

CC0500_Employee Change Request.VIE_ Eff ( Activated, Traditional)

Microsoft Word Tong hop ket qua dot khao sat KTVM 6 thang cuoi nam 2014

Microsoft PowerPoint - GioiThieu_PMCBCCVC.pptx

NGÂN HÀNG CÔNG THƯƠNG VIỆT NAM Vietnam Bank for Industry and Trade BÁO CÁO THƯỜNG NIÊN ANNUAL REPORT

HEINONLINE

Khóa h?c SEO cao c?p 02- Bu?i 1

HƯỚNG DẪN ĐIỀN HỒ SƠ ỨNG TUYỂN

Microsoft Word - vanhoabandia (1)

Microsoft Word _TranNgocVuong

Cấu trúc và khối lượng kiến thức được xây dựng theo quyết định số 01/QĐ-ĐHQG-ĐH&SĐH ngày 05/01/2009 của Giám đốc ĐHQG-HCM

TÊN CHƯƠNG

Bản tin nội bộ THẾ GIỚI THẺ MK Bản tin điện tử nội bộ THẾ GIỚI THẺ MK Smart vinh dự được trao giải thưởng Sao Khuê 2017 TP Bank miễn phí ứng dụng xác

Đinh Th? Thanh Hà - MHV03040

FAQs Những câu hỏi thường gặp 1. What is the Spend Based Rewards program for Visa Vietnam? The Spend Based Rewards program for Visa Vietnam is a servi

NẮM BẮT XU HƯỚNG BỨT PHÁ THÀNH CÔNG 1

ĐỀ ÁN

Hướng dẫn sử dụng 1

TÀI LIỆU HƯỚNG DẪN CÀI ĐẶT CÁC SẢN PHẨM CỦA OFFICE 365

Giáo án cho các lớp K 12 tại Gwinnett được gọi là Kỹ Năng và Kiến Thức Học Đường (AKS) Và Kỹ năng (AKS) và phù hợp với Tiêu chuẩn Xuất sắc của Georgia

MỞ ĐẦU

ẤN QUANG PHÁP SƯ VĂN SAO TỤC BIÊN ẤN QUANG PHÁP SƯ VĂN SAO TỤC BIÊN Giảng giải: Đại Sư Ấn Quang Việt dịch: Bửu Quang Tự đệ tử Như Hòa PHẦN MƯỜI HAI 19

Newletter 15 year

VINCENT VAN GOGH

Tái sản xuất tư bản xã hội Tái sản xuất tư bản xã hội Bởi: unknown ĐIỀU KIỆN THỰC HIỆN TRONG TÁI SẢN XUẤT GIẢN ĐƠN VÀ TÁI SẢN XUẤT MỞ RỘNG TƯ BẢN XÃ H

Bài tập Lý thuyết xác suất và thống kê - Chương 5,6,7 CHƯƠNG 5,6,7 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ 1. Giả sử có hai nhà kinh tế định ước lượng mức chi

Bản dịch Bảng dữ liệu dự án này dựa trên bản gốc bằng tiếng Anh ra ngày 1 tháng 4 năm Bảng Dữ liệu Dự án Bảng Dữ liệu Dự án (PDS) bao gồm các th

Microsoft Word - Pressemitteilung_Schiebetuerbeschlaege_M072013_VI

TRƯỜNG THPT CHUYÊN NGUYỄN HUỆ - HÀ NỘI Mã đề thi 209 ĐỀ THI HỌC KÌ II LỚP 12 NĂM HỌC Môn: Toán Thời gian làm bài: 90 phút (50 câu trắc nghiệ

Microsoft PowerPoint - L2-Gioi_thieu_WEKA.ppt [Compatibility Mode]

Computer Architecture

ĐỀ CƯƠNG BÀI LUẬN VẦ DỰ ĐỊNH NGHIÊN CỨU

Những chỉ tiêu đánh giá hiệu quả sử dụng vốn của doanh nghiệp Những chỉ tiêu đánh giá hiệu quả sử dụng vốn của doanh nghiệp Bởi: Nguyễn Hoàng Minh Khá

Microsoft Word - READING 1

Microsoft Word - Luan an.doc

251 SỰ LÃNH ĐẠO BẰNG CHÁNH NIỆM VÌ HÒA BÌNH BỀN VỮNG TRONG VĂN HÓA VĂN HỌC PHẬT GIÁO VIỆT NAM (TỪ TRUYỀN THỐNG ĐẾN ĐƯƠNG ĐẠI) Nguyễn Hữu Sơn * 1. MỞ Đ

Đề thi thử THPT Quốc Gia 2019 môn Toán Trường THPT Chuyên ĐH Vinh - Nghệ An - Lần 1

TÀI LIỆU NHỮNG CÁNH CỬA BỎ NGỎ NGHIÊN CỨU CHO THẤY MÁY IN CÓ THỂ DỄ DÀNG BỊ TẤN CÔNG MẠNG. Trong khi đội ngũ CNTT tập trung vào các thiết bị đầu cuối

10 Vạn Câu Hỏi Vì Sao - Tin Học

Slide 1

CHƯƠNG 10

Microsoft Word - Tran Thi Thuy Linh.doc

17. CTK tin chi - CONG NGHE KY THUAT O TO.doc

11_Xac suat thong ke_P2_BaiGiang

Con Đường Giải Thoát Thích Nhất Hạnh Mục Lục Chương 01: An Trú Trong Hiện Tại Chương 02: Mười Sáu Phép Quán Niệm Hơi Thở Chương 03: Ôm Ấp và Chăm Sóc

PowerPoint Template

CÁC PHƯƠNG PHÁP GIẢNG DẠY TÍCH CỰC

Tài liệu hướng dẫn EcoVadis Làm thế nào để đảm bảo các thông tin được cung cấp có liên quan đến phần đánh giá Phân loại tài liệu Tài liệu EcoVadis côn

KOSMO TÂY HỒ Address. 101 Xuan La, Tay Ho Dist, Ha Noi, Vietnam Hotline Mặt bằng tầng

Bản ghi:

IT4853 Tìm kiếm và trình diễn thông tin Bài 8. Đánh giá kết quả tìm kiếm (2) IIR.C8. Evaluation in information retrieval Bộ môn Hệ thống thông tin Viện CNTT & TT

Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu kiểm thử

MRR MRR đánh giá cao kết quả phù hợp ở đầu danh sách. MRR thường được sử dụng để đánh giá kết quả tìm kiếm khi chỉ có một văn bản phù hợp: Tìm kiếm trang chủ của một tổ chức, vấn tin về một sự kiện v.v.; Kết quả phù hợp càng xa vị trí đầu danh sách người dùng càng tốn nhiều thời gian tiếp cận văn bản đó; Trung bình hạng nghịch đảo: MRR: Mean Reciprocal Rank 3

MRR (2) Gọi K là vị trí của kết quả đầu tiên phù hợp với q RR(q )= 1 K Gọi Q là tập truy vấn mẫu: MRR(Q )= 1 Q q Q MRR(Q )= 1 Q q Q RR (q ) 1 K q 4

Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu

Phù hợp đa mức Đánh giá sự phù hợp của văn bản và truy vấn theo nhiều mức khác nhau: Ký hiệu reli là mức phù hợp của văn bản d i ; rel = 0 là không phù hợp; reli > rel j, thể hiện văn bản d i phù hợp hơn so với văn bản d j. 6

NDCG NDCG: Được đo trên bộ dữ liệu kiểm thử phù hợp đa mức; Ngày càng được sử dụng rộng rãi hơn để đánh giá kết quả tìm kiếm trên Web và đánh giá các phương pháp học xếp hạng; Khái niệm cơ bản của NDCG là khái niệm lợi ich. Thuật ngữ: N: Normalized: Chuẩn hóa; D: Discounted: cắt giảm; C: Cumulative: Tổng hợp; G: Gain: Lợi ích; NDCG: Normalized Discounted Cumulative Gain. 7

Lợi ích Lợi ích của một kết quả tìm kiếm tỉ lệ thuận với mức phù hợp của kết quả: Kết quả càng phù hợp thì càng hữu ích với người dùng, và càng đóng góp nhiều vào lợi ích của tập kết quả. Thuật ngữ: Lợi ích: G: Gain 8

Tổng lợi ích CG của n kết quả tìm kiếm đầu tiên CG = r1 +r 2 + + r n Với r1, r 2, r n là mức phù hợp của các văn bản Thuật ngữ: Tổng lợi ích: CG: Cumulative Gain 9

Tổng lợi ích thuyên giảm Thuật ngữ: Tổng lợi ích thuyên giảm: DCG: Discounted Cumulative Gain 10

Tổng lợi ích thuyên giảm (2) Công thức khấu trừ giá trị lợi ích khác: Nhấn mạnh những văn bản có độ phù hợp cao 11

Ví dụ 10 văn bản đã xếp hạng được đánh giá theo thang điểm phù hợp 0-3: 3, 2, 3, 0, 0, 1, 2, 2, 3, 0 DG: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0 = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0 DCG: 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61 12

Chuẩn hóa NDCG: là giá trị chuẩn hóa bằng cách chia DCG của tập kết quả cho DCG của xếp hạng mẫu. Xếp hạng mẫu là thứ tự giảm dần mức phù hợp của văn bản; Giá trị chuẩn hóa thích hợp để so sánh những kết quả có số lượng văn bản phù hợp khác nhau. NDCG: Normalized Discounted Cumulative Gain 13

Ví dụ 4 văn bản: d 1, d 2, d 3, d 4 i Thứ tự văn bản Giá trị mẫu Hàm xếp hạng 1 Hàm xếp hạng 2 r i Thứ tự văn bản r i Thứ tự văn bản 1 d4 2 d3 2 d3 2 2 d3 2 d4 2 d2 1 3 d2 1 d2 1 d4 2 4 d1 0 d1 0 d1 0 NDCG GT =1.00 NDCG RF1 =1.00 NDCG RF2 =0.9203 r i DCG GT =2+ ( 2 log 2 2 + 1 log 2 3 + 0 log 2 4 ) =4.6309 DCG RF1=2+ ( 2 log 2 2 + 1 log 2 3 + 0 log 2 4 ) =4.6309 DCG RF2 =2+ ( 1 log 2 2 + 2 log 2 3 + 0 log 2 4 ) =4.2619 MaxDCG=DCG GT =4.6309 14

Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu kiểm thử

Đánh giá tính phù hợp Khó khăn: Sự phù hợp là rất trừu tượng Người dùng thường kết luận văn bản có phù hợp hay không sau khi đọc; Những người dùng khác nhau có thể có đánh giá khác nhau về tính phù hợp của văn bản. Hướng khắc phục: Cần sử dụng chung một định nghi a tường minh thế nào là văn bản phù hợp cho cả nhóm xây dựng tập kết quả mẫu. 16

Ví dụ một truy vấn trong TREC <top> <num> Number: 351 <title> Falkland petroleum exploration <desc> Description: What information is available on petroleum exploration in the South Atlantic near the Falkland islands? <narr> Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant. Documents discussing petroleum exploration in continental South America are not relevant. </top> 17

Định nghi a sự phù hợp TREC định nghi a sự phù hợp như sau: If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant. Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of it is relevant (regardless of how small the piece is in relation to the rest of the document). Giả sử nếu bạn đang viết một báo cáo về chủ đề đang xét và bạn muốn sử dụng thông tin chứa trong một văn bản cụ thể trong báo cáo của mình thì văn bản đó được coi là phù hợp. Chỉ thực hiện đánh giá nhị phân ( phù hợp" hoặc không phù hợp"), và một văn bản được coi là phù hợp nếu một phần bất kỳ của nó là phù hợp (không quan tâm phần đó nhỏ tới mức nào nếu so sánh với phần còn lại của văn bản). 18

Kiểm định đánh giá phù hợp Kết quả thu được bởi các thành viên có thể được sử dụng để đánh giá kết quả tìm kiếm nếu đảm bảo tính thống nhất trên một ngưỡng xác định Đo sự thống nhất bằng cách nào? Mức độ thống nhất giữa các bộ kết quả thường được đo bằng hệ số Kappa 19

Hệ số Kappa P(E) = giá trị mong đợi của tỉ lệ thống nhất ngẫu nhiên, P(A) = tỉ lệ thống nhất giữa những đánh giá Thường chấp nhận к trong khoảng [2/3, 1.0]. Cần điều chỉnh phương pháp đánh giá phù hợp đang sử dụng nếu к quá nhỏ. 20

Ví dụ tính chỉ số kappa Đánh giá 1 Đánh giá 2 Yes No Total Yes 300 20 320 No 10 70 80 Total 310 90 400 Theo dõi tỉ lệ số lần thống nhất của kết quả P(A) = (300 + 70)/400 = 370/400 = 0.925 Giá trị biên tổng hợp P(không phù hợp) = (80 + 90)/(400 + 400) = 170/800 = 0.2125 P(phù hợp) = (320 + 310)/(400 + 400) = 630/800 = 0.7878 Giá trị xác suất của sự thống nhất ngẫu nhiên P(E) = P(không phù hợp) 2 + P(phù hợp) 2 = 0.21252 2 + 0.78782 2 = 0.665 Chỉ số kappa к = (P(A) P(E))/(1 P(E)) = (0.925 0.665)/(1 0.665) = 0.776 (trong khoảng được chấp nhận) 21

Bài tập 8.1 GT1 GT2 q 1 NRNNN NNNNR q 2 NNRNN RNNNN So sánh hai giải thuật theo tham số MRR 22

Bài tập 8.2 Giả sử hệ thống tìm kiếm trả về tập kết quả là {4, 5, 6, 7, 8}: a) Tính kappa giữa hai danh sách kết quả đánh giá; b) Tính P, R và F1 trong trường hợp văn bản được coi là phù hợp nếu cả hai cùng đánh giá là phù hợp; c) Tính P, R và F1 trong trường hợp văn bản được coi là phù hợp nếu một trong hai đánh giá là phù hợp. d) Thiết lập hai danh sách kết quả bất kỳ để: d1) kappa = -1; d2) kappa = 1; 23

24