Microsoft PowerPoint - L1-Gioi_thieu_khai_pha_du_lieu.ppt [Compatibility Mode]

Tài liệu tương tự
Microsoft PowerPoint - L2-Gioi_thieu_WEKA.ppt [Compatibility Mode]

TRUNG TÂM ĐÀO TẠO LẬP TRÌNH VIÊN QUỐC TẾ

1 Überschrift 1

ỨNG DỤNG HỆ TƯ VẤN TRONG ĐỌC TIN TỨC TRỰC TUYẾN Bùi Thị Hồng Nhung Khoa Hệ thống thông tin Quản lý Học viện Ngân hàng Điện

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LÝ LỊCH KHOA HỌC (Thông tin trong 5 năm gần nhất và có liên quan trực tiếp đến đề

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Microsoft Word - kham-pha-quyen-nang-thuong-mai-dien-tu-trong-07-gio-free.doc

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC:

Quy tắc Ứng xử của chúng tôi Sống theo giá trị của chúng tôi

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Tảo Ngày sinh: 05/1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN V

Microsoft Word - Chương trình ĂÀo tạo - Website

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI TRUNG HIẾU NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN QUẢN LÝ DÂN CƯ LU

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Văn Huân Ngày sinh: 10/

ĐỀ CƯƠNG BÁO CÁO CHÍNH TRỊ TRÌNH ĐẠI HỘI ĐẢNG BỘ TỈNH LẦN THỨ XV

Đại Học Y Dược Thành Phố Hồ Chí Minh Khoa Y Trung Tâm Huấn Luyện Nâng Cao Mô Phỏng Lâm Sàng SỔ TAY SINH VIÊN Tháng

2 2. Quỹ hoạt động theo mô hình Công ty trách nhiệm hữu hạn một thành viên do Nhà nước nắm giữ 100% vốn điều lệ. 3. Quỹ có tư cách pháp nhân, có vốn đ

LỜI GIỚI THIỆU Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage : C

TÊN CHƯƠNG

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÝ LỊCH KHOA HỌC 1. THÔNG TIN CÁ NHÂN Họ và tên: Nguyễn Thị Hằng Ngày sinh: 10/

8/22/2016 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY Nội dung lý thuyết Phần 1 Nhập môn và các kỹ năng Bài 1 Giới thiệ

UL3 - APTDUV [Watermark]

PHẦN III. NỘI DUNG CHƯƠNG TRÌNH ĐÀO TẠO 1. Tóm tắt yêu cầu chương trình đào tạo Tổng số tín chỉ của chương trình đào tạo: Khối kiến thức chung 158 tín

Bài thu hoạch chính trị hè Download.com.vn

SỔ TAY NHÂN VIÊN SỔ TAY NHÂN VIÊN

Số: 251/2019/BC-CTY TP.HCM, ngày 02 tháng 04 năm 2019 BÁO CÁO TỔNG KẾT HOẠT ĐỘNG KINH DOANH NĂM 2018 A. BỐI CẢNH THỊ TRƢỜNG: - Kinh tế Việt Nam 2018 đ

Dien toan dam may.docx

JURGEN WOLFF TẬP TRUNG - SỨC MẠNH CỦA TƯ DUY CÓ MỤC TIÊU FOCUS: THE POWER OF TARGETED THINKING, Bản quyền tiếng Việt 2009 Công ty Sách Alpha Phan Thu

Whitepaper | Gron Digital

10 Vạn Câu Hỏi Vì Sao - Tin Học

(Microsoft Word - T\363m t?t lu?n van - Nguy?n Th? Ho\340i Thanh.doc)

Microsoft Word - vanhoabandia (1)

Microsoft Word - NOI DUNG BAO CAO CHINH TRI.doc

CHÍNH SÁCH TÀI KHÓA 2013 VÀ NHỮNG THÁCH THỨC TRONG NGẮN HẠN VÀ TRUNG HẠN TS. Vũ Sỹ Cường 88 Dẫn nhập Sau khi lạm phát tăng mạnh vào năm 2011 thì năm 2

Microsoft Word - thuat-ngu-thuong-mai-dien-tu.docx

BỘ QUY TẮC ỨNG XỬ Chúng ta hoạt động trong một nền văn hóa với các tiêu chuẩn đạo đức cao nhất

FB.000.Bia

Lời giới thiệu Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage : C

Sống theo các giá trị và kỳ vọng của chúng ta Quy tắc ứng xử của chúng ta

I - CÁC KHÁI NIỆM VỀ CHỢ VÀ PHÂN LOẠI CHỢ :

NHỮNG ĐIỀU CẦN BIẾT KHI HỌC TẠI TDTU NĂM 2019 Điều 4. Quyền của sinh viên: TRÍCH QUI CHẾ CÔNG TÁC SINH VIÊN 1. Được nhận vào học đúng ngành, nghề đã đ

0.00 Trang bia

CÁC PHƯƠNG PHÁP GIẢNG DẠY TÍCH CỰC

QUỐC HỘI

TÓM TẮT LUẬN VĂN 1. Lời mở đầu Thù lao lao động là yếu tố giữ vai trò rất quan trọng trong công tác quản trị nhân sự của doanh nghiệp. Qua 5 năm thành

Nghị luân xã hội về vấn nạn Game online trong học đường

QUỐC HỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Luật số: 29/2013/QH13 Hà Nội, ngày 18 tháng 6 năm 201

Trường Đại học Văn Hiến TÀI LIỆU MÔN HỌC KỸ NĂNG MỀM (Lưu hành nội bộ) KỸ NĂNG GIẢI QUYẾT VẤN ĐỀ VÀ RA QUYẾT ĐỊNH Biên soạn: ThS. Nguyễn Đông Triều

TRẢI NGHIỆM ĐỈNH CAO, SỐNG SÀNH ĐÚNG ĐIỆU 1

Microsoft Word _TranNgocVuong

Giải pháp bảo đảm an toàn thông tin trong tình hình hiện nay

Luận văn tốt nghiệp

Microsoft Word - 10 quy tac then chot ve bao mat.doc

Xây Dựng Con Thuyền Tài Chính Của Bạn Series Dạy Con Làm Giàu Tập 12 Robert T. Kiyosaki & Sharon L. Lechter Chia sẽ ebook :

Trung tâm WTO và Hội nhập Phòng Thương mại và Công nghiệp Việt Nam NGHIÊN CỨU CHÍNH SÁCH RỦI RO ĐỐI VỚI NGÀNH BÁN LẺ VIỆT NAM TRONG BỐI CẢNH HỘI NHẬP

Cái ngày thay đổi cuộc đời tôi Lời nói đầu Sau khi bước sang tuổi 25 không bao lâu, tôi gặp một người đàn ông tên là Earl Shoaff. Thực sự, tôi đã khôn

Microsoft Word - 38_CDR_ _Kinhdoanhthuongmai.doc

365 Ngày Khai Sáng Tâm Hồn Osho Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage :

PowerPoint Template

Microsoft Word - SGV-Q4.doc

TỈNH ỦY KHÁNH HÒA

THỦ TƯỚNG CHÍNH PHỦ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 950/QĐ-TTg Hà Nội, ngày 01 tháng 08 năm

Microsoft Word - ICT-rda08HBQuoc.doc

Tác giả: Giáo sư Andreas Thalassinos (Trưởng phòng Đào tạo của FXTM)

Chinh phục tình yêu Judi Vitale Chia sẽ ebook : Tham gia cộng đồng chia sẽ sách : Fanpage :

TIÕP CËN HÖ THèNG TRONG Tæ CHøC L•NH THæ

Print

CẢI CÁCH GIÁO DỤC

Table of Contents Marketing du kích: Lời nói đầu NGÀY THỨ NHẤT: Tư duy marketing du kích NGÀY THỨ HAI: Mục đích marketing NGÀY THỨ BA: Cạnh tranh và n

QUY CHẾ ỨNG XỬ Mã số: NSĐT/QC-01 Soát xét: 00 Hiệu lực: 03/07/2018 MỤC LỤC Trang CHƯƠNG I. QUY ĐỊNH CHUNG... 3 Điều 1. Phạm vi điều chỉnh và đối tượng

LỜI NÓI ĐẦU Mục lục CHƯƠNG 1: ĐƯA KHOA HỌC VÀO TRƯỜNG HỌC Chúng ta cần đánh thức từ trong sâu thẳm tâm hồn những người làm công tác giáo dục lòng nhiệ

Successful Christian Living

THƯ MỤC TẠP CHÍ XÂY DỰNG SỐ 3 NĂM 2018 Trung tâm Thông tin Thư viện trân trọng giới thiệu Thư mục Tạp chí Xây dựng số 3 năm Một số vấn đề về

Microsoft Word - coi-vo-hinh.docx

Báo cáo Nghiên cứu CƠ CHẾ HỖ TRỢ DOANH NGHIỆP KHỞI NGHIỆP SÁNG TẠO Kinh nghiệm quốc tế - Đề xuất giải pháp cho Việt Nam

Microsoft Word - BussinessPlanBook-Vietnam-skabelon-nybund.doc

Ác cầm, nắm Tráp đối xử Ỷ ỷ lại Uy uy quyền Vi hành vi 1 2 Vĩ vĩ đại Vi sai khác Duy buộc Vĩ vĩ độ Nhất số một 2 3 Dụ củ khoai Â

CHƯƠNG 1

So tay luat su_Tap 3_ _file in.indd

Việc hôm nay (cứ) chớ để ngày mai

595 MĂ T TRÁI CỦA CUỘC CÁCH MẠNG CÔNG NGHIỆP 4.0 TT. Thích Nhật Từ 1. BẢN CHẤT CỦA CÁC CUỘC CÁCH MẠNG CÔNG NGHIỆP Mùa an cư năm 2018, tôi trình bày ch

M¤ §UN 6: GI¸o dôc hoµ nhËp cÊp tiÓu häc cho häc sinh tù kû

LỜI CAM ĐOAN

Microsoft Word - 2- Giai phap han che su phu thuoc kinh te vao Trung Quoc.doc

BP Code of Conduct – Vietnamese

Hành động liêm chính Quy trình Quản lý Quy tắc Hành xử tại Celestica

BỘ CÔNG THƢƠNG TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP TP.HCM KHOA QUẢN TRỊ KINH DOANH LUẬN VĂN TỐT NGHIỆP HOÀN THIỆN HỆ THỐNG PHÂN PHỐI CHO CÔNG TY TRÁCH NHIỆM HỮ

1 va 2

Đinh Th? Thanh Hà - MHV03040

LUẬT BẤT THÀNH VĂN TRONG KINH DOANH Nguyên tác: The Unwritten Laws of Business Tác giả: W. J. King, James G. Skakoon Người dịch: Nguyễn Bích Thủy Nhà

CÔNG BÁO/Số /Ngày QUY TRÌNH KIỂM TOÁN BÁO CÁO QUYẾT TOÁN NGÂN SÁCH NHÀ NƯỚC (Ban hành kèm theo Quyết định số 03/2013/QĐ-KTNN ng

LỜI CẢM ƠN Tôi xin trân trọng gửi lời cảm ơn tới Ban giám hiệu, Phòng Đào tạo Đại học, Bộ môn Điều Dưỡng đã tạo điều kiện thuận lợi cho tôi trong quá

Thứ Tư Số 363 (6.615) ra ngày 28/12/ CHỦ TỊCH NƯỚC TRẦN ĐẠI QUANG: XUẤT BẢN TỪ NĂM 1985 BỘ TRƯỞNG LÊ

MỤC LỤC Lời nói đầu Chương I: TÀI HÙNG BIỆN HẤP DẪN SẼ GIÀNH ĐƯỢC TÌNH CẢM CỦA KHÁCH HÀNG Chương II: LÀM THẾ NÀO ĐỂ NÂNG CAO TÀI HÙNG BIỆN Chương III:

Trường Đại học Dân lập Văn Lang - Nội san Khoa học & Đào tạo, số 5, 11/2005 NHÓM HỌC TẬP SÁNG TẠO THS. NGUYỄN HỮU TRÍ Trong bài viết này tôi muốn chia

Brochure Privater - Tieng viet view Sercure

Microsoft Word _NgoQuocPhuong

(Microsoft Word - 4. \320\340o Thanh Tru?ng doc)

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHÒNG THANH TRA PHÁP CHẾ - SỞ HỮU TRÍ TUỆ BẢNG SO SÁNH NỘI DUNG LUẬT GIÁO DỤC ĐẠI HỌC NĂM 2012 VÀ LUẬT SỬA ĐỔI, BỔ SU

Bản ghi:

Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ Thông tin và Truyền thông Năm học 2011-2012

Nội dung môn học: Giới thiệu về Khai phá dữ liệu Giới thiệu về công cụ WEKA Tiền xử lý dữ liệu Phát hiện các luật kết hợp Các kỹ thuật phân lớp vàdự đoán Các kỹ thuật phân nhóm 2

Tại ạ sao cần khai phá dữ liệu? ệ Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes Thu thập dữ liệu và sự tồn tại của dữ liệu Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số Các nguồn ồ dữ liệu phong phú Kinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khoán, Khoa học: Tín hiệu cảm biến, tin sinh, thí nghiệm mô phỏng/giả lập, Xã hội: Tin tức, máy ảnh số, các mạng xã hội Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) tri thức Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất lớn, để khám phá ra các tri thức 3

Khai phá dữ liệu ệ Định nghĩa Khai phá dữ liệu (Data mining DM) Khám phá tri thức từ dữ liệu (Knowledge discovery from data) Là việc trích rút ra được các mẫu hoặc tri thức quan trọng từ một lượng dữ liệu (rất) lớn quan trọng = không tầm thường, ẩn, chưa được biết đến, và có thể hữu ích Các tên gọi khác Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases - KDD) Trích rút tri thức (Knowledge extraction) Phân tích mẫu/dữ liệu (Data/pattern analysis) Khai phá dữ liệu khác với Tìm kiếm thông tin (Information retrieval) Xử lý các câu truy vấn (SQL) đối với các cơ sở dữ liệu 4

DM: Lịch ị sử phát triển 1989 IJCAI Workshop on Knowledge Discovery in Databases Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD 95-98) 98) Journal of Data Mining and Knowledge Discovery (1997) ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations More conferences on data mining PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. ACM Transactions on KDD starting in 2007 5

Các bước của quá trình KD 1. Tìm hiểu lĩnh vực của bài toán (ứng dụng) Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực 2. Tạo nên (thu thập) một tập dữ liệu phù hợp 3. Làm sạch và tiền xử lý dữ liệu 4. Giảm kích thước của dữ liệu, chuyển đổi dữ liệu Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5. Lựa chọn chức năng khai phá dữ liệu Tóm tắt hóa (summarization), ation) phân loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm 6. Lựa chọn/phát triển (các) giải thuật khai phá dữ liệu phù hợp 7. Tiến hành quá trình khai phá dữ liệu 8. Đánh giá mẫu thu được và biểu diễn tri thức Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, 9. Sử dụng các tri thức được khám phá 6

Quá trình khám phá tri thức (1) Đây là cách nhìn của giới nghiên cứu về các hệ thống dữ liệu vàkhodữ liệu Khai phá dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức Task-relevant Data Data Mining Pattern Evaluation Data Warehouse Selection Data Cleaning Data Integration Databases (Han and Kamber - Data mining: Concepts and Techniques) 7

Quá trình khám phá tri thức (2) (Han and Kamber - Data mining: Concepts and Techniques) Input Data Data Pre- Processing Data Mining Post- Processing Data integration Normalization Feature selection Dimension reduction Pattern discovery Association & correlation Classification Clustering Outlier analysis Pattern evaluation Pattern selection Pattern interpretation Pattern visualization Đây là cách nhìn của giới nghiên cứu về học máy và thống kê 8

Kiến trúc hệ thống khai phá dữ liệu Graphical User Interface Pattern Evaluation Data Mining Engine Knowledge base Database or Data Warehouse Server data cleaning, integration, and selection Database Data Warehouse World-Wide Web Other Info Repositories (Han and Kamber - Data mining: Concepts and Techniques) 9

Khai phá dữ liệu cho kinh doanh Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery End User Business Analyst Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA (Han and Kamber - Data mining: Concepts and Techniques) 10

DM Các lĩnh vực ự liên quan Công nghệ cơ sở dữ liệu (Database technology) Giải thuật (Algorithm) Thống kê (Statistics) Học máy (Machine learning) Nhận dạng mẫu (Pattern recognition) Hiển thị hóa (Visualization) Tính toán hiệu năng cao (High-performance computing) 11

Phân tích dữ liệuệ Lượng dữ liệu rất lớn Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với những tập dữ liệu lên đến hàng terabytes, hoặc thậm chí petabytes Dữ liệu được biểu diễn trong không gian nhiều chiều (số lượng rất lớn các thuộc tính) Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được biểu diễn bởi hàng chục ngàn thuộc tính Dữ liệu có độ phức tạp (rất) cao Các luồng ồ dữ liệu và àdữ liệu thu nhận từ các mạng cảm ả biến Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, chuỗi dữ liệu Dữ liệu cócấu cấu trúc,dữ liệu dạng đồ thị, cácmạng xã hội Các cơ sở dữ liệu hỗn tạp Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện Cần các chương trình (ứng dụng) ụ phân tích dữ liệu ệ mới, phức tạp hơn 12

DM Nhiều cách nhìn (quan điểm) Dữ liệu được khai phá Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ liệu hướng ớ đối tượng, dữ liệu phụ thuộc ộ không gian, dữ liệu liên tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện, dữ liệu hỗn tạp, dữ liệu trên WWW, Tithứ Tri thức được khám phá Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu hướng/dịch chuyển, phân tích ngoại lai (outlier) Các kỹ thuật được sử dụng Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê, hiển thị hóa, Các ứng dụng (bài toán) thực tế Kinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài chính, khai phá dữ liệu sinh học, phân tích thị trường chứng khoán, khai phá văn bản, khai phá Web, 13

DM Các cách phân biệtệ Theo chức năng tổng quát Khai phá dữ liệu mô tả: Tìm các mẫu (màconngười người cóthể hiểu/diễn giải được) biểu diễn/mô tả dữ liệu Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá trị (chưa biết, hoặc trong tương lai) của các biến khác Các cách nhìn (quan điểm) khác nhau dẫn đến các cách phân biệt khác nhau về Khai phá dữ liệu Dựa theo dữ liệu: Những kiểu dữ liệu nào được khai phá? Dựa theo tri thức: Những kiểu tri thức nào được khám phá? Dựa theo phương pháp: Những kiểu kỹ thuật nào được ápdụng? Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán) nào phù hợp để giải quyết? 14

DM: Khái quát hóa Tích hợp thông tin và xây dựng các kho dữ liệu Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô hình dữ liệu nhiều chiều (multi-dimensional data model) Công nghệ khối dữ liệu (data cube) Các phương pháp hiệu quả để tính toán kết hợp nhiều chiều của dữ liệu Xử lý phân tích trực tuyến (Online analytical processing OLAP) Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự phân biệt Tổng quát hóa, tóm tắt, và tương phản cácđặc tính của dữ liệu Vd: Các vùng khô vs. các vùng ướt 15

DM: Phân tích kết hợp và tương quan Các mẫu hoặc các tập mục (itemsets) thường xuyên Những mục ụ (sản phẩm) nào thường xuyên được mua cùng nhau, trong siêu thị BigC? Kếthợp (association), tương quan (correlation), và nguyên nhân (causality) Ví dụ về một luật kết hợp (association rule) Bánh mỳ Sữa [0.5%, 75%] (độ hỗ trợ support, độ tin cậy ậ confidence) Các mục kết hợp ở mức cao, thì cũng tương quan ở mức cao? Làm thế nào để khám phá các mẫu (luật) như vậy trong các tập dữ liệu lớn? 16

DM: Phân lớp và dự ự đoán Phân lớp (classification) và dự đoán (prediction) Xây dựng các mô hình (các hàm mục tiêu) dựa trên một số ví dụ học/huấn ấ luyện ệ Mô tả và phân biệt các lớp (các khái niệm) cho việc dự đoán trong tương lai Phân lớp cácvídụ mới, hoặc dự đoán các giá trị kiểu số Các phương pháp điển hình Cây quyết định (Decision tree learning), Phân lớp Naïve Bayes (Naïve Bayes classification), Máy vectơ hỗ trợ (Support vector machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear regression), Các ứng dụng điển hình Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với từng người), phân loại/dự ạ ự đoán các loại ạ bệnh, ệ,phân loại ạ các trang Web, 17

DM: Phân cụm và phân tích ngoại lai Phân cụm (Cluster analysis) Phương pháp học không giám sát (unsupervised learning) không có thông tin về nhãn lớp Nhóm dữ liệu lại thành các cụm (clusters) Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong cùng một cụm nhưng cực tiểu hóa sự tương tự giữa cácđối tượng khác cụm Có rất nhiều phương pháp và ứng dụng (bài toán) Phân tích ngoại lai (Outlier analysis/detection) Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng khác (trong một cụm) Nhiễu của ủ dữ liệu, hay là ngoại ilệ? Các phương pháp: phân cụm, phân tích hồi quy, Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc phân tích các sự kiện hiếm khixảy ra 18

DM: Phân tích xu hướng và tiến triển Phân tích chuỗi (sequence), xu hướng (trend), và tiến triển (evolution) Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng) Khai phá các mẫu kiểu chuỗi (sequential patterns) Vd: Đầu tiên mua máy ảnh số, sau đó mua các thẻ nhớ SD dung lượng lớn, Phân tích tính chu kỳ (Periodicity analysis) Phân tích chuỗi dữ liệu liên tục theo thời gian (time-series) và chuỗi dữ liệu sinh học Phân tích dựa trên sự tương tự (Similarity-based analysis) Khai phá các luồng dữ liệu Có thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ liệu 19

DM: Phân tích mạng và cấu trúc Khai phá đồ thị dữ liệu (Graph mining) Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ liệu XML), cáccấu cấu trúc con (dữ liệu Web) thường xuyên xảy ra Phân tích mạng thông tin (Information network analysis) Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các mối quan hệ ệ (các cạnh) ạ Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo Các mạng hỗn tạp (khác nhau) Vd: Một người có thể tham gia nhiều mạng khác nhau (bạn bè, gia đình, bạn cùng lớp/trường, những người cùng sở thích nghe nhạc Rock, ) Các liên kết (links) mang rất nhiều thông tin ngữ nghĩa: Khai phá các liên kết (Link mining) Khai phá Web (Web mining) i WWW là một mạng thông tin khổng lồ: PageRank (Google) Phân tích các mạng thông tin Web Khám phá cộng đồng Web, Khai phá ý kiến (Opinion mining), Khai phá dữ liệu truy cập Web (usage mining) 20

Tất cả các mẫu đều quan trọng? Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng ngàn mẫu Không phải tất cả các mẫu đều quan trọng Các đánh giá về mức độ quan trọng của các mẫu Một mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất định), hữu dụng, mới mẻ, ẻ hoặc ặ giúp xác nhận một giả thiết nào đó của một người dùng Các đánh giá dựa trên mục tiêu (objective) và dựa trên chủ quan (subjective) Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu trúc của các mẫu Vd: dựa trên các giá trị độ hỗ trợ (support), độ tin cậy (confidence) Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người dùng đối với dữ liệu Vd: sự ngạc nhiên, sự mới mẻ, đối với người dùng 21

Đánh giá mức độ quan trọng của mẫu Mức độ đơn giản (Simplicity) Độ dài của cácluật kết hợp Kích thước của cây quyết định học được Mức độ tin cậy y( (Certainty/Confidence) Độ tin cậy (confidence) của các luật kết hợp Độ chính xác của phân lớp học được Mức độ tiện ích (Utility): khả năng hữu ích của mẫu Độ hỗ trợ của các luật kết hợp Ngưỡng nhiễu đối với phân lớp học được Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được biết đến 22

Tìm tất cả các mẫu quan trọng? Tìm tất cả các mẫu quan trọng: Tính hoàn chỉnh (completeness) Một hệ thống khai phá dữ liệu có thể tìm được tất cả các mẫu quan trọng không? Chúng ta có cần phải tìm tất cả các mẫu quan trọng ọ không? Tìm kiếm vét cạn (exhaustive) vs. heuristic Chỉ tìm các mẫu quan trọng: ọ Bài toán tối ưu Một hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng? Các phương pháp Trước hết cứ sinh (tìm) ra tất cả các mẫu, sau đó loại bỏ đi các mẫu không quan trọng (Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan trọng 23

Hiển thị ị các mẫu tìm được Các người dùng khác nhau, các mục đích sử dụng khác nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các mẫu ẫ tìm được Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, Phân cấp khái niệm Tri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn ở mức khái quát hóa cao hơn Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách nhìn khác nhau Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn khác nhau (đối với các mẫu tìm được) ) Luật kết hợp Phân lớp, Phân cụm 24

DM: Các ứng g dụng ụ tiềm năng Phân tích dữ liệu và hỗ trợ quyết định Phân tích và quản lý thị trường Quảng cáo cá nhân (target marketing), quản lý quan hệ khách hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (crossselling), phân chia thị trường Phân tích và quản ả lý rủi ro Dự đoán, giữ khách hàng, phân tích cạnh tranh Phát hiện gian lận và phát hiện các mẫu bất thường (outliers) Các ứng dụng khác Khai phá văn bản (nhóm tin news group, email, tài liệu) Khai phá Web Khai phá dữ liệu luồng (chuỗi) Phân tích dữ liệu sinh học và tin sinh 25

Ứng dụng: Phân tích thị trường (1) Nguồn của dữ liệu từ đâu? Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường xuyên, các phiếu giảm giá, các cuộc ộ gọi phàn nàn của ủ khách h hàng Quảng cáo cá nhân (Target marketing) Tìm ra (xác định) những nhóm khách hàng mẫu có cùng các đặc điểm về sở thích, mức thu nhập, thói quen chi tiêu, Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên Phân tích thị trường (Cross-market analysis) Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra (hoặc giữa các đợt bán hàng), để đưa ra các dự đoán Lập hồ sơ khách hàng (Customer profiling) Những kiểu khách hàng nào mua những mặt hàng nào (phân nhóm, hoặc phân loại) 26

Ứng dụng: Phân tích thị trường (2) Phân tích yêu cầu khách hàng Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng khác nhau Dự đoán những yếu tố nào sẽ thu hút được các khách hàng mới Cung cấp những thông tin tóm tắt Các báo cáo tóm tắt theo nhiều chiều (yếu tố) Các thông tin thống kê (xu hướng, dịch chuyển) 27

Ứng g dụng: ụ Quản lý rủi ro Lập kế hoạch tài chính và đánh giá tài sản Phân tích và dự đoán luồng tiền mặt Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài sản Phân tích các chuỗi dữ liệu tàichính Lập kế hoạch sử dụng tài nguyên Tóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng) Cạnh tranh trong kinh doanh Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu hướng của thị trường Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp Xây dựng chiến lược giá trong một thị trường cạnh tranh cao 28

Ứng g dụng: ụ Phát hiện ệ gian lậnậ Các phương pháp: Phân cụm và xây dựng mô hình dự đoán gian lận, phân tích ngoại lai (outlier) Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch vụ sử dụng thẻ tín dụng, viễn thông Bảo hiểm ô-tô: kịch bản một chuỗi các va chạm Rửa tiền: các giao dịch chuyển tiền đáng ngờ Bảo hiểm ytế: sự móc nối giữa bệnh nhân và bác sỹ, các xét nghiệm không cần thiết Viễn thông: các kiểu cuộc gọi bất thường Công nghiệp bán lẻ: phát hiện các người làm thuê gian lận Chống khủng bố 29

DM: Các vấn đề thách thức Tính hiệu quả (efficiency) và tính ổn định (scalability) của các giải thuật khai phá dữ liệu Các phương pháp khai phá dữ liệu song song, phân tán, luồng (stream), và tăng cường (incremental) Xử lý với dữ liệu có số chiều (số thuộc tính) lớn Xử lý với dữ liệu chứa nhiễu (lỗi), không chắc chắn, không hoàn chỉnh Đưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc, tri thức chuyên gia, tri thức nền tảng (background knowledge) Đánh giá mẫu và tích hợp tri thức Khai phá các kiểu dữ liệu rất khác nhau (dữ liệu tin sinh, Web, mạng thông tin, ) Tích hợp khai phá dữ liệu vào các thiết bị hoạt động Bảo đảm tính an ninh, toàn vẹn, riêng tư trong khai phá dữ liệu 30