Bài giảng Khai phá dữ liệu (Datamining)

Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Luật kết hợp 2 Chương 3: Phân lớp dữ liệu 3 Chương 4: Chuỗi phổ biến 4 Chương 5: Gom cụm dữ liệu 5 Chương 6: Nhà kho dữ liệu 5

pdf18 trang | Chia sẻ: mamamia | Lượt xem: 4272 | Lượt tải: 4download
Bạn đang xem nội dung tài liệu Bài giảng Khai phá dữ liệu (Datamining), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
LOGO 12/07/2014 Khai phá dữ liệu (Datamining) Phan Mạnh Thường 7/12/2014 www.lhu.edu.vn Thông tin về môn học • Số tiết lý thuyết : 45 • Số tiết thực hành : 30 Thời lượng • Nắm vững kiến thức cơ sở dữ liệu • SQL Server và ngôn ngữ T-SQL • Lập trình Visual.NET Điều kiện Cung cấp các kiến thức về • Các phương pháp khai phá dữ liệu • Nhà kho dữ liệu Mục tiêu 7/12/2014 www.lhu.edu.vn Thông tin về môn học 1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005 2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001. 3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 4. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 5. John Wang, Data mining: opportunities and challenges, Idea Group, 2003 6. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005 Tài liệu tham khảo 7/12/2014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Luật kết hợp2 Chương 3: Phân lớp dữ liệu3 Chương 4: Chuỗi phổ biến4 Chương 5: Gom cụm dữ liệu5 Chương 6: Nhà kho dữ liệu5 7/12/2014 www.lhu.edu.vn Thông tin về môn học Gồm 3 cột điểm: • Điểm chuyên cần (10%): điểm danh buổi học (Lưu ý: nghỉ quá 30% số tiết bị cấm thi) • Điểm kiểm tra (30%): bài tập, seminar • Điểm thi (60%): làm bài thi trên máy Đánh giá Tổng quan Chương 1 Các kỹ thuật khai phá4 Các khái niệm cơ bản1 Các giai đoạn khai phá tri thức2 Ứng dụng của khai phá dữ liệu 3 Nội dung 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan  Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta tập hợp hàng ngày trong công việc  Thông tin (Information): là tập hợp của những mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc tính của một đối tượng nào đó  Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, có thể xem tri thức là sự kết tinh từ dữ liệu. Tri thức thể hiện tư duy của con người về một vấn đề Các khái niệm cơ bản 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan  Khám phá tri thức từ cơ sở dữ liệu: (Knowledge Discovery in Databases – KDD)  “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996)  “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế  Các khái niệm cơ bản 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan  Nhà bác học nổi tiếng Karan Sing đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức”.  Dữ liệu được thu thập hàng ngày là rất lớn  Các CSDL khổng lồ  Dữ liệu từ Internet  Theo các báo cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các Database là những tri thức quý giá Tại sao phải khai phá dữ liệu ? 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Khai phá dữ liệu là gì?  Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm:  Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn  Phân tích dữ liệu bán tự động  Giải thích dữ liệu trên các tập dữ liệu lớn . 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Lợi ích của khai phá dữ liệu EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems Số lượng Giá trị MIS DSS EDP 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Nghiên cứu lĩnh vực Rút gọn / chiều Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Chọn tác vụ Khai thác dữ liệu , t / i 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Chọn các thuật giải KTDL Biểu diễn tri thức KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được Sử dụng các tri thức vừa khám phá 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Từ dữ liệu đến quyết định Dữ liệu • Customer data • Store data • Demographical Data • Geographical data Thông tin • X lives in Z • S is Y years old • X and S moved • W has money in Z Tri thức • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Quyết định • Promote product A in region Z. • Mail ads to families of profile P • Cross-sell service B to clients C 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Các ứng dụng Kinh doanh - Phân tích dữ liệu bán hàng và tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Sản xuất - Điều khiển và lập lịch - Quản trị mạng lưới - Phân tích kết quả thử nghiệm Khoa học - Không gian - Sinh học - Địa lý - etc. Y học - Bệnh lý - Sinh học 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Các kỹ thuật sử dụng Phân lớp Mẫu tuần tự ? Nhà kho- OLAP Gom cụm Luật kết hợpDự đoán Tìm các đặc trưng của lớp các đối tượng và sử dụng để phân lớp dữ liệu mới. Dữ đoán dữ liệu tương lai dựa trên dữ liệu quá khứ. Xác định các cụm tiềm ẩn trong các tập đối tượng chưa được xếp lớp. Xác định trật tự dữ liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá Tìm các mẫu phổ biến từ dữ liệu và mối quan hệ của các đối tượng dữ liệu. Khám phá các mẫu tín hiệu phổ biến nhất từ dữ liệu các sự kiện 7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Kết luận  KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ CSDL lớn  Các bước của KDD  Tiền xử lý  KTDL( data mining tasks)  Hậu xử lý  Các quan niệm, khía cạnh …  CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)  Tri thức (đặc trưng, gom cụm, kết hợp, …)  Kỹ thuật (máy học, thống kê, trực quan hóa, …)  Ứng dụng (bán lẻ, điện thoại, khai thác Web …)