Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Luật kết hợp 2
Chương 3: Phân lớp dữ liệu 3
Chương 4: Chuỗi phổ biến 4
Chương 5: Gom cụm dữ liệu 5
Chương 6: Nhà kho dữ liệu 5
18 trang |
Chia sẻ: mamamia | Lượt xem: 4237 | Lượt tải: 4
Bạn đang xem nội dung tài liệu Bài giảng Khai phá dữ liệu (Datamining), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
LOGO
12/07/2014
Khai phá dữ liệu
(Datamining)
Phan Mạnh Thường
7/12/2014 www.lhu.edu.vn
Thông tin về môn học
• Số tiết lý thuyết : 45
• Số tiết thực hành : 30
Thời lượng
• Nắm vững kiến thức cơ sở dữ liệu
• SQL Server và ngôn ngữ T-SQL
• Lập trình Visual.NET
Điều kiện
Cung cấp các kiến thức về
• Các phương pháp khai phá dữ liệu
• Nhà kho dữ liệu
Mục tiêu
7/12/2014 www.lhu.edu.vn
Thông tin về môn học
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan
Kaufmann Publishers, 2002
4. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002
5. John Wang, Data mining: opportunities and challenges, Idea Group, 2003
6. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005,
Wiley Publishing, 2005
Tài liệu tham khảo
7/12/2014 www.lhu.edu.vn
Nội dung môn học
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Luật kết hợp2
Chương 3: Phân lớp dữ liệu3
Chương 4: Chuỗi phổ biến4
Chương 5: Gom cụm dữ liệu5
Chương 6: Nhà kho dữ liệu5
7/12/2014 www.lhu.edu.vn
Thông tin về môn học
Gồm 3 cột điểm:
• Điểm chuyên cần (10%): điểm danh buổi học
(Lưu ý: nghỉ quá 30% số tiết bị cấm thi)
• Điểm kiểm tra (30%): bài tập, seminar
• Điểm thi (60%): làm bài thi trên máy
Đánh giá
Tổng quan
Chương 1
Các kỹ thuật khai phá4
Các khái niệm cơ bản1
Các giai đoạn khai phá tri thức2
Ứng dụng của khai phá dữ liệu 3
Nội dung
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Dữ liệu (Data): có thể xem là chuỗi các bit,
là số, ký tự…mà chúng ta tập hợp hàng
ngày trong công việc
Thông tin (Information): là tập hợp của
những mảnh dữ liệu đã được chắt lọc dùng
mô tả, giải thích đặc tính của một đối tượng
nào đó
Tri thức (Knowledge): là tập hợp những
thông tin có liên hệ với nhau, có thể xem tri
thức là sự kết tinh từ dữ liệu. Tri thức thể
hiện tư duy của con người về một vấn đề
Các khái niệm cơ bản
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Khám phá tri thức từ cơ sở dữ liệu:
(Knowledge Discovery in Databases – KDD)
“KDD is the automatic extraction of non-obvious,
hidden knowledge from large volumes of data.”
Fayyad, Platetsky-Shapiro, Smyth (1996)
“Khám phá tri thức từ cơ sở dữ liệu là quy trình bao
gồm nhiều công đoạn như: xác định vấn đề, tập hợp
và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết
quả, giải thích dữ liệu, áp dụng tri thức vào thực tế
Các khái niệm cơ bản
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Nhà bác học nổi tiếng Karan Sing đã từng nói rằng
“Chúng ta đang ngập chìm trong biển thông tin nhưng lại
đang khát tri thức”.
Dữ liệu được thu thập hàng
ngày là rất lớn
Các CSDL khổng lồ
Dữ liệu từ Internet
Theo các báo cáo của IBM,
chỉ có 80% dữ liệu được
khai thác, 20% còn lại ẩn
trong các Database là những
tri thức quý giá
Tại sao phải khai phá dữ liệu ?
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Khai phá dữ liệu là gì?
Khai phá dữ liệu (Datamining) là một bước trong
quy trình khám phá tri thức, nhằm:
Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong
khối dữ liệu lớn
Phân tích dữ liệu bán tự động
Giải thích dữ liệu trên các tập dữ liệu lớn .
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Lợi ích của khai phá dữ liệu
EDP: Electronic Data Processing
MIS: Management Information Systems
DSS: Decision Support Systems
Số lượng
Giá trị
MIS
DSS
EDP
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Nghiên cứu lĩnh vực
Rút gọn / chiều
Tạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệu
,
t / i
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Chọn các thuật giải KTDL
Biểu diễn tri thức
KTDL: Tìm kiếm tri thức
Đánh giá mẫu tìm được
Sử dụng các tri thức vừa khám phá
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Increasing potential
to support
business decisions
End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Từ dữ liệu đến quyết định
Dữ liệu
• Customer data
• Store data
• Demographical Data
• Geographical data
Thông tin
• X lives in Z
• S is Y years old
• X and S moved
• W has money in Z
Tri thức
• A quantity Y of product A is used in
region Z
• Customers of class Y use x% of C
during period D
Quyết định
• Promote product A in region Z.
• Mail ads to families of profile P
• Cross-sell service B to clients C
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Các ứng dụng
Kinh doanh
- Phân tích dữ liệu bán
hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Xác định gian lận
Sản xuất
- Điều khiển và lập lịch
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm
Khoa học - Không gian
- Sinh học
- Địa lý
- etc.
Y học
- Bệnh lý
- Sinh học
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Các kỹ thuật sử dụng
Phân lớp
Mẫu tuần tự
?
Nhà kho- OLAP
Gom cụm
Luật kết hợpDự đoán
Tìm các đặc trưng của lớp
các đối tượng và sử dụng
để phân lớp dữ liệu mới.
Dữ đoán dữ liệu tương
lai dựa trên dữ liệu quá
khứ.
Xác định các cụm
tiềm ẩn trong các
tập đối tượng chưa
được xếp lớp.
Xác định trật tự dữ
liệu, cấu trúc lưu trữ
phù hợp với tác vụ
khai phá
Tìm các mẫu phổ biến
từ dữ liệu và mối quan
hệ của các đối tượng
dữ liệu.
Khám phá các
mẫu tín hiệu phổ
biến nhất từ dữ
liệu các sự kiện
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Kết luận
KPDL: tiến trình khám phá bán tự động các thông
tin, mẫu có ích từ CSDL lớn
Các bước của KDD
Tiền xử lý
KTDL( data mining tasks)
Hậu xử lý
Các quan niệm, khía cạnh …
CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
Tri thức (đặc trưng, gom cụm, kết hợp, …)
Kỹ thuật (máy học, thống kê, trực quan hóa, …)
Ứng dụng (bán lẻ, điện thoại, khai thác Web …)