1. Giới thiệu về kho dữ liệu
Có nhiều các định nghĩa khác nhau về KDL,
nhưng không có cách nào là nghiêm ngặt:
Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách
biệt từ cơ sở dữ liệu hoạt động của tổ chức
Hỗ trợ xử lí thông tin bằng cách cung cấp một nền
tảng vững chắc cho việc hợp nhất và dữ liệu lịch sử
để phân tích
Theo W. H. Inmon: “Kho dữ liệu là tập dữ liệu
hướng chủ đề, tích hợp, gắn với thời gian và ít
thay đổi để hỗ trợ quá trình ra quyết định của
nhà quản lí”
22 trang |
Chia sẻ: thanhle95 | Lượt xem: 1118 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 1: Tổng quan về kho dữ liệu và khai phá dữ liệu - Nguyễn Hoàng Ân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Kho dữ liệu và khai phá dữ liệu
Chương 1:
Tổng quan về kho dữ liệu và khai
phá dữ liệu
Nguyễn Hoàng Ân 1
Nội dung
Giới thiệu về kho dữ liệu
Các đặc tính của kho dữ liệu
Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu
Ứng dụng của kho dữ liệu và khai phá dữ liệu
Nguyễn Hoàng Ân 3
1. Giới thiệu về kho dữ liệu
Có nhiều các định nghĩa khác nhau về KDL,
nhưng không có cách nào là nghiêm ngặt:
Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách
biệt từ cơ sở dữ liệu hoạt động của tổ chức
Hỗ trợ xử lí thông tin bằng cách cung cấp một nền
tảng vững chắc cho việc hợp nhất và dữ liệu lịch sử
để phân tích
Theo W. H. Inmon: “Kho dữ liệu là tập dữ liệu
hướng chủ đề, tích hợp, gắn với thời gian và ít
thay đổi để hỗ trợ quá trình ra quyết định của
nhà quản lí”
Nguyễn Hoàng Ân 7
Kiến trúc cơ bản của kho dữ liệu
Oracle9 i. Data Warehousing Guide, Release 2 (9.2)
Nguyễn Hoàng Ân 8
2. Các đặc tính của KDL
Hướng chủ đề (Subject-Oriented)
Có tính tích hợp (Integrated)
Gắn với thời gian (Time Variant)
Ít thay đổi (Non-Volatile)
Nguyễn Hoàng Ân 9
2. Các đặc tính của KDL (tt)
Hướng chủ đề
Nguyễn Hoàng Ân 10
2. Các đặc tính của kho dữ liệu
Tích hợp
Nguyễn Hoàng Ân 11
Tích hợp
Nguyễn Hoàng Ân 12
2. Các đặc tính của kho dữ liệu
Gắn với thời gian
• Thời gian 60–90 ngày
• Cập nhật bản ghi
• Cấu trúc khóa có thể có hoặc
không chứa khóa thời gian
• Thời gian 5-10 năm
• Những hình ảnh phức tạp của
dữ liệu
• Cấu trúc khóa chứa phần tử
thời gian Nguyễn Hoàng Ân 14
2. Các đặc tính của kho dữ liệu (tt)
Ít thay đổi
Nguyễn Hoàng Ân 15
OLTP vs. OLAP
OLTP (on-line transaction processing): Xử lí giao
dịch trực tuyến
Nhiệm vụ chính của Hệ quản lí cơ sở dữ liệu quan hệ
(relational DBMS) truyền thống.
Dùng cho các tác nghiệp hằng ngày (Day-to-day
operations): mua sắm, quản lí tồn kho, ngân hàng, quản lí
lương, đăng ký, kế toán,
OLAP (on-line analytical processing): Quá trình
phân tích trực tuyến
Nhiệm vụ chính của hệ thống kho dữ liệu
Phân tích dữ liệu và làm quyết định (decision making)
Nguyễn Hoàng Ân 16
Data Warehouse and Business Intelligence
OLTP OLAP
Người dùng Thư lý, chuyên viên
CNTT
Chuyên viên tri thức
Chức năng Tác nghiệp hàng ngày Hỗ trợ quyết định
Thiết kế CSDL Hướng ứng dụng Hướng chủ đề
Dữ liệu Hiện thời, cập nhật
chi tiết, quan hệ phẳng
biệt lập
Lịch sử, tóm tắt, tích hợp đa
chiều, hợp nhất
Sử dụng Lặp Dò tìm (ad-hoc)
Truy cập Đọc/ghi
Chỉ mục/băm theo khóa
chính
Nhiều duyệt
Đơn vị thao tác Giao dịch ngắn,đơn giản Câu hỏi phức tạp
# bản ghi truy cập Chục Triệu
#người dùng Nghìn Trăm
Kích thước CSDL 100MB-GB 100GB-TB
Đơn vị đo Thông lượng giao dịch Thông lượng truy vấn, đáp ứng
OLTP vs OLAP
Data mart
Hệ thống tập tất cả dữ liệu được yêu cầu bởi một
phòng ban chuyên biệt trong công ty (như tiếp thị,
hậu cần,)
Được sử dụng để phân tích BI
Một kho dữ liệu mức phòng ban (departmental
data warehouse)
Data warehouses và data marts có khung công
nghệ giống nhau
18
Nguyễn Hoàng Ân
Data Warehouse and Business Intelligence 19
Công cụ ETL
ETL: Rút trích (Extraction), Chuyển đổi
(Transformation), tải (Loading)
Rút trích:
Rút trích từ những nguồn sẵn có bên trong hoặc ngoài
Những phiên bản phụ thuộc thời gian của dữ liệu
Chọn lựa dữ liệu: Dựa trên thiết kế DW
Chuyển đổi:
Chuyển đổi dữ liệu từ các hệ thống cũ, các định dạng khác
thành định dạng của KDL
Tải:
Sắp xếp, tóm tắt, hợp nhất, tính toán, kiểm tra toàn vẹn,
xây dựng chỉ mục và phân hoạch
Nguyễn Hoàng Ân 20
Khai phá dữ liệu
Nguyễn Hoàng Ân 21
1. Giới thiệu chung về khai phá dữ
liệu
1.1 Khái niệm về khai phá dữ liệu
1.2 Quá trình khám phá tri thức
1.3 Khai phá dữ liệu trong kinh doanh thông minh
1.4 Quá trình khám phá tri thức
1.5 Các lĩnh vực có ảnh hưởng đến khai phá dữ
liệu
1.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu
một quá trình trích xuất tri thức từ lượng lớn dữ liệu
• “extracting or mining knowledge from large amounts of data”
• “knowledge mining from data”
một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa
được biết trước từ dữ liệu
• “the nontrivial extraction of implicit, previously unknown, and
potentially useful information from data”
Các thuật ngữ thường được dùng tương đương:
knowledge discovery/mining in data/databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business intelligence
1.2. Quá trình khám phá tri thức
Data
Cleaning
Data Integration
Data Sources
Data Warehouse
Task-relevant Data
Selection/Transformation
Data Mining
Pattern Evaluation/
Presentation
Patterns
1.3 Khai phá dữ liệu trong kinh doanh thông minh
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Decision
Making
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
1.4 Quá trình khám phá tri thức
This is a view from typical machine learning and statistics communities
Input Data Data
Mining
Data Pre-
Processing
Post-
Processing
Data integration
Normalization
Feature selection
Dimension reduction
Pattern discovery
Association & correlation
Classification
Clustering
Outlier analysis
Pattern evaluation
Pattern selection
Pattern interpretation
Pattern visualization
1.5 Các lĩnh vực có ảnh hưởng đến khai phá dữ liệu
Data Mining
Machine
Learning
Statistics
Applications
Algorithm
Pattern
Recognition
High-Performance
Computing
Visualization
Database
Technology