1. Kiến trúc kho dữ liệu
Kiến trúc 2 lớp khái quát (Generic Two-Level Architecture)
Data Mart độc lập (Independent Data Mart)
Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động
(Dependent Data Mart and Operational Data Store)
Data Mart luận lý và KDL tích cực (Logical Data Mart and
@ctive Warehouse)
Kiến trúc dữ liệu 3 lớp (Three-Layer data architecture)
Đọc thêm:
Chapter 9 - Data Warehousing
2.Data Mart độc lập (tt)
Data mart độc lập: data mart chứa dữ liệu được
rút trích từ môi trường hoạt động mà không có
ảnh hưởng của KDL
Hạn chế của Data mart độc lập:
Mỗi data mart cần một ETL riêng
Các data mart không tương thích nhau
Không thể drill-down
Tốn nhiều chi phí khi có ứng dụng mới
Tốn chi phí để làm data mart tương thích nhau
19 trang |
Chia sẻ: thanhle95 | Lượt xem: 676 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 2: Kiến trúc kho dữ liệu - Nguyễn Hoàng Ân, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kho dữ liệu và khai phá dữ liệu
Chương 2:
Kiến trúc kho dữ liệu
Nguyễn Hoàng Ân 1
Nội dung
Kiến trúc chi tiết của kho dữ liệu
Kho dữ liệu doanh nghiệp (Enterprise
warehouse)
Kho dữ liệu theo chủ đề (Data Mart)
Siêu dữ liệu (Meta data)
Các công cụ back-end liên quan đến kho dữ liệu
Nguyễn Hoàng Ân 3
Kiến trúc kho dữ liệu
Nguyễn Hoàng Ân 4
1. Kiến trúc kho dữ liệu
Kiến trúc 2 lớp khái quát (Generic Two-Level Architecture)
Data Mart độc lập (Independent Data Mart)
Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động
(Dependent Data Mart and Operational Data Store)
Data Mart luận lý và KDL tích cực (Logical Data Mart and
@ctive Warehouse)
Kiến trúc dữ liệu 3 lớp (Three-Layer data architecture)
Đọc thêm:
Chapter 9 - Data Warehousing
Nguyễn Hoàng Ân 5
1.Kiến trúc 2 lớp khái quát
E
T
L
One,
company-
wide
warehouse
Periodic extraction data is not completely current in warehouse
Nguyễn Hoàng Ân 6
2.Data Mart độc lập
7
E
T
L
Separate ETL for each
independent data mart
Data access complexity
due to multiple data
marts
Nguyễn Hoàng Ân
2.Data Mart độc lập (tt)
Data mart độc lập: data mart chứa dữ liệu được
rút trích từ môi trường hoạt động mà không có
ảnh hưởng của KDL
Hạn chế của Data mart độc lập:
Mỗi data mart cần một ETL riêng
Các data mart không tương thích nhau
Không thể drill-down
Tốn nhiều chi phí khi có ứng dụng mới
Tốn chi phí để làm data mart tương thích nhau
Nguyễn Hoàng Ân 8
3.Data Mart phụ thuộc và kho lưu
trữ dữ liệu hoạt động
E
T
L
Single ETL for enterprise data
warehouse (EDW)
Simpler data access
Dependent data marts
loaded from EDW
corporate information factory (CIF)
Nguyễn Hoàng Ân 9
3.Data Mart phụ thuộc và kho lưu trữ dữ
liệu hoạt động (tt)
Data mart phụ thuộc: Data mart được nạp dữ
liệu dành riêng từ KDL doanh nghiệp và điều hòa
dữ liệu
Kho lưu trữ dữ liệu hoạt động (Operational
data store - ODS): Một cơ sở dữ liệu có tính tích
hợp, hướng chủ đề, có thể cập nhật, giá trị hiện
tại, rộng khắp tổ chức, chi tiết được thiết kế để
dành cho người dùng tác nghiệp như họ làm quá
trình hỗ trợ quyết định
Kho dữ liệu doanh nghiệp (Enterprise data
warehouse (EDW)
Nguyễn Hoàng Ân 10
4. Data Mart luận lý và KDL tích cực
E
T
L
Near real-time ETL for
@ctive Data Warehouse
Data marts are NOT separate
databases, but logical views of the
data warehouse
Easier to create new data martsNguyễn Hoàng Ân 11
4. Data Mart luận lý và KDL tích cực
(tt)
Logical data mart = relational view
Base tables: customer, product, order, orderline
Create views:
CREATE VIEW invoice AS
SELECT customer.customer_ID, customer_addr,
order.order_ID, product.product_ID, product.price,
order.quantity, product.price*order.quantity
FROM customer, order, orderline, product
WHERE customer.customer_ID= order.customer_ID,
AND order.order_ID= orderline.order_ID, product.product_ID =
orderline.product_ID
Nguyễn Hoàng Ân 12
4. Data Mart luận lý và KDL tích cực
(tt)
KDL tích cực:
Một kho dữ liệu mức tổ chức chứa dữ liệu gần thời
gian thực (near-real-time) của dữ liệu giao dịch từ
những hệ thống bản ghi, phân tích KDL, tiếp nối gần
thời gian thực từ qui trình nghiệp vụ đến KDL và
những hệ thống bản ghi để có những hành động trung
gian có thể hồi đáp lại các sự kiện kinh doanh
Ứng dụng: Dò tìm lỗi
Nguyễn Hoàng Ân 13
5 Kiến trúc dữ liệu 3 lớp
14
Nguyễn Hoàng Ân
5 Kiến trúc dữ liệu 3 lớp (tt)
Dữ liệu điều hòa (Reconciled data): dữ liệu có
tính chi tiết, là dữ liệu hiện tại được dự định như
nguồn đơn nhất, chính thức cho tất cả ứng dụng
hỗ trợ quyết định
Dữ liệu chuyển giao (Derived data): Dữ liệu
được chọn lựa, định dạng và tổng hợp cho ứng
dụng hỗ trợ quyết định cho người dùng cuối
Siêu dữ liệu (Metadata): dữ liệu kỹ thuật và kinh
doanh để mô tả thuộc tính hoặc tính chất của dữ
liệu khác
Nguyễn Hoàng Ân 15
Các công cụ back-
end liên quan đến
kho dữ liệu
Nguyễn Hoàng Ân 16
Kimball Lifecycle và các công nghệ của Microsoft
The Microsoft DW/BI Toolset
The relational engine (RDBMS) to manage and store the dimensional
data warehouse database.
SQL Server Integration Services (SSIS) to build the
extract,transformation, and load (ETL) system.
SQL Server Analysis Services (SSAS) analytic database to support
users’ queries, particularly ad hoc use.
SQL Server Analysis Services data mining to develop statistical data
mining models, and also to include those models in advanced analytic
applications.
SQL Server Reporting Services (SSRS) to build predefined reports.
The majority of the Reporting Services features are most appropriate
for the DW/BI team, but you may provide some ad hoc query and
report building functionality with Report Builder.
The Microsoft DW/BI Toolset
Master Data Services (MDS) to create a range of
master data management applications to feed the
data warehouse, and possibly integrate that data
management with the source transaction
systems.
Development and management tools, especially
SQL Server BI Development Studio (BIDS) and
SQL Server Management Studio to build and
manage your DW/BI system.
The Microsoft DW/BI Toolset
Excel
PowerPivot
SharePoint
PowerPivot for SharePoint
Master Data Services