1. Tổng quan
Một số câu hỏi quan trọng cần được xem xét
trước khi quyết định xây dựng kho dữ liệu :
Theo các tiếp cận Top-down hay bottom-up ?
Dùng cho mức doanh nghiệp hay phòng ban ?
Cái nào trước - data warehouse hay data mart ?
Build pilot or go with a full-fledged implementation?
Data mart phục thuộc hay độc lập ?5
Source: adapted from Strange (1997).
2. Các phương pháp phát triển KDL
Có 2 phương pháp phát triển chính:
Top-Down
Bottom-Up2.1 Top-Down
Cách tiếp cận của Bill Inmon
Dữ liệu trong KDL được lưu trữ ở mức “hạt”
(granularity) thấp nhất dựa trên mô hình dữ liệu
đã chuẩn hóa
KDL là trung tâm của “Xưởng thông tin công ty”
(Corporate Information Factory-CIF) cung cấp một
khung nền luận lý (logical framework) cho việc
chuyển giao kinh doanh thông minh đến doanh
nghiệp. Các hoạt động kinh doanh cung cấp dữ liệu
cho CIF.
KDL được tập trung hóa sẽ cung cấp các data mart
phụ thuộc có thể
40 trang |
Chia sẻ: thanhle95 | Lượt xem: 698 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 2: Qui trình phát triển kho dữ liệu - Nguyễn Hoàng Ân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Kho dữ liệu và khai phá dữ
liệu
Chương 2:
Qui trình phát triển kho dữ liệu
Mục tiêu
Xem xét những hoạt động cơ bản trong lập kế
hoạch kho dữ liệu
Chu trình cho một dự án kho dữ liệu
Thảo luận về tổ chức, vai trò và trách nhiệm của
nhóm dự án
Xem xét các dấu hiệu cảnh báo và nhân tố thành
công
Nội dung
Các phương pháp luận phát triển kho dữ liệu
Thiết kế mô hình dữ liệu (Data model)
Business Dimensional Lifecycle
Quá trình ETL/ELT
Làm sạch và chuẩn hóa dữ liệu
Một số các vân đề lưu ý khi thiết kế kho dữ liệu
1. Tổng quan
Một số câu hỏi quan trọng cần được xem xét
trước khi quyết định xây dựng kho dữ liệu :
Theo các tiếp cận Top-down hay bottom-up ?
Dùng cho mức doanh nghiệp hay phòng ban ?
Cái nào trước - data warehouse hay data mart ?
Build pilot or go with a full-fledged implementation?
Data mart phục thuộc hay độc lập ?
5Source: adapted from Strange (1997).
2. Các phương pháp phát triển KDL
Có 2 phương pháp phát triển chính:
Top-Down
Bottom-Up
2.1 Top-Down
Cách tiếp cận của Bill Inmon
Dữ liệu trong KDL được lưu trữ ở mức “hạt”
(granularity) thấp nhất dựa trên mô hình dữ liệu
đã chuẩn hóa
KDL là trung tâm của “Xưởng thông tin công ty”
(Corporate Information Factory-CIF) cung cấp một
khung nền luận lý (logical framework) cho việc
chuyển giao kinh doanh thông minh đến doanh
nghiệp. Các hoạt động kinh doanh cung cấp dữ liệu
cho CIF.
KDL được tập trung hóa sẽ cung cấp các data mart
phụ thuộc có thể được thiết kế dựa trên mô hình
dữ liệu có chiều
2.1 Top-Down (tt)
Nguồn: A Managers Guide to Data Warehousing
2.1 Top-Down (tt)
Thuận lợi:
Có được cái nhìn toàn diện (mức doanh nghiệp) về dữ liệu
Có kiến trúc rõ ràng, không phải là việc hợp nhất các data
mart khác nhau
Lưu trữ tập trung
Các luật và kiểm soát tập trung
Có thể thấy kết quả nhanh chóng nếu được thực hiện bằng
các bước lặp
Hạn chế:
Mất nhiều thời gian
Tiềm ẩn rủi ro và thất bại cao
Cần có những kỹ năng của nhiều lĩnh vực ở mức cao
Tốn chi phí
2.2 Bottom-Up
Cách tiếp cận của Ralph Kimball
KDL công ty như là tập hợp của các data mart
được làm cho phù hợp
Data mart được tạo ra trước để cung cấp khả
năng phân tích và báo cáo cho những việc kinh
doanh chuyên biệt dựa trên mô hình dữ liệu chiều
2.2 Bottom-Up (tt)
Nguồn: A Managers Guide to Data Warehousing
2.2 Bottom-Up (tt)
Thuận lợi:
Thực hiện nhanh và dễ hơn với những phần có thể
quản lí
ROI có triển vọng và có thể thực hiện
Rủi ro thất bại ít
Có thể phát triển theo hướng tăng dần, các data mart
quan trọng có thể phát triển trước.
Cho phép nhóm dự án học tập và tăng trưởng
Hạn chế:
Mỗi data mart cho thấy góc nhìn hẹp về dữ liệu
Có quá nhiều dữ liệu dư thừa trong mỗi data mart
Có quá nhiều dữ liệu không tương thích và bất thường
Gia tăng các giao diện không thể quản lí
4. The Business Dimensional
Lifecycle
(Ralph Kimball,etc, 2001, The Data Warehouse Lifecycle Toolkit)
4. The Business Dimensional
Lifecycle (cont.)
Minh họa luồng tổng thể của việc thực hiện KDL
Xác định tuần tự các nhiệm vụ và các hoạt động
chính thực hiện đồng thời
Có thể chỉnh sửa được để đáp ứng những nhu
cầu đặc biệt của tổ chức
Mỗi dự án sẽ thực hiện các tác vụ chi tiết khác
nhau
4.1 Hoạch định dự án
Hoạch định dự án nhấn vào định nghĩa và phạm
vi dữ liệu bao gồm việc đánh giá sự sẵn sàng và
minh chứng về mặt kinh doanh
Tập trung vào nguồn lực và cấp độ kỹ năng của
nhân viên
Hoạch định dự án phụ thuộc vào các yêu cầu
kinh doanh
4.2 Xác định các yêu cầu kinh doanh
Hiểu yêu cầu kinh doanh của người dùng là trở
ngại lớn nhất đối với sự thành công của KDL
Các yêu cầu kinh doanh thiết lập thông qua 3
luồng song song tập trung vào công nghệ, dữ liệu
và các ứng dụng người dùng
Ba luồng song song
Application
Track
Technology
Track
Data Track
Ba luồng song song (tt)
Luồng dữ liệu (Data Track)
Mô hình chiều
Thiết kê vật lý
Thiết kế và phát triển dữ liệu tạm (Data Staging)
Luồng công nghệ (Technology Track)
Thiết kế kiến trúc kỹ thuật
Chọn lựa và cài đặt kết quả
Luồng ứng dụng (Application Track)
Đặc tả ứng dụng người dùng cuối
Phát triển ứng dụng người dùng cuối
4.4 Mô hình chiều
Thiết kế mô hình dữ liệu để hỗ trợ doanh nghiệp
phân tích các yêu cầu có một cách tiếp cận khác
so với thiết kế hệ thống hoạt động (tác nghiệp)
Bắt đầu xây dựng ma trận gồm có các khóa của
qui trình kinh doanh và chiều của nó
Tiếp theo phân tích dữ liệu chi tiết hơn tương
thích với các hệ thống nguồn
Sau đó phát triển một mô hình chiều, trong đó
xác định các hạt (grain) bảng sự kiện, các chiều
liên quan, các thuộc tính và các kế thừa
Bus matrix
Qui trình 4 bước thiết kế mô hình
chiều
Bước 1: Chọn qui trình nghiệp vụ (Choose the Business
Process)
Bước 2: Khai báo phần tử (Declare the Grain )
Bước 3: Xác định các chiều (Identify the Dimensions)
Bước 4: Xác định sự kiện (Identify the Facts)
Một số loại chiều
Chiều ngày tháng (Date and Time)
Chiều suy biến (Degenerate Dimensions)
Chiều thay đổi chậm (Slowly Changing
Dimensions)
Chiều nhập vai (Role-Playing Dimensions)
Chiều hỗn hợp/hỗn tạp (Junk Dimensions)
Chiều ngày tháng
Chiều suy biến
Chiều nhập vai
Chiều thay đổi chậm
Chiều hỗn hợp
Các dạng bảng sự kiện
Bảng sự kiện giao dịch (Transaction Fact Table)
Bảng sự kiện lưu ảnh theo chu kỳ (Periodic
Snapshot Fact Table)
Bảng sự kiện lưu ảnh tích lũy (Accumulating
Snapshot Fact Table)
Bảng sự kiện yếu (Factless Fact Table)
Order fulfillment pipeline diagram
Characteristic Transaction Fact
Table
Periodic
Snapshot Fact
Table
Accumulating
Snapshot Fact
Table
Time period
represented
Point in time Regular
predictable
intervals
Indeterminate time
span, typically
short-lived
Grain One row per
transaction event
One row per
period
One row per life
Fact table loads Insert Insert Insert and update
Fact row
updates
Not revisited Not revisited Revisited whenever
activity
Date dimension Transaction date End-of-period
date
Multiple dates for
standard milestones
Facts Transaction
activity
Performance for
predefined time
interval
Performance over
finite lifetime
Bảng sự kiện yếu
4.5 Thiết kế vật lý
Tập trung vào các cấu trúc vật lí cần thiết để hỗ
trợ cho thiết kế luận lý
Bao hàm các tiêu chuẩn định danh và thiết lập
môi trường cơ sở dữ liệu
Các chiến lược đánh chỉ mục (indexing) và phân
hoạch (partitioning) sơ bộ cũng cần được xem xét
4.6 Thiết kế và phát triển vùng dữ liệu tạm
Thường bị đánh giá thấp nhất trong dự án KDL
Bao gồm 3 bước chính: rút trích, chuyển đổi và
nạp
Quá trình rút trích luôn bộc lộ những vấn đề về
chất lượng dữ liệu trong hệ thống tác nghiệp
Vấn đề chất lượng dữ liệu luôn cần phải được
lưu ý trong giai đoạn xây dựng vùng dữ liệu tạm
4.7 Thiết kế kiến trúc kỹ thuật
KDL yêu cầu việc tích hợp của nhiều công nghệ
Những nhân tố then chốt cần xem xét:
Yêu cầu nghiệp vụ
Môi trường công nghệ hiện tại
Kỹ thuật chiến lược
4.8 Chọn lựa và cài đặt kết quả
Dùng các kiến trúc kỹ thuật như framework
Qui trình đánh giá tiêu chuẩn kỹ thuật đi theo
những nhân tố lượng giá cho mỗi thành phần
kiến trúc được định nghĩa
Sau chọn lựa và cài đặt, yêu cầu có quá trình
kiểm tra để chắc chắn việc tích hợp tương thích
4.9 Đặc tả ứng dụng người dùng
cuối
Xác định một tập tiêu chuẩn các ứng dụng người
dùng cuối hơn là cho một ứng dụng đơn lẻ
Các đặc tả ứng dụng mô tả mẫu báo cáo, các
thông số hướng người dùng và các yêu cầu tính
toán
Các đặc tả phải chắc chắn rằng nhóm phát triển
và người dùng có cùng cách hiểu đối với ứng
dụng được chuyển giao
4.10 Phát triển ứng dụng người dùng
cuối
Việc phát triển bao gồm cấu hình công cụ siêu
dữ liệu và xây dựng các báo báo cáo đặc tả
Các ứng dụng có thể xây dựng dùng công cụ
truy xuất dữ liệu nâng cao để cung cấp những
sản phẩm có ý nghĩa
Dùng các công cụ truy xuất dữ liệu nâng cao
cũng thường đưa ra một cơ cấu mạnh mẽ cho
người dùng dễ dàng chỉnh sửa các mẫu báo cáo
sẵn có
4.11 Cài đặt
Cài đặt thể hiện sụ hội tụ của công nghệ, dữ liệu
và các ứng dụng người dùng cuối
Huấn luyện người dùng là rất quan trọng
Hỗ trợ người dùng, qui trình giao tiếp, chiến lược
phản hồi nên thiết lập trước khi người dùng truy
xuất đến KDL
Cài đặt nên hoãn lại nếu tất cả các mảng công
việc chưa sẵn sàng
4.12 Bảo trì và phát triển
Tập trung vào phía bên trong để chắc chắn tính
tin cậy của KDL
Các chỉ số chấp nhận và hiệu suất nên được đo
lường nhiều lần và ghi log để hỗ trợ tiếp thị cho
KDL
Những thay đổi nên được xem xét như dấu hiệu
của thành công chứ không phải là thất bại
Các tiến trình ưu tiên nên được thiết lập sao cho
thỏa mãn các nhu cầu tăng thêm
Sau khi các ưu tiên được xác định, quay lại từ
đầu của chu trình
4.13 Quản lí dự án
Tập trung theo dõi trạng thái của dự án, ghi nhận
vấn đề và thay đổi kiểm soát
Giao tiếp liên tục là mang tính then chốt