Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 2: Qui trình phát triển kho dữ liệu - Nguyễn Hoàng Ân

1. Tổng quan Một số câu hỏi quan trọng cần được xem xét trước khi quyết định xây dựng kho dữ liệu :  Theo các tiếp cận Top-down hay bottom-up ?  Dùng cho mức doanh nghiệp hay phòng ban ?  Cái nào trước - data warehouse hay data mart ?  Build pilot or go with a full-fledged implementation?  Data mart phục thuộc hay độc lập ?5 Source: adapted from Strange (1997). 2. Các phương pháp phát triển KDL Có 2 phương pháp phát triển chính:  Top-Down  Bottom-Up2.1 Top-Down  Cách tiếp cận của Bill Inmon  Dữ liệu trong KDL được lưu trữ ở mức “hạt” (granularity) thấp nhất dựa trên mô hình dữ liệu đã chuẩn hóa  KDL là trung tâm của “Xưởng thông tin công ty” (Corporate Information Factory-CIF) cung cấp một khung nền luận lý (logical framework) cho việc chuyển giao kinh doanh thông minh đến doanh nghiệp. Các hoạt động kinh doanh cung cấp dữ liệu cho CIF.  KDL được tập trung hóa sẽ cung cấp các data mart phụ thuộc có thể

pdf40 trang | Chia sẻ: thanhle95 | Lượt xem: 503 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 2: Qui trình phát triển kho dữ liệu - Nguyễn Hoàng Ân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Kho dữ liệu và khai phá dữ liệu Chương 2: Qui trình phát triển kho dữ liệu Mục tiêu Xem xét những hoạt động cơ bản trong lập kế hoạch kho dữ liệu Chu trình cho một dự án kho dữ liệu Thảo luận về tổ chức, vai trò và trách nhiệm của nhóm dự án Xem xét các dấu hiệu cảnh báo và nhân tố thành công Nội dung Các phương pháp luận phát triển kho dữ liệu Thiết kế mô hình dữ liệu (Data model) Business Dimensional Lifecycle Quá trình ETL/ELT Làm sạch và chuẩn hóa dữ liệu Một số các vân đề lưu ý khi thiết kế kho dữ liệu 1. Tổng quan Một số câu hỏi quan trọng cần được xem xét trước khi quyết định xây dựng kho dữ liệu :  Theo các tiếp cận Top-down hay bottom-up ?  Dùng cho mức doanh nghiệp hay phòng ban ?  Cái nào trước - data warehouse hay data mart ?  Build pilot or go with a full-fledged implementation?  Data mart phục thuộc hay độc lập ? 5Source: adapted from Strange (1997). 2. Các phương pháp phát triển KDL Có 2 phương pháp phát triển chính:  Top-Down  Bottom-Up 2.1 Top-Down  Cách tiếp cận của Bill Inmon  Dữ liệu trong KDL được lưu trữ ở mức “hạt” (granularity) thấp nhất dựa trên mô hình dữ liệu đã chuẩn hóa  KDL là trung tâm của “Xưởng thông tin công ty” (Corporate Information Factory-CIF) cung cấp một khung nền luận lý (logical framework) cho việc chuyển giao kinh doanh thông minh đến doanh nghiệp. Các hoạt động kinh doanh cung cấp dữ liệu cho CIF.  KDL được tập trung hóa sẽ cung cấp các data mart phụ thuộc có thể được thiết kế dựa trên mô hình dữ liệu có chiều 2.1 Top-Down (tt) Nguồn: A Managers Guide to Data Warehousing 2.1 Top-Down (tt) Thuận lợi:  Có được cái nhìn toàn diện (mức doanh nghiệp) về dữ liệu  Có kiến trúc rõ ràng, không phải là việc hợp nhất các data mart khác nhau  Lưu trữ tập trung  Các luật và kiểm soát tập trung  Có thể thấy kết quả nhanh chóng nếu được thực hiện bằng các bước lặp Hạn chế:  Mất nhiều thời gian  Tiềm ẩn rủi ro và thất bại cao  Cần có những kỹ năng của nhiều lĩnh vực ở mức cao  Tốn chi phí 2.2 Bottom-Up Cách tiếp cận của Ralph Kimball KDL công ty như là tập hợp của các data mart được làm cho phù hợp Data mart được tạo ra trước để cung cấp khả năng phân tích và báo cáo cho những việc kinh doanh chuyên biệt dựa trên mô hình dữ liệu chiều 2.2 Bottom-Up (tt) Nguồn: A Managers Guide to Data Warehousing 2.2 Bottom-Up (tt) Thuận lợi:  Thực hiện nhanh và dễ hơn với những phần có thể quản lí  ROI có triển vọng và có thể thực hiện  Rủi ro thất bại ít  Có thể phát triển theo hướng tăng dần, các data mart quan trọng có thể phát triển trước.  Cho phép nhóm dự án học tập và tăng trưởng Hạn chế:  Mỗi data mart cho thấy góc nhìn hẹp về dữ liệu  Có quá nhiều dữ liệu dư thừa trong mỗi data mart  Có quá nhiều dữ liệu không tương thích và bất thường  Gia tăng các giao diện không thể quản lí 4. The Business Dimensional Lifecycle (Ralph Kimball,etc, 2001, The Data Warehouse Lifecycle Toolkit) 4. The Business Dimensional Lifecycle (cont.) Minh họa luồng tổng thể của việc thực hiện KDL Xác định tuần tự các nhiệm vụ và các hoạt động chính thực hiện đồng thời Có thể chỉnh sửa được để đáp ứng những nhu cầu đặc biệt của tổ chức Mỗi dự án sẽ thực hiện các tác vụ chi tiết khác nhau 4.1 Hoạch định dự án Hoạch định dự án nhấn vào định nghĩa và phạm vi dữ liệu bao gồm việc đánh giá sự sẵn sàng và minh chứng về mặt kinh doanh Tập trung vào nguồn lực và cấp độ kỹ năng của nhân viên Hoạch định dự án phụ thuộc vào các yêu cầu kinh doanh 4.2 Xác định các yêu cầu kinh doanh Hiểu yêu cầu kinh doanh của người dùng là trở ngại lớn nhất đối với sự thành công của KDL Các yêu cầu kinh doanh thiết lập thông qua 3 luồng song song tập trung vào công nghệ, dữ liệu và các ứng dụng người dùng Ba luồng song song Application Track Technology Track Data Track Ba luồng song song (tt) Luồng dữ liệu (Data Track)  Mô hình chiều  Thiết kê vật lý  Thiết kế và phát triển dữ liệu tạm (Data Staging) Luồng công nghệ (Technology Track)  Thiết kế kiến trúc kỹ thuật  Chọn lựa và cài đặt kết quả Luồng ứng dụng (Application Track)  Đặc tả ứng dụng người dùng cuối  Phát triển ứng dụng người dùng cuối 4.4 Mô hình chiều Thiết kế mô hình dữ liệu để hỗ trợ doanh nghiệp phân tích các yêu cầu có một cách tiếp cận khác so với thiết kế hệ thống hoạt động (tác nghiệp) Bắt đầu xây dựng ma trận gồm có các khóa của qui trình kinh doanh và chiều của nó Tiếp theo phân tích dữ liệu chi tiết hơn tương thích với các hệ thống nguồn Sau đó phát triển một mô hình chiều, trong đó xác định các hạt (grain) bảng sự kiện, các chiều liên quan, các thuộc tính và các kế thừa Bus matrix Qui trình 4 bước thiết kế mô hình chiều Bước 1: Chọn qui trình nghiệp vụ (Choose the Business Process) Bước 2: Khai báo phần tử (Declare the Grain ) Bước 3: Xác định các chiều (Identify the Dimensions) Bước 4: Xác định sự kiện (Identify the Facts) Một số loại chiều Chiều ngày tháng (Date and Time) Chiều suy biến (Degenerate Dimensions) Chiều thay đổi chậm (Slowly Changing Dimensions) Chiều nhập vai (Role-Playing Dimensions) Chiều hỗn hợp/hỗn tạp (Junk Dimensions) Chiều ngày tháng Chiều suy biến Chiều nhập vai Chiều thay đổi chậm Chiều hỗn hợp Các dạng bảng sự kiện Bảng sự kiện giao dịch (Transaction Fact Table) Bảng sự kiện lưu ảnh theo chu kỳ (Periodic Snapshot Fact Table) Bảng sự kiện lưu ảnh tích lũy (Accumulating Snapshot Fact Table) Bảng sự kiện yếu (Factless Fact Table) Order fulfillment pipeline diagram Characteristic Transaction Fact Table Periodic Snapshot Fact Table Accumulating Snapshot Fact Table Time period represented Point in time Regular predictable intervals Indeterminate time span, typically short-lived Grain One row per transaction event One row per period One row per life Fact table loads Insert Insert Insert and update Fact row updates Not revisited Not revisited Revisited whenever activity Date dimension Transaction date End-of-period date Multiple dates for standard milestones Facts Transaction activity Performance for predefined time interval Performance over finite lifetime Bảng sự kiện yếu 4.5 Thiết kế vật lý Tập trung vào các cấu trúc vật lí cần thiết để hỗ trợ cho thiết kế luận lý Bao hàm các tiêu chuẩn định danh và thiết lập môi trường cơ sở dữ liệu Các chiến lược đánh chỉ mục (indexing) và phân hoạch (partitioning) sơ bộ cũng cần được xem xét 4.6 Thiết kế và phát triển vùng dữ liệu tạm Thường bị đánh giá thấp nhất trong dự án KDL Bao gồm 3 bước chính: rút trích, chuyển đổi và nạp Quá trình rút trích luôn bộc lộ những vấn đề về chất lượng dữ liệu trong hệ thống tác nghiệp Vấn đề chất lượng dữ liệu luôn cần phải được lưu ý trong giai đoạn xây dựng vùng dữ liệu tạm 4.7 Thiết kế kiến trúc kỹ thuật KDL yêu cầu việc tích hợp của nhiều công nghệ Những nhân tố then chốt cần xem xét:  Yêu cầu nghiệp vụ  Môi trường công nghệ hiện tại  Kỹ thuật chiến lược 4.8 Chọn lựa và cài đặt kết quả Dùng các kiến trúc kỹ thuật như framework Qui trình đánh giá tiêu chuẩn kỹ thuật đi theo những nhân tố lượng giá cho mỗi thành phần kiến trúc được định nghĩa Sau chọn lựa và cài đặt, yêu cầu có quá trình kiểm tra để chắc chắn việc tích hợp tương thích 4.9 Đặc tả ứng dụng người dùng cuối Xác định một tập tiêu chuẩn các ứng dụng người dùng cuối hơn là cho một ứng dụng đơn lẻ Các đặc tả ứng dụng mô tả mẫu báo cáo, các thông số hướng người dùng và các yêu cầu tính toán Các đặc tả phải chắc chắn rằng nhóm phát triển và người dùng có cùng cách hiểu đối với ứng dụng được chuyển giao 4.10 Phát triển ứng dụng người dùng cuối Việc phát triển bao gồm cấu hình công cụ siêu dữ liệu và xây dựng các báo báo cáo đặc tả Các ứng dụng có thể xây dựng dùng công cụ truy xuất dữ liệu nâng cao để cung cấp những sản phẩm có ý nghĩa Dùng các công cụ truy xuất dữ liệu nâng cao cũng thường đưa ra một cơ cấu mạnh mẽ cho người dùng dễ dàng chỉnh sửa các mẫu báo cáo sẵn có 4.11 Cài đặt Cài đặt thể hiện sụ hội tụ của công nghệ, dữ liệu và các ứng dụng người dùng cuối Huấn luyện người dùng là rất quan trọng Hỗ trợ người dùng, qui trình giao tiếp, chiến lược phản hồi nên thiết lập trước khi người dùng truy xuất đến KDL Cài đặt nên hoãn lại nếu tất cả các mảng công việc chưa sẵn sàng 4.12 Bảo trì và phát triển Tập trung vào phía bên trong để chắc chắn tính tin cậy của KDL Các chỉ số chấp nhận và hiệu suất nên được đo lường nhiều lần và ghi log để hỗ trợ tiếp thị cho KDL Những thay đổi nên được xem xét như dấu hiệu của thành công chứ không phải là thất bại Các tiến trình ưu tiên nên được thiết lập sao cho thỏa mãn các nhu cầu tăng thêm  Sau khi các ưu tiên được xác định, quay lại từ đầu của chu trình 4.13 Quản lí dự án Tập trung theo dõi trạng thái của dự án, ghi nhận vấn đề và thay đổi kiểm soát Giao tiếp liên tục là mang tính then chốt