Bài giảng môn học Kho dữ liệu và khai phá dữ liệu

Nhu cầu kinh doanh là một yếu tố cốt lõi của Dự án DW: vấn đề DW chủ yếu là vấn đề kinh doanh Đội phát triển dự án và tham gia của người dùng vào Dự án DW

ppt40 trang | Chia sẻ: lylyngoc | Lượt xem: 1831 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Bài giảng môn học Kho dữ liệu và khai phá dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Tài liệu này sử dụng một phần Xác định yêu cầu kinh doanh Tham khảo chương 4 * Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001 Chương 5 Nhu cầu kinh doanh là một yếu tố cốt lõi của Dự án DW: vấn đề DW chủ yếu là vấn đề kinh doanh Đội phát triển dự án và tham gia của người dùng vào Dự án DW Mục đich của chương 6: Xác định yêu cầu: các cách thức khác nhau và lý do Nắm được vai trò của kích thước kinh doanh Sử dụng các nguồn thông tin xác định yêu cầu Phương pháp phỏng vấn Nắm trọng tâm của tài liệu xác định yêu cầu hình thức DW: Hệ thống cung cấp thông tin giải quyết vấn đề của người dùng cung cấp thông tin chiến lược tới người dùng ( hệ tác nghiệp) Trong pha xác định yêu cầu: định hướng người dùng (tập trung vào người dùng cần cái gì), tránh định hướng hệ thống (làm thế nào cung cấp thông tin đòi hỏi) Người phát triển DW có xuất phát điểm từ hệ thống OLTP nên càng cần xác định khác biệt OLTP với DW Hai hệ thống OLTP DW OLTP cung cấp dữ liệu nguyên thủy DW cung cấp thông tin Người dùng tiếp cận đa dạng tới DW OLTP day-to-day DW khía cạnh hệ hỗ trợ quyết định Phân tích chiều Chiều và các độ đo là hai thành phần cơ sở của khối Xây dựng DW xây dựng hệ tác nghiệp Phương pháp xây dựng hệ tác nghiệp khó áp dụng trong xây dựng DW Lý do sử dụng thông tin không dự báo được Hệ tác nghiệp: người dùng cung cấp các thông tin chi tiết, chính xác về các chức năng của hệ thống Hệ DW: người sử dụng không xác định một cách rõ ràng và chính xác yêu cầu Người sử dụng thì vẫn như hệ tác nghiệp làm việc hàng ngày: sang DW họ chưa có quan hệ gì với hệ DW sẽ được xây dựng Quá trình xác đinh yêu cầu của HW là còn thô Tính tự nhiên chiều của dữ liệu kinh doanh Hỗ trợ người dùng xác định rõ ràng và chính xác Khởi tạo tập dữ liệu kinh doanh tổng thể của công ty kiểm tra tính thực tiễn công nghiệp tốt nhất Tập hợp các luật kinh doanh gợi mở việc ra quyết định hàng ngày (khởi tạo tri thức miền ứng dụng) Lưu ý: Đây chỉ là khái quát và chưa đầy đủ để xác yêu cầu chi tiết vì đặc thù chuyên môn quản lý Các đối tượng cao cấp trong xác định yêu cầu Phó chủ tịch tập đoàn về tiếp thị Phụ trách quản lý tiếp thi Quản lý tài chính Một số vấn đề: Khi tập hợp yêu cầu: cố gắng theo suy nghĩ đặc thù của nhà kinh doanh Các chiều kinh doanh Cố gắng nắm vững một cách tự nhiên các chiều của dữ liêu kinh doanh Hình dung đơn vị dữ liệu kinh doang dưới dạng một tập các khối Trong hình vẽ là 3 chiều theo tính tự nhiên của nó Nếu nhiều hơn 3 mở rộng khái niệm chiều phức và khối đa chiều ảo: siêu khối Ví dụ về các chiều kinh doanh Các công ty: Chuỗi siêu thị, công ty sản xuất, kinh doanh bảo hiểm, Hãng hàng không Chiều kinh doanh: đa dạng liên quan mật thiết với ngành công nghiệp liên quan tới chủ đề cần phân tích Chiều thời gian là chiều chung cho mọi công ty ví dụ mọi phân tích kinh doang là thực hiện theo thời gian II. Gói thông tin - một khái niệm mới Là ý tưởng mới để xác định và ghi nhận yêu cầu thông tin đối với DW Khái niệm này cho một mẫu cụ thể để nhìn nhận đa dạng, suy nghĩ chưa tường minh, và các quan điểm suốt quá trình tập hợp yêu cầu Vì sao cần gói thông tin Nhu cầu không thể xác định một cách đầy đủ cấn khái niệm mới, sáng tạo dể nắm bắt và ghi nhận được các yêu cầu Phương pháp mới: dựa trên chiều kinh doanh Trên các chiều kinh doanh: nhu cầu của người dùng được phân tích, làm rõ Khái niệm mới sáp nhập các độ đo cơ sở và các chiều kinh doanh dựa theo phân tích độ đo cơ sở này. Đi tới độ đo mới và các chiều liên quan buộc phải nắm giữ và trong DW Liên quan tới các chủ đề riêng Ví dụ về gói thông tin: bán hàng tự động Các chiều: thời gian, sản phẩm, pp trả tiền, thuộc tính khách hàng (nhân khẩu học), đại lý Mục tiêu nguyên thủy trong pha xác định yêu cầu là “biên dịch” các gói thông tin đối với mọi chủ đề đối với DW Mỗi khi khẳng định được các gói thông tin nên gắn tới các pha khác Lợi ích của gói thông tin Xác định được các miền chủ đề chung Thiết kế được thước đo kinh doanh chủ chốt Quyết định cách thức dữ liệu được trình diễn Xác định cách thức người dùng tán thành / không tán thành Quyết định chất lượng dữ liệu mà người dùng phân tích và hỏi Quyết định cách truy nhập dữ liệu Thiết lập hạt nhân của dữ liệu Xác định tần suất làm tươi dữ liệu Xác định cách thông tin cần phải “gói” Chiều kinh doanh Chiều kinh doanh là mẫu nền tảng của phương pháp mới để xác định yêu cầu. Dữ liệu bắt buộc phái lưu giữ để cung cấp cho chiều kinh doanh. Chiều kinh doanh và các mức của nó là mẫu của mọi pha tiếp theo. Nên định danh được các chiều kinh doanh và các mức kiến trúc của chúng. Bắt buộc chọn tập ưu thế và tối ưu các chiều kinh doanh liên quan tới các độ đo Kiến trúc chiều/phân lớp Tiếp cận hướng kinh doanh: đầu tiên xem xét vầ tổng số (của một năm) sau đó đi tới chi tiết hơn (quý, tháng, ngày). Kiến trúc đa mức Kiến trúc chiều thường theo đường dẫn trải xuống hoặc cuộn lên khi phân tích Mỗi chiều kinh doanh chính đều tồn tại phân lớp các phần từ dữ liệu có thể thuận tiện trong phân tích: ngày cuối tuần, ngày làm việc, tháng cuối năm, tháng giữa năm... Một số chiều kinh doanh khác cũng có thể được phân lớp Một ví dụ về kiến trúc chiều – phân lớp Một ví dụ khác về kiến trúc chiều – phân lớp Độ đo kinh doanh hoặc sự kiện cốt lõi Người kinh doanh nhận định các chủ đề kinh doanh theo nghĩa chiều kinh doanh để nắm bắt thông tin và phân tích. Phân tích cái gì số nào ? Cái đo được thành công của bộ phận kinh doanh: chỉ dẫn cho người dùng cách thức bộ phận kinh doanh phải làm để đạt tới mục đích kinh doanh. Độ đo hoặc sự kiện trở thành gốc của gói thông tin. Ví dụ, trong cửa hàng bán hàng tự động, các độ đo liên quan tới bán hàng: cho biết cửa hàng bán hàng ra sao? Chẳng hạn, đối với hai ví dụ trên: bán hàng auto-mobile Actual sale price: giá thực sự MSRP sale price: Manufacturer's Suggested Retail Price Options price: Tùy chọn giá Full price: Giá đầy đủ Dealer add-ons: tiện ích đại lý Dealer credits: Tín dụng đại lý Dealer invoice: Hóa đơn đại lý Amount of downpayment: Số tiền đặt cọc Manufacturer proceeds: Tiêu thụ nhà sản xuất Amount financed: Dung lượng tài trợ hotel occupancy Occupied rooms: phòng đặt chỗ Vacant rooms: Phòng trống Unavailable rooms: Không chưa có Number of occupants: Số lượng đặt chỗ Revenue: Doanh thu III. Các phương pháp nắm bắt yêu cầu (1) Chuẩn bị được: chiều kinh doanh, gói thông tin, các độ đo  các phương pháp nắm bắt yêu cầu hệ DW Một số các yêu cầu cần nắm bắt: Phần tử dữ liệu: sự kiện, lớp, chiều Ghi nhận của dữ liệu theo thời gian Trích chọn từ hệ thống nguồn Luật kinh doanh: thuộc tính, hạng vùng, miền, bản ghi tác nghiệp III. Các phương pháp nắm bắt yêu cầu (1) Phân lớp người sử dụng DW: Điều hành chính (cả nhà đầu tư): định hướng bản chất và phạm vi của DW; tương tác chính Quản lý bộ phận chính yếu: cung cấp mô tả miền định hướng Phân tích kinh doanh: chuẩn bị văn bản và phân tích cho đèiu hành chính và quản lý Quản trị CSDL hệ thống tác nghiệp: về dữ liệu nguồn Những người liên quan danh sách trên: Hai kỹ thuật cơ sở hợp chung với các nhóm người Phỏng vấn: trực tiếp ngang hàng hoặc trong một nhóm nhỏ Phiên phát triển ứng dụng kết nối III. Các phương pháp nắm bắt yêu cầu (2) Dành thời gian thích hợp cho phỏng vấn; phỏng vấn cần được tổ chức và quản lý tốt Các đặc trưng của kỹ thuật phỏng vấn Hai, ba người trong một lần; một số trưòng hợp là 1 người Dễ lên lịch Tiếp cận tốt khi có lịch cụ thể Chuẩn bị kỹ, chu đáo Luôn nghiên cứu trước phỏng vấn Nhắc người dùng chuẩn bị cho buổi phỏng vấn Phiên theo nhóm Phiên theo nhóm không quá 20 người Chỉ sử dụng khi đã hiểu rõ được vết cơ sở của yêu cầu Không sử dụng để nắm bắt dữ liệu khởi tạo Hiệu quả để xác nhận các yêu cầu Đảm bảo tính tổ chức tốt Một số công việc chính cần hoàn thành trước khi phỏng vấn Lựa chọn và huấn luyện thành viên đội phát triển quản lý phỏng vấn Gắn vai trò riêng của mỗi thành viên chỉ đạo/thư ký phỏng vấn Lên danh sách người dùng để phỏng vấn và chuẩn bị lịch rõ ràng Lên danh mục các kỳ vóng đối với mỗi tập phỏng vấn Hoàn thành việc nghiên cứu tiền phỏng vấn (rất quan trọng) Chuẩn bị các câu hỏi khi phỏng vấn Chuẩn bị người dùng cho phỏng vấn Hướng dẫn ban đầu chung cho tất cả người dùng sẽ được phỏng vấn Các kỳ vọng khi phỏng vấn Các thông tin mong muốn nhận được từ các đối tác phỏng vấn Phía trên là đường nền (baseline) kỳ vọng cho ba lớp tác nhân Một số nội dung nghiên cứu tiền phỏng vấn Cấu trúc quá khứ và hiện tại của đơn vị kinh doanh (BU) Số lượng chuyên viên của BU, vai trò và trách nhiệm của họ Vị trí của người dùng Mục đích gốc rễ của BU trong tập đoàn Mục đích thứ yếu của BU trong tập đoàn Quan hệ giữa BU trong nội bộ tập đoàn và ra bên ngoài Sự đóng góp của BU vào thu nhập của tập đoàn và giá thành Thị trường của tập đoàn Thị phần trong thị trường III. Các phương pháp nắm bắt yêu cầu Một số điểm nút cần quan tâm khi phỏng vấn Nguồn thông tin hiện tại Miền chủ đề Độ đo hiệu năng chủ yếu Tần suất thông tin Chuẩn bị biên soạn tài liệu yêu cầu, cần mô tả được Tiểu sử (SYLL) người dùng Thông tin chung và mục đích Yêu cầu thông tin Yêu cầu phân tích Bộ công cụ hiện có được dùng Tiêu chuẩn thành công Độ đo kinh doanh hữu dụng Các chiều kinh doanh liên quan Tài nguyên thông tin hiện có Các hệ tác nghiệp sinh ra dữ liệu cho miền chủ đề kinh doanh quan trọng Các hệ thống máy tính nào hỗ trọ miền chủ đề quan trọng này Thông tin nào hiện được cung cấp trong các kết xuất và câu hỏi trực tuyến Mức độ chi tiết thông tin được cung cấp Miền chủ đề Các miền chủ đề có giá trị nhất để phân tích Có các chiều kinh doanh nào ? Chúng có cấu trúc tự nhiên hay không ? Các thành phần kinh doanh để hỗ trợ quyết định Thông tin toàn cục hay cục bộ để hỗ trợ quyết định hoặc kết hợp Các sản phẩm và dịch vụ thuộc miền chủ đề Độ đo hiệu năng chính yếu Cách thức đo hiệu năng của BU Các nhân tố chuẩn thành công và cách thức giám sát Cách thức độ đo chính yếu cuộn lên Mọi thị trường có dùng cách đo này ? Tần suất thông tin Tính thường xuyên bắt buộc cập nhật dữ liệu để ra quyết định ? Khung thời gian nào? Cách thức của mỗi kiểu phân tích theo thời gian Nhu cầu thời gian ra sao đối với thông tin trong DW III. Các phương pháp nắm bắt yêu cầu Kết hợp phương pháp JDA (the Joint Distributional Analysis: phân tích phân bố liên hợp) JDA thành công để nắm bắt nhu cầu hệ tác nghiệp JDA là quá trình cộng tác, tập trung nhóm cùng nhau cho mục tiêu xác định tốt. Trước đây: công tác người dùng với chuyên gia IT Thành công phụ thuộc vào tính tích hợp của đội JDA... Mô hình JDA gồm các bước sau: Xác định điểm đánh giá cuối (ví dụ, xác suất thất bại sinh sản một loài cá đặc biệt) theo nghĩa một điểm kiểm tra kết thúc (ví dụ, xác suất vượt quá điểm kết thúc hiệu quả có liên quan). b. Thu nhận dữ liệu có liên quan (dữ liệu nồng độ hiệu quả và khẳng định). c. Tính toán rủi ro theo đó phân bố nồng độ môi trường kỳ vọng vượt quá phân bố của nồng độ hiệu quả. III. Các phương pháp nắm bắt yêu cầu Các thành viên của đội theo phương pháp JDA đầu tư điều hành: điều khiển chi trả, định hướng, trao quyền người cung cấp phương tiện: hướng dẫn đội suốt quá trình JAD Thư ký: ghi nhận mọi biên bản quyết định thành viên bán thời gian thành viên theo yêu cầu thành viên mời III. Các phương pháp nắm bắt yêu cầu JAD bao gồm tiếp cận 5 pha xác định dự án Nghiên cứu, khảo sát chuẩn bị Các phiên làm việc JAD Hoàn thiện tài liệu xác định dự án Hoàn thiện phỏng vấn cao cấp Tổ chức phỏng vấn quản lý Chuẩn bị xác đinh quản lý Nghiên cứu, khảo sát Tương đồng miền kinh doanh và hệ thống Làm tài liệu yêu cầu thông tin ngươpì dùng Làm tài liệu quá trình kinh doanh Nắm bắt thông tin gốc Chuẩn bị chương trình nghị sự cho phiên nhóm chuẩn bị Khởi tạo tài liệu làm việc từ các pha trước Huấn luyện thư ký Chuẩn bị hỗ trợ trực quan Chỉ đạo các cuộc họp trước phiên chung Chuẩn bị không gian cho phiên Chuẩn bi danh sách kiểm tra cho mục tiêu Các phiên làm việc JAD Thảo luận chương trình nghị sự và mục đích Giả thiết của phỏng vấn Phỏng vấn yêu cầu dữ liệu Phòng vấn độ đo và chiều kinh doanh Thảo luận kiến trúc chiều và cuộn lên Giải quyết lại những vấn đề còn mở Đóng phiên với danh sách các mục kết luận Hoàn thiện tài liệu Cải tiến tài liệu làm việc Sắp xếp các thông tin đã nắm bắt được Lên danh sách các nguồn dữ liệu Định danh moi độ đo kinh doanh Lên danh sách mọi chiều và kiến trúc kinh doanh Thiết kế và biên tập tài liệu Quản lý các kết luận phiên Đi đến chấp nhận Tiến hành thủ tục thay đổi nhu cầu Xem xét tài liệu đã có Hầu hết các yêu cầu đwocj nắm bắt qua: phỏng vấn+phiên nhóm; thông tin hữu dụng từ những tài liệu liên quan từ các hoạt động này Xem xét lại các tài liệu đã có một cách khách quan (mức khái niệm) từ BU Xem xét tài liệu đã có (bộ phận người dùng) Tài liệu từ BU sẵn có qua quá trình và thủ tục (Các cách thức thực hiện chức năng của BU). Xem xét chi tiết các quá trình và thủ tục Thử tìm ra các kiểu phân tích mà BU ưa chuộng. Xem xét và tranh luận để nắm bắt tốt các hoạt động Xem xét tài liệu đã có (bộ phận chuyên viên IT) Phân tích vị trí nhận dữ liệu để nhận ra các độ đo và chiều kinh doanh từ hệ tác nghiệp nội tại hệ thống nguồn cho ta những tài nguyên nào Quan tâm tới người quản lý CSDL và chuyên gia IT IV. Xác định yêu cầu: Phạm vi và nội dung Tài liệu hình thức thường không cô đọng trong các dự án hệ thống máy tính Bỏ qua tài liệu chi tiết khi xác định yêu cầu Vì tài liệu pha xác định yêu cầu là đầu vào các pha tiếp theo cho nên cần xác nhận kết quả của pha xác định yêu cầu. Biên tập tài liệu có vai trò quan trọng (ví dụ bàn giao) IV. Xác định yêu cầu: Phạm vi và nội dung Các kiểu thông tin cần trình bày: Nguồn dữ liệu Các phép biến đổi dữ liệu Kho chứa dữ liệu Cung cấp thông tin Lược đồ gói thông tin Giới thiệu: Tình trạng và phạm vi của dự án. Chứa tính cân bằng của dự án. Cung cấp tóm tắt cho các đoạn tiếp theo. Mô tả nhu cầu tống quát: Mô tả hệ thống nguồn được phỏng vấn. Tóm tắt phỏng vấn. Khái quát kiểu nhu cầu thông tin được đặt ra Nhu cầu riêng: Chi tiết dữ liệu nguồn cần đến. Liệt kê chuyển dạng dữ liệu và nhu cầu bảo quản. Phương pháp cung cấp thông tin tới người dùng Gói thông tin: Cung cấp chi tiết nhất có thể được về các gói thông tin cả về sơ đồ gói. Yêu cầu khác: Phủ các yêu cầu kết hợp như tần suất trích chọn dữ liệu, phương pháp tải dữ liệu, vị trí mà thông tin được cung cấp Kỳ vọng người dùng: Tình trạng: vấn đề và giải quyết. Chỉ số hóa hy vọng sử dụng DW của người dùng Tham gia và không tham gia của người dùng: Liệt kê các bài toán và các hoạt động mà người dùng có thể tham gia Phương án thi hành tổng quát: Mô tả phương án tổng thể để thi hành