Bài giảng Siêu dữ liệu

Dữ liệu về dữ liệu data about other data • Tập các thuộc tính, hay phần tử cần thiết cho việc miêu tả nguồn thông tin • Ví dụ: một tập các bản ghi với các phần tử mô tả một cuốn sách: tác giả author tên sách title ngày xuất bản date of publication Miêu tả description

pdf37 trang | Chia sẻ: haohao89 | Lượt xem: 3279 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Siêu dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 6: Siêu dữ liệu Siêu dữ liệu là gì • Dữ liệu về dữ liệu data about other data • Tập các thuộc tính, hay phần tử cần thiết cho việc miêu tả nguồn thông tin • Ví dụ: một tập các bản ghi với các phần tử mô tả một cuốn sách: tác giả author tên sách title ngày xuất bản date of publication Miêu tả description Siêu dữ liệu – Khái niệm • Siêu dữ liệu là thành phần cơ bản để xây dựng và quản lí một kho dữ liệu • Trước khi một kdl có thể được truy cập một cách có hiệu quả, thực sự là cần thiết để hiểu, dữ liệu gì sẵn có trong kdl, và chúng lưu trữ ở đâu. • Dữ liệu miêu tả quá trình xây dựng, quản lí và hoạt động của KDL • Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kdl Siêu dữ liệu Khái niệm siêu dữ liệu • Là một lưu trữ dùng để: – Miêu tả KDL tổng thể – Nhận dạng kiểu kho dữ liệu – Quản lí quá trình tích hợp dữ liệu – Quản lí quá trình cập nhật KDL – Quản lí bảo mật • Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification Sự quan trọng của siêu dữ liệu • Rất quan trọng trong kho dữ liệu • Không phải là dữ kiện phân tích • Là chìa khóa quyết định sự thành công của kho dữ liệu • Là thành phần luôn được thay đổi, cấp nhật theo sự phát triển của kho dữ liệu • Dùng để quản lý, điều khiển kho dữ liệu Warehouse Metadata Repository External Sources Operational Data Sources Chất lượng của siêu dữ liệu • Quản lý được sự tích hợp • Thể hiện được tính lịch sử của dữ liệu • Quản lý được các thay đổi Sự hình thành siêu dữ liệu • Trong quá trình xây dựng kdl: – Sản sinh một cách tự động – Được tạo ra trong quá trình xây dựng kdl • ứng dụng: – Miêu tả Kdl và các thành phần – Tạo điều kiện cho việc truy cập KDL ở mọi cấp • Bảo trì: – Phục vụ cho các mục đích bảo mật – Lưu trữ thông tin về người dùng Các bước tạo lập siêu dữ liệu • Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu • Xác định các vấn đề trong tích hợp dữ liệu. • Xác định siêu dữ liệu có thể được tạo như thế nào, ai tạo ra và được lưu trữ ở đâu • Miêu tả nội dung của siêu dữ liệu Chiến lược cho siêu dữ liệu • Đưa ra một chiến lược cho việc tiến hành xây dựng và sử dụng kho dữ liệu • Phải đảm bảo được siêu dữ liệu có chất lượng cao • Cung cấp cho người dùng thông tin có chất lượng cao • Đảm bảo việc quản lí dữ liệu tích hợp – Nhằm vào mục đích đến là gì – Nguồn và thông tin về nguồn – Bảo trì và quản lí – Các chuẩn hóa – Truy cập và các công cụ – Tích hợp và phát triển Phân tích mục đích • Các ý định • Các yêu cầu • Quản lý sự truy cập, ai sẽ truy cập và truy cập như thế nào • Xác định các nguồn • Các hướng tích hợp • Quản lí sự thay đổi và tiến triển của KDL Các loại nguồn của siêu dữ liệu • Xác định ai là người dùng kho dữ liệu ? • Họ cần cái gì ? • Siêu dữ liệu chứa cái gì ? • Sẽ sử dụng công cụ gì để xây dựng kho dữ liệu ? Các kỹ thuật • Các công cụ mô hình hóa • Định nghĩa các lược đồ CSDL • Các công cụ hỗ trợ cho ETT • Các công cụ cho người dùng cuối • Các công cụ để tạo tài liệu kĩ thuật Vị trí siêu dữ liệu • Lưu tại máy chủ chứa kho dữ liệu • Có thể được lưu tại các csdl nguồn • Tại máy PC có công cụ quản lí siêu dữ liệu • Quản lý bởi người quản lí siêu dữ liệu • Các chuẩn hóa được sinh ra bởi cấu trúc siêu dữ liệu Các công cụ và việc truy cập • Ai truy cập ? • Khi nào? • Với mục đích gì ? • Công cụ cho việc quản lí • Công cụ quản lí câu hỏi • Công cụ cho việc xây dựng kho dữ liệu Các loại siêu dữ liệu chi tiết • Hệ tương tác Operational – Các tiến trình nạp, quản lý và lập lịch cho việc cập nhập kdl • ETT – Quản lý các cấu trúc, ánh xạ – Thông tin nguồn và đích – Quản lý việc chuyển đổi • Người dùng cuối (End user ) – Hỗ trợ việc sử dụng kho dữ liệu – Hỗ trợ việc khảo sát kdl – Hỗ trợ việc cung cấp thông tin cho kdl Siêu dữ liệu hệ thống tương tác • Siêu dữ liệu cho hệ tương tác miêu tả phạm vi, giới hạn môi trường của kdl • Xác định những dữ liệu nào cho phép hay không cho phép kdl truy cập • Điều khiển quá trình truyền dữ liệu từ nguồn vào kdl • Cung cấp các thông tin cho các nhà phát triển trong quá trình xây dựng cũng như mở rộng kdl • No data nothing Siêu dữ liệu cho ETT ánh xạ dữ liệu từ các nguồn vào kdl Warehouse Data Warehouse Data Model Metadata RepositoryInternal sources External sources Operational data sources Browser: http:// Hollywood X+ Customers: a r ec or of as X+ Customers: Browser: http:// Hollywood Browser: http:// Hollywood X + 12345.00 12780.00 2345787.00 87877.98 5678.00 100% 110% 230% 200% -10% ABC CO GMBH LTD GBUK INC FFR ASSOC MCD CO Siêu dữ liệu cho việc chiết (1) • Các luật kinh doanh • Các khóa, trường và bảng nguồn • Quản lí việc sở hữu dữ liệu • Chuyển đổi giữa các trường • Các bản tra cứu • Thay đổi tên • Các thay đổi giá trị khóa • Các giá trị mặc định • Quản lý đa nguồn • Các thuật toán • Nhãn thời gian Staging File External Sources Operational Data Sources Extraction Siêu dữ liệu cho việc chiết (2) • Các yêu cầu về lưu trữ • Thông tin về vị trí các nguồn • Sự khác nhau giữa các nguồn • Thông tin truy cập • Bảo mật • Các liên hệ, liên hệ với ai để có dữ liệu • Các tên chương trình • Các thông tin quản lý tính chất của dữ liệu External Sources Operational Data Sources Extraction Chuyển đổi • Phương thức chuyển đổi • Các chức năng xác định dữ liệu • Các luật phát triển kdl • Thông tin liên hệ External sources Operational data sources Warehouse Metadata repository ETT Mapping Stagin g file Transport Tích hợp và thay đổi • Siêu dữ liệu quản lí việc tích hợp dữ liệu • Siêu dữ liệu dùng cho việc trao đổi thông tin • Quản lý việc chuyển đổi siêu dữ liệu • Xem xét chu kỳ làm tươi kho dữ liệu Siêu dữ liệu người dùng cuối (1) Warehouse Metadata Repository End UserOperational ETT Mapping IT staff Users Siêu dữ liệu người dùng cuối (2) • Người dùng với mục đích phân tích đơn giản: yêu cầu các báo cáo chuẩn từ môi trường kdl • Người dùng với mục đích thăm dò. Cần thiết để tham dò dữ liệu ở nhiều cấp độ. Họ sẽ dùng các toán tử Rolling up và Drilling down để thăm dò tương tác giữa các chủ thể kinh doanh giúp cho việc đưa ra quyết định • Người dùng với mục đích phân tích: Thực hiện các phân tích thống kê, và đưa ra các quyết định Siêu dữ liệu người dùng cuối (3) • Ví trí của các chiều và dữ kiện • Miêu tả nội dung • Các thuật toán để tạo ra các tổng hợp • Thông tin về người sử dụng kdl Warehouse Metadata repository End User Siêu dữ liệu người dùng cuối (4) • Cần thiết để biết ngữ cảnh của câu hỏi Warehouse Metadata repository End User Siêu dữ liệu người dùng cuối (5) Table Column Data Meaning Name Name Product Prodid 739516 Unique identifier for the product Product Valid_date 01/97 Last refresh date Product Ware_loc 1816 Warehouse location number Product Ware_bin 666 Warehouse bin number Product Code 15 The color of the product; please refer to table COL_REF for details Product Weight 17.62 Packed shipping weight in kilograms Siêu dữ liệu người dùng cuối (6) • Ví trí của các chiều và dữ kiện • Miêu tả nội dung • Các thuật toán để tạo ra các tổng hợp • Thông tin về người sử dụng kdl Warehouse Metadata repository End User Ngữ cảnh của dữ liệu (1) • Hỗ trợ sự thay đổi theo chiều thời gian • Lưu trữ các thay đổi của thông tin Operational Warehouse Metadata repository Structure Content 92 93 94 95 96 Ngữ cảnh của dữ liệu (2) • Dạng đơn giản – Các cấu trúc dữ liệu – Các chuyển đổi tên – Các ánh xạ • Dạng phức tạp – Các định nghĩa sản phẩm – Giá cả • Nguồn ngoài – Tác động của nền kinh tế – Chính trị Warehouse 92 93 94 95 96 Siêu dữ liệu phụ trợ • Các thuật toán để tính toán các tổng hợp • Thể hiện các quan hệ (nguồn-đích, phân cấp,..) • Thông tin quản lí • Các cấp quyền • Phân tích mẫu • Các bảng tra cứu Đặc tả siêu dữ liệu MDIS (1) • Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification D a ta b a s e S u b s c h e m a D im e n s io n R e la t io n s h ip L e v e l E le m e n t R e c o rd Đặc tả siêu dữ liệu MDIS (2) • Metadata Coalition là một nhóm mở của các công ty như IBM, Informix và Prism Solutions • Muc đích của MC là để tạo ra các chuẩn hóa về: – Cơ chế truy cập – API cho siêu dữ Iiệu – Cho phép người dùng điều khiển và quản lí việc truy cập và thao tác siêu dữ liệu trong môi trường của họ thông qua các công cụ siêu dữ liệu Đặt tả siêu dữ liệu MDIS (3) • MDIS có thể được mở rộng. Mô hình siêu dữ liệu của MDIS miêu tả các thực thể và mối liên hệ giữa chúng • Database: thể hiện cho hệ thống CSDL hay một nhóm các files. • Một database chứa nhiều records, và một record chứa một số element là thành phần bé nhất • Subschema: thể hiện một lược đồ logic con Đặt tả siêu dữ liệu MDIS (4) • Relationship: thể hiện mối quan hệ giữa các đối tượng. Các mối quan hệ bao gồm: – Equivalent – Derived – Inherit from – Contain – Include – Link to • Dimension thể hiện các bản chiều trong mô hình đa chiều • Level: thể hiện cấp trong lược đồ phân cấp của chiều • Mỗi một đặt tả đều có header miêu tả các thông tin về dữ liệu đượu lưu trữ Ngôn ngữ Telos miêu tả MDIS • Được phát triển bởi trường đại học Toronto và một số dự án tại châu Âu vào cuối những năm 1980s • Miêu tả các đối tượng và cung cấp sự kết nối giữa chúng • Ngoài việc cung cấp cú pháp nó còn cung cấp về mặt ngữ nghĩa, các mô hình siêu dữ liệu. • Và được ứng dụng rất nhiều trong các hệ thống thông tin: DW, Sematic Web,… Các công cụ quản lí siêu dữ liệu • Carleton • Evolutionary Technologies • Hewlett Packard • Informatica • Information Advantage • Oracle Designer/2000 • Platinum Technology • Prism Solutions • Sagent
Tài liệu liên quan