Dữ liệu về dữ liệu data about other data
• Tập các thuộc tính, hay phần tử cần thiết cho việc miêu tả nguồn thông tin
• Ví dụ: một tập các bản ghi với các phần tử mô tả một cuốn sách: tác giả author tên sách title ngày xuất bản date of publication Miêu tả description
37 trang |
Chia sẻ: haohao89 | Lượt xem: 3439 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Siêu dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 6: Siêu dữ liệu
Siêu dữ liệu là gì
• Dữ liệu về dữ liệu data about other data
• Tập các thuộc tính, hay phần tử cần
thiết cho việc miêu tả nguồn thông tin
• Ví dụ: một tập các bản ghi với các phần
tử mô tả một cuốn sách:
tác giả author
tên sách title
ngày xuất bản date of publication
Miêu tả description
Siêu dữ liệu – Khái niệm
• Siêu dữ liệu là thành phần cơ bản để xây
dựng và quản lí một kho dữ liệu
• Trước khi một kdl có thể được truy cập một
cách có hiệu quả, thực sự là cần thiết để
hiểu, dữ liệu gì sẵn có trong kdl, và chúng lưu
trữ ở đâu.
• Dữ liệu miêu tả quá trình xây dựng, quản lí
và hoạt động của KDL
• Siêu dữ liệu được lưu trữ trong một kho chứa
và được truy cập bởi tất cả các thành phần
của kdl
Siêu dữ liệu
Khái niệm siêu dữ liệu
• Là một lưu trữ dùng để:
– Miêu tả KDL tổng thể
– Nhận dạng kiểu kho dữ liệu
– Quản lí quá trình tích hợp dữ liệu
– Quản lí quá trình cập nhật KDL
– Quản lí bảo mật
• Hiệp hội chuyên nghiên cứu về siêu dữ liệu
Metadata Coalition đã đưa ra đặc tả của siêu
dữ liệu vào năm 1996 MDIS Metadata
Interchange Specification
Sự quan trọng của siêu dữ liệu
• Rất quan trọng trong kho dữ liệu
• Không phải là dữ kiện phân tích
• Là chìa khóa quyết định sự thành công của kho dữ
liệu
• Là thành phần luôn được thay đổi, cấp nhật theo sự
phát triển của kho dữ liệu
• Dùng để quản lý, điều khiển kho dữ liệu
Warehouse
Metadata
Repository
External
Sources
Operational
Data
Sources
Chất lượng của siêu dữ liệu
• Quản lý được sự tích hợp
• Thể hiện được tính lịch sử
của dữ liệu
• Quản lý được các thay đổi
Sự hình thành siêu dữ liệu
• Trong quá trình xây dựng kdl:
– Sản sinh một cách tự động
– Được tạo ra trong quá trình xây dựng kdl
• ứng dụng:
– Miêu tả Kdl và các thành phần
– Tạo điều kiện cho việc truy cập KDL ở mọi cấp
• Bảo trì:
– Phục vụ cho các mục đích bảo mật
– Lưu trữ thông tin về người dùng
Các bước tạo lập siêu dữ liệu
• Định nghĩa các chức năng chính của
siêu dữ liệu trong hệ thống kho dữ liệu
• Xác định các vấn đề trong tích hợp dữ
liệu.
• Xác định siêu dữ liệu có thể được tạo
như thế nào, ai tạo ra và được lưu trữ ở
đâu
• Miêu tả nội dung của siêu dữ liệu
Chiến lược cho siêu dữ liệu
• Đưa ra một chiến lược cho việc tiến hành xây dựng
và sử dụng kho dữ liệu
• Phải đảm bảo được siêu dữ liệu có chất lượng cao
• Cung cấp cho người dùng thông tin có chất lượng
cao
• Đảm bảo việc quản lí dữ liệu tích hợp
– Nhằm vào mục đích đến là gì
– Nguồn và thông tin về nguồn
– Bảo trì và quản lí
– Các chuẩn hóa
– Truy cập và các công cụ
– Tích hợp và phát triển
Phân tích mục đích
• Các ý định
• Các yêu cầu
• Quản lý sự truy cập, ai sẽ truy cập và
truy cập như thế nào
• Xác định các nguồn
• Các hướng tích hợp
• Quản lí sự thay đổi và tiến triển của
KDL
Các loại nguồn của siêu dữ liệu
• Xác định ai là người dùng kho dữ liệu ?
• Họ cần cái gì ?
• Siêu dữ liệu chứa cái gì ?
• Sẽ sử dụng công cụ gì để xây dựng kho
dữ liệu ?
Các kỹ thuật
• Các công cụ mô hình hóa
• Định nghĩa các lược đồ CSDL
• Các công cụ hỗ trợ cho ETT
• Các công cụ cho người dùng cuối
• Các công cụ để tạo tài liệu kĩ thuật
Vị trí siêu dữ liệu
• Lưu tại máy chủ chứa kho dữ liệu
• Có thể được lưu tại các csdl nguồn
• Tại máy PC có công cụ quản lí siêu dữ
liệu
• Quản lý bởi người quản lí siêu dữ liệu
• Các chuẩn hóa được sinh ra bởi cấu
trúc siêu dữ liệu
Các công cụ và việc truy cập
• Ai truy cập ?
• Khi nào?
• Với mục đích gì ?
• Công cụ cho việc quản lí
• Công cụ quản lí câu hỏi
• Công cụ cho việc xây dựng kho dữ liệu
Các loại siêu dữ liệu chi tiết
• Hệ tương tác Operational
– Các tiến trình nạp, quản lý và lập lịch cho việc cập
nhập kdl
• ETT
– Quản lý các cấu trúc, ánh xạ
– Thông tin nguồn và đích
– Quản lý việc chuyển đổi
• Người dùng cuối (End user )
– Hỗ trợ việc sử dụng kho dữ liệu
– Hỗ trợ việc khảo sát kdl
– Hỗ trợ việc cung cấp thông tin cho kdl
Siêu dữ liệu hệ thống tương tác
• Siêu dữ liệu cho hệ tương tác miêu tả phạm
vi, giới hạn môi trường của kdl
• Xác định những dữ liệu nào cho phép hay
không cho phép kdl truy cập
• Điều khiển quá trình truyền dữ liệu từ nguồn
vào kdl
• Cung cấp các thông tin cho các nhà phát
triển trong quá trình xây dựng cũng như mở
rộng kdl
• No data nothing
Siêu dữ liệu cho ETT
ánh xạ dữ liệu từ các nguồn vào kdl
Warehouse
Data Warehouse
Data Model
Metadata
RepositoryInternal
sources
External
sources
Operational
data
sources
Browser:
http://
Hollywood X+
Customers:
a r
ec
or
of
as
X+
Customers:
Browser:
http://
Hollywood
Browser:
http://
Hollywood
X +
12345.00
12780.00
2345787.00
87877.98
5678.00
100%
110%
230%
200%
-10%
ABC CO
GMBH LTD
GBUK INC
FFR ASSOC
MCD CO
Siêu dữ liệu cho việc chiết (1)
• Các luật kinh doanh
• Các khóa, trường và bảng nguồn
• Quản lí việc sở hữu dữ liệu
• Chuyển đổi giữa các trường
• Các bản tra cứu
• Thay đổi tên
• Các thay đổi giá trị khóa
• Các giá trị mặc định
• Quản lý đa nguồn
• Các thuật toán
• Nhãn thời gian
Staging
File
External
Sources
Operational
Data
Sources
Extraction
Siêu dữ liệu cho việc chiết (2)
• Các yêu cầu về lưu trữ
• Thông tin về vị trí các
nguồn
• Sự khác nhau giữa các
nguồn
• Thông tin truy cập
• Bảo mật
• Các liên hệ, liên hệ với ai
để có dữ liệu
• Các tên chương trình
• Các thông tin quản lý tính
chất của dữ liệu
External
Sources
Operational
Data
Sources
Extraction
Chuyển đổi
• Phương thức chuyển đổi
• Các chức năng xác định dữ liệu
• Các luật phát triển kdl
• Thông tin liên hệ
External
sources
Operational
data
sources
Warehouse
Metadata
repository
ETT
Mapping
Stagin
g
file
Transport
Tích hợp và thay đổi
• Siêu dữ liệu quản lí việc tích hợp dữ
liệu
• Siêu dữ liệu dùng cho việc trao đổi
thông tin
• Quản lý việc chuyển đổi siêu dữ liệu
• Xem xét chu kỳ làm tươi kho dữ liệu
Siêu dữ liệu người dùng cuối (1)
Warehouse
Metadata
Repository
End
UserOperational
ETT
Mapping
IT staff
Users
Siêu dữ liệu người dùng cuối (2)
• Người dùng với mục đích phân tích đơn giản:
yêu cầu các báo cáo chuẩn từ môi trường kdl
• Người dùng với mục đích thăm dò. Cần thiết
để tham dò dữ liệu ở nhiều cấp độ. Họ sẽ
dùng các toán tử Rolling up và Drilling down
để thăm dò tương tác giữa các chủ thể kinh
doanh giúp cho việc đưa ra quyết định
• Người dùng với mục đích phân tích: Thực
hiện các phân tích thống kê, và đưa ra các
quyết định
Siêu dữ liệu người dùng cuối (3)
• Ví trí của các chiều và dữ kiện
• Miêu tả nội dung
• Các thuật toán để tạo ra các tổng hợp
• Thông tin về người sử dụng kdl
Warehouse
Metadata
repository
End
User
Siêu dữ liệu người dùng cuối (4)
• Cần thiết để biết ngữ cảnh của câu hỏi
Warehouse
Metadata
repository
End
User
Siêu dữ liệu người dùng cuối (5)
Table Column Data Meaning
Name Name
Product Prodid 739516 Unique identifier for the product
Product Valid_date 01/97 Last refresh date
Product Ware_loc 1816 Warehouse location number
Product Ware_bin 666 Warehouse bin number
Product Code 15 The color of the product; please
refer to table COL_REF for details
Product Weight 17.62 Packed shipping weight in
kilograms
Siêu dữ liệu người dùng cuối (6)
• Ví trí của các chiều và dữ kiện
• Miêu tả nội dung
• Các thuật toán để tạo ra các tổng hợp
• Thông tin về người sử dụng kdl
Warehouse
Metadata
repository
End
User
Ngữ cảnh của dữ liệu (1)
• Hỗ trợ sự thay đổi theo chiều thời gian
• Lưu trữ các thay đổi của thông tin
Operational Warehouse
Metadata
repository
Structure
Content
92 93 94 95 96
Ngữ cảnh của dữ liệu (2)
• Dạng đơn giản
– Các cấu trúc dữ liệu
– Các chuyển đổi tên
– Các ánh xạ
• Dạng phức tạp
– Các định nghĩa sản
phẩm
– Giá cả
• Nguồn ngoài
– Tác động của nền kinh tế
– Chính trị
Warehouse
92 93 94 95 96
Siêu dữ liệu phụ trợ
• Các thuật toán để tính toán các tổng
hợp
• Thể hiện các quan hệ (nguồn-đích,
phân cấp,..)
• Thông tin quản lí
• Các cấp quyền
• Phân tích mẫu
• Các bảng tra cứu
Đặc tả siêu dữ liệu MDIS (1)
• Hiệp hội chuyên nghiên cứu về siêu dữ liệu
Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu
vào năm 1996 MDIS Metadata Interchange
Specification
D a ta b a s e
S u b s c h e m a
D im e n s io n
R e la t io n s h ip
L e v e l
E le m e n t
R e c o rd
Đặc tả siêu dữ liệu MDIS (2)
• Metadata Coalition là một nhóm mở của các
công ty như IBM, Informix và Prism Solutions
• Muc đích của MC là để tạo ra các chuẩn hóa
về:
– Cơ chế truy cập
– API cho siêu dữ Iiệu
– Cho phép người dùng điều khiển và quản lí việc
truy cập và thao tác siêu dữ liệu trong môi trường
của họ thông qua các công cụ siêu dữ liệu
Đặt tả siêu dữ liệu MDIS (3)
• MDIS có thể được mở rộng. Mô hình siêu dữ
liệu của MDIS miêu tả các thực thể và mối
liên hệ giữa chúng
• Database: thể hiện cho hệ thống CSDL hay
một nhóm các files.
• Một database chứa nhiều records, và một
record chứa một số element là thành phần bé
nhất
• Subschema: thể hiện một lược đồ logic con
Đặt tả siêu dữ liệu MDIS (4)
• Relationship: thể hiện mối quan hệ giữa các đối
tượng. Các mối quan hệ bao gồm:
– Equivalent
– Derived
– Inherit from
– Contain
– Include
– Link to
• Dimension thể hiện các bản chiều trong mô hình đa
chiều
• Level: thể hiện cấp trong lược đồ phân cấp của chiều
• Mỗi một đặt tả đều có header miêu tả các thông tin
về dữ liệu đượu lưu trữ
Ngôn ngữ Telos miêu tả MDIS
• Được phát triển bởi trường đại học Toronto
và một số dự án tại châu Âu vào cuối những
năm 1980s
• Miêu tả các đối tượng và cung cấp sự kết nối
giữa chúng
• Ngoài việc cung cấp cú pháp nó còn cung
cấp về mặt ngữ nghĩa, các mô hình siêu dữ
liệu.
• Và được ứng dụng rất nhiều trong các hệ
thống thông tin: DW, Sematic Web,…
Các công cụ quản lí siêu dữ liệu
• Carleton
• Evolutionary Technologies
• Hewlett Packard
• Informatica
• Information Advantage
• Oracle
Designer/2000
• Platinum Technology
• Prism Solutions
• Sagent