4.1 Từ bảng dữ liệu đến khối dữ liệu
KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ
liệu dưới hình thức của một khối dữ liệu
Một khối dữ liệu như bán hàng, cho phép dữ liệu
được mô hình và được nhìn trong nhiều chiều
Các bảng chiều (Dimension Tables) như item
(item_name, brand, type), hoặc time(day, week,
month, quarter, year)
Bảng sự kiện (Fact Table) chứa các độ đo (Measure)
(như dollars_sold) và các khóa có liên kết đến mỗi
bảng chiều
Một khối dữ liệu dựa trên n-D được gọi là một
cuboid cơ sở.
30 trang |
Chia sẻ: thanhle95 | Lượt xem: 906 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Kho dữ liệu và khai phá dữ liệu - Chương 4: Phân tích trực tuyến OLAP - Nguyễn Hoàng Ân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Kho dữ liệu và khai phá dữ liệu
Chương 4:
Phân tích trực tuyến OLAP
Nguyễn Hoàng Ân 1
Nội dung
Mô hình dữ liệu đa chiều
MOLAP, ROLAP, HOLAP
Thiết kế và xây dựng Cube
Các thao tác trên hệ thống OLAP
Nguyễn Hoàng Ân 3
4. Mô hình kho dữ liệu
4.1 Từ bảng dữ liệu đến khối dữ liệu
4.2 Mô hình luận lý của KDL
4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL)
Nguyễn Hoàng Ân 4
4.1 Từ bảng dữ liệu đến khối dữ liệu
KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ
liệu dưới hình thức của một khối dữ liệu
Một khối dữ liệu như bán hàng, cho phép dữ liệu
được mô hình và được nhìn trong nhiều chiều
Các bảng chiều (Dimension Tables) như item
(item_name, brand, type), hoặc time(day, week,
month, quarter, year)
Bảng sự kiện (Fact Table) chứa các độ đo (Measure)
(như dollars_sold) và các khóa có liên kết đến mỗi
bảng chiều
Một khối dữ liệu dựa trên n-D được gọi là một
cuboid cơ sở.
Nguyễn Hoàng Ân 5
Cube: Một lưới các Cuboids
all
time item location supplier
time,item time,location
time,supplier
item,location
item,supplier
location,supplier
time,item,location
time,item,supplier
time,location,supplier
item,location,supplier
time, item, location, supplier
0-D(apex) cuboid
1-D cuboids
2-D cuboids
3-D cuboids
4-D(base) cuboid
Nguyễn Hoàng Ân 6
4.2 Mô hình ý niệm của KDL
Mô hình kho dữ liệu:
Lược đồ hình sao (Star schema): Một bảng sự kiện ở
giữa kết nối đến một tập bảng chiều
Lược đồ hình bông tuyết (Snowflake schema): Tinh
chế của lược đồ hình sao, trong đó một vài chiều có
sự phân cấp được chuẩn hóa thành một tập các bảng
chiều nhỏ hơn, có hình ảnh giống như bông tuyết
Chòm sao sự kiện (Fact constellations): Nhiều bảng
sự kiện chia sẻ các bảng chiều. Còn được gọi là lược
đồ thiên hà (galaxy schema)
Nguyễn Hoàng Ân 7
Ví dụ của lược đồ hình sao
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
province_or_street
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
Nguyễn Hoàng Ân 8
Ví dụ của lược đồ hình bông tuyết
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city_key
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_key
item
branch_key
branch_name
branch_type
branch
supplier_key
supplier_type
supplier
city_key
city
province_or_street
country
city
Nguyễn Hoàng Ân 9
Ví dụ của chòm sao sự kiện
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
province_or_street
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
Shipping Fact Table
time_key
item_key
shipper_key
from_location
to_location
dollars_cost
units_shipped
shipper_key
shipper_name
location_key
shipper_type
shipper
Nguyễn Hoàng Ân 10
Nguyễn Hoàng Ân 11
12
Figure 11-13: Components of a star schema
Fact tables contain
factual or quantitative
data
Dimension tables contain
descriptions about the
subjects of the business
1:N relationship
between dimension
tables and fact tables
Excellent for ad-hoc queries,
but bad for online transaction processing
Dimension tables are
denormalized to
maximize
performance
Nguyễn Hoàng Ân
13
Figure 11-14: Star schema example
Fact table provides statistics for sales
broken down by product, period and store
dimensions
Nguyễn Hoàng Ân
14Nguyễn Hoàng Ân
4.3 Ngôn ngữ truy vấn khai phá dữ liệu:
DMQL
Data Mining Query Language: DMQL
Định nghĩa khối (Bảng sự kiện)
define cube []:
Định nghĩa chiều (Bảng chiều)
define dimension as
()
Special Case (Bảng chiều chia sẻ)
First time as “cube definition”
define dimension as
in cube
Nguyễn Hoàng Ân 15
Định nghĩa lược đồ hình sao trong
DMQL
define cube sales_star [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year)
define dimension item as (item_key, item_name, brand,
type, supplier_type)
define dimension branch as (branch_key,
branch_name, branch_type)
define dimension location as (location_key, street, city,
province_or_state, country)
Nguyễn Hoàng Ân 16
Định nghĩa lược đồ bông tuyết trong
DMQL
define cube sales_snowflake [time, item, branch,
location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year)
define dimension item as (item_key, item_name, brand,
type, supplier(supplier_key, supplier_type))
define dimension branch as (branch_key,
branch_name, branch_type)
define dimension location as (location_key, street,
city(city_key, province_or_state, country))
Nguyễn Hoàng Ân 17
Định nghĩa lược đồ chòm sao sự kiện trong
DMQL
define cube sales [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type)
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key, street, city, province_or_state,
country)
define cube shipping [time, item, shipper, from_location, to_location]:
dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)
define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper_key, shipper_name, location as location
in cube sales, shipper_type)
define dimension from_location as location in cube sales
define dimension to_location as location in cube sales
Nguyễn Hoàng Ân 18
define cube sales [time, item,
branch, location]:
dollars_sold =
sum(sales_in_dollars),
avg_sales =
avg(sales_in_dollars),
units_sold = count(*)
Nguyễn Hoàng Ân 19
Các loại giá trị đo
Phân phối (distributive):
Ví dụ: count(), sum(), min(), max().
Đại số (algebraic):
Ví dụ: avg(), min_N(), standard_deviation().
Tổng thể (holistic):
Ví dụ: median(), mode(), rank().
Nguyễn Hoàng Ân 20
Data Warehouse and Business Intelligence 21
Sự phân cấp mức ý niệm: Chiều (location)
all
Europe North_America
MexicoCanadaSpainGermany
Vancouver
M. WindL. Chan
...
......
... ...
...
all
region
office
country
TorontoFrankfurtcity
Dữ liệu đa chiều
Sales volume as a function of product, month,
and region
P
ro
d
u
c
t
Month
Dimensions: Product, Location, Time
Hierarchical summarization paths
Defined by concept hierarchies
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
Nguyễn Hoàng Ân 22
Dẫn xuất
Nguyễn Hoàng Ân 23
Một khối dữ liệu mẫu
Total annual sales
of TV in U.S.A.
Date
C
o
u
n
tr
ysum
sum
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
U.S.A
Canada
Mexico
sum
Các Cuboids tương ứng đến Cube
all
product date country
product,date product,country date, country
product, date, country
0-D(apex) cuboid
1-D cuboids
2-D cuboids
3-D(base) cuboid
Nguyễn Hoàng Ân 25
Các tác vụ OLAP điển hình
Roll up (drill-up)
Drill down (roll down)
Slice và dice
Pivot (rotate)
Các tác vụ khác:
drill across
drill through
Nguyễn Hoàng Ân 26
Data Warehouse and Business Intelligence 27
Slicing
Nguyễn Hoàng Ân 28
Drill-down
Nguyễn Hoàng Ân 29
visualization
Nguyễn Hoàng Ân 30
Data Warehouse and Business Intelligence 31
Mô hình truy vấn mạng hình sao (Star-Net)
Shipping Method
AIR-EXPRESS
TRUCK
ORDER
Customer Orders
CONTRACTS
Customer
Product
PRODUCT GROUP
PRODUCT LINE
PRODUCT ITEM
SALES PERSON
DISTRICT
DIVISION
OrganizationPromotion
CITY
COUNTRY
REGION
Location
DAILYQTRLYANNUALY
Time
Each circle is
called a footprint