1. Giới thiệu về kho dữ liệu
2. Các đặc tính của kho dữ liệu
3. Các kiến trúc kho dữ liệu
4. Các mô hình kho dữ liệu
5. Giới thiệu về kinh doanh thông minh
6. Kiến trúc của kinh doanh thông minh
7. Vai trò của kinh doanh thông minh trong việc ra quyết
định
22 trang |
Chia sẻ: lylyngoc | Lượt xem: 2445 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Chương 1: Tổng quan về kho dữ liệu và kinh doanh thông minh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
2/11/2014
1
Data Warehouse and Business Intelligence 1
Chương 1:
Tổng quan về kho dữ liệu và kinh
doanh thông minh
Data Warehouse and Business Intelligence 2
Nội dung
1. Giới thiệu về kho dữ liệu
2. Các đặc tính của kho dữ liệu
3. Các kiến trúc kho dữ liệu
4. Các mô hình kho dữ liệu
5. Giới thiệu về kinh doanh thông minh
6. Kiến trúc của kinh doanh thông minh
7. Vai trò của kinh doanh thông minh trong việc ra quyết
định
Data Warehouse and Business Intelligence 3
1. Giới thiệu về kho dữ liệu
Có nhiều các định nghĩa khác nhau về KDL, nhưng
không có cách nào là nghiêm ngặt:
Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách biệt
từ cơ sở dữ liệu hoạt động của tổ chức
Hỗ trợ xử lí thông tin bằng cách cung cấp một nền tảng
vững chắc cho việc hợp nhất và dữ liệu lịch sử để phân tích
Theo W. H. Inmon: “Kho dữ liệu là tập dữ liệu hướng
chủ đề, tích hợp, gắn với thời gian và ít thay đổi để
hỗ trợ quá trình ra quyết định của nhà quản lí”
2/11/2014
2
Data Warehouse and Business Intelligence 4
Kiến trúc cơ bản của kho dữ liệu
Oracle9 i. Data Warehousing Guide, Release 2 (9.2)
Data Warehouse and Business Intelligence 5
2. Các đặc tính của KDL
Hướng chủ đề (Subject-Oriented)
Có tính tích hợp (Integrated)
Gắn với thời gian (Time Variant)
Ít thay đổi (Non-Volatile)
Data Warehouse and Business Intelligence 6
2. Các đặc tính của KDL (tt)
Hướng chủ đề
2/11/2014
3
Data Warehouse and Business Intelligence 7
2. Các đặc tính của kho dữ liệu
Tích hợp
Data Warehouse and Business Intelligence 8
Tích hợp
Data Warehouse and Business Intelligence 10
2. Các đặc tính của kho dữ liệu
Gắn với thời gian
• Thời gian 60–90 ngày
• Cập nhật bản ghi
• Cấu trúc khóa có thể có hoặc
không chứa khóa thời gian
• Thời gian 5-10 năm
• Những hình ảnh phức tạp của
dữ liệu
• Cấu trúc khóa chứa phần tử
thời gian
2/11/2014
4
Data Warehouse and Business Intelligence 11
2. Các đặc tính của kho dữ liệu (tt)
Ít thay đổi
Data Warehouse and Business Intelligence 12
OLTP vs. OLAP
OLTP (on-line transaction processing): Xử lí giao dịch
trực tuyến
Nhiệm vụ chính của Hệ quản lí cơ sở dữ liệu quan hệ (relational
DBMS) truyền thống.
Dùng cho các tác nghiệp hằng ngày (Day-to-day operations):
mua sắm, quản lí tồn kho, ngân hàng, quản lí lương, đăng ký, kế
toán,…
OLAP (on-line analytical processing): Quá trình phân tích
trực tuyến
Nhiệm vụ chính của hệ thống kho dữ liệu
Phân tích dữ liệu và làm quyết định (decision making)
Data Warehouse and Business Intelligence
OLTP vs OLAP
OLTP OLAP
Người dùng Thư lý, chuyên viên
CNTT
Chuyên viên tri thức
Chức năng Tác nghiệp hàng ngày Hỗ trợ quyết định
Thiết kế CSDL Hướng ứng dụng Hướng chủ đề
Dữ liệu Hiện thời, cập nhật
chi tiết, quan hệ phẳng
biệt lập
Lịch sử, tóm tắt, tích hợp đa
chiều, hợp nhất
Sử dụng Lặp Dò tìm (ad-hoc)
Truy cập Đọc/ghi
Chỉ mục/băm theo khóa
chính
Nhiều duyệt
Đơn vị thao tác Giao dịch ngắn,đơn giản Câu hỏi phức tạp
# bản ghi truy cập Chục Triệu
#người dùng Nghìn Trăm
Kích thước CSDL 100MB-GB 100GB-TB
Đơn vị đo Thông lượng giao dịch Thông lượng truy vấn, đáp ứng
2/11/2014
5
Data Warehouse and Business Intelligence 14
Data mart
Hệ thống tập tất cả dữ liệu được yêu cầu bởi một phòng
ban chuyên biệt trong công ty (như tiếp thị, hậu cần,…)
Được sử dụng để phân tích BI
Một kho dữ liệu mức phòng ban (departmental data
warehouse)
Data warehouses và data marts có khung công nghệ giống
nhau
14
Data Warehouse and Business Intelligence 15
Công cụ ETL
ETL: Rút trích (Extraction), Chuyển đổi
(Transformation), tải (Loading)
Rút trích:
Rút trích từ những nguồn sẵn có bên trong hoặc ngoài
Những phiên bản phụ thuộc thời gian của dữ liệu
Chọn lựa dữ liệu: Dựa trên thiết kế DW
Chuyển đổi:
Chuyển đổi dữ liệu từ các hệ thống cũ, các định dạng khác
thành định dạng của KDL
Tải:
Sắp xếp, tóm tắt, hợp nhất, tính toán, kiểm tra toàn vẹn, xây
dựng chỉ mục và phân hoạch
Data Warehouse and Business Intelligence 16
3. Các kiến trúc kho dữ liệu
3.1.Kiến trúc 2 lớp khái quát (Generic Two-Level
Architecture)
3.2.Data Mart độc lập (Independent Data Mart)
3.3.Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động
(Dependent Data Mart and Operational Data Store)
3.4.Data Mart luận lý và KDL tích cực (Logical Data Mart
and @ctive Warehouse)
3.5.Kiến trúc dữ liệu 3 lớp (Three-Layer data architecture)
2/11/2014
6
Data Warehouse and Business Intelligence 17
3.1.Kiến trúc 2 lớp khái quát
E
T
L
One,
company-
wide
warehouse
Periodic extraction data is not completely current in warehouse
Data Warehouse and Business Intelligence 18
3.2.Data Mart độc lập
18
E
T
L
Separate ETL for each
independent data mart
Data access complexity
due to multiple data
marts
Data Warehouse and Business Intelligence 19
3.2.Data Mart độc lập (tt)
Data mart độc lập: data mart chứa dữ liệu được rút
trích từ môi trường hoạt động mà không có ảnh
hưởng của KDL
Hạn chế của Data mart độc lập:
Mỗi data mart cần một ETL riêng
Các data mart không tương thích nhau
Không thể drill-down
Tốn nhiều chi phí khi có ứng dụng mới
Tốn chi phí để làm data mart tương thích nhau
2/11/2014
7
Data Warehouse and Business Intelligence 20
3.3.Data Mart phụ thuộc và kho lưu trữ dữ
liệu hoạt động
E
T
L
Single ETL for enterprise data
warehouse (EDW)
Simpler data access
Dependent data marts
loaded from EDW
corporate information factory (CIF)
Data Warehouse and Business Intelligence 21
3.3.Data Mart phụ thuộc và kho lưu trữ dữ
liệu hoạt động (tt)
Data mart phụ thuộc: Data mart được nạp dữ liệu dành
riêng từ KDL doanh nghiệp và điều hòa dữ liệu
Kho lưu trữ dữ liệu hoạt động (Operational data store
- ODS): Một cơ sở dữ liệu có tính tích hợp, hướng chủ
đề, có thể cập nhật, giá trị hiện tại, rộng khắp tổ chức, chi
tiết được thiết kế để dành cho người dùng tác nghiệp như
họ làm quá trình hỗ trợ quyết định
Kho dữ liệu doanh nghiệp (Enterprise data warehouse
(EDW)
Data Warehouse and Business Intelligence 22
3.4. Data Mart luận lý và KDL tích cực
E
T
L
Near real-time ETL for
@active Data Warehouse
Data marts are NOT separate
databases, but logical views of the
data warehouse
Easier to create new data marts
2/11/2014
8
Data Warehouse and Business Intelligence 23
3.4. Data Mart luận lý và KDL tích cực (tt)
Logical data mart = relational view
Base tables: customer, product, order, orderline
Create views:
CREATE VIEW invoice AS
SELECT customer.customer_ID, customer_addr, order.order_ID,
product.product_ID, product.price, order.quantity,
product.price*order.quantity
FROM customer, order, orderline, product
WHERE customer.customer_ID= order.customer_ID,
AND order.order_ID= orderline.order_ID, product.product_ID =
orderline.product_ID
Data Warehouse and Business Intelligence 24
3.4. Data Mart luận lý và KDL tích cực (tt)
KDL tích cực:
Một kho dữ liệu mức tổ chức chứa dữ liệu gần thời gian
thực (near-real-time) của dữ liệu giao dịch từ những hệ
thống bản ghi, phân tích KDL, tiếp nối gần thời gian thực
từ qui trình nghiệp vụ đến KDL và những hệ thống bản ghi
để có những hành động trung gian có thể hồi đáp lại các sự
kiện kinh doanh
Ứng dụng: Dò tìm lỗi
Data Warehouse and Business Intelligence 25
3.5 Kiến trúc dữ liệu 3 lớp
25
2/11/2014
9
Data Warehouse and Business Intelligence 26
3.5 Kiến trúc dữ liệu 3 lớp (tt)
Dữ liệu điều hòa (Reconciled data): dữ liệu có tính chi
tiết, là dữ liệu hiện tại được dự định như nguồn đơn nhất,
chính thức cho tất cả ứng dụng hỗ trợ quyết định
Dữ liệu chuyển giao (Derived data): Dữ liệu được chọn
lựa, định dạng và tổng hợp cho ứng dụng hỗ trợ quyết
định cho người dùng cuối
Siêu dữ liệu (Metadata): dữ liệu kỹ thuật và kinh doanh
để mô tả thuộc tính hoặc tính chất của dữ liệu khác
Data Warehouse and Business Intelligence 27
4. Mô hình kho dữ liệu
4.1 Từ bảng dữ liệu đến khối dữ liệu
4.2 Mô hình luận lý của KDL
4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL)
Data Warehouse and Business Intelligence 28
4.1 Từ bảng dữ liệu đến khối dữ liệu
KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ liệu dưới
hình thức của một khối dữ liệu
Một khối dữ liệu như bán hàng, cho phép dữ liệu được
mô hình và được nhìn trong nhiều chiều
Các bảng chiều (Dimension Tables) như item (item_name,
brand, type), hoặc time(day, week, month, quarter, year)
Bảng sự kiện (Fact Table) chứa các độ đo (Measure) (như
dollars_sold) và các khóa có liên kết đến mỗi bảng chiều
Một khối dữ liệu dựa trên n-D được gọi là một cuboid cơ
sở.
2/11/2014
10
Data Warehouse and Business Intelligence 29
Cube: Một lưới các Cuboids
all
time item location supplier
time,item time,location
time,supplier
item,location
item,supplier
location,supplier
time,item,location
time,item,supplier
time,location,supplier
item,location,supplier
time, item, location, supplier
0-D(apex) cuboid
1-D cuboids
2-D cuboids
3-D cuboids
4-D(base) cuboid
Data Warehouse and Business Intelligence 30
4.2 Mô hình ý niệm của KDL
Mô hình kho dữ liệu:
Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa
kết nối đến một tập bảng chiều
Lược đồ hình bông tuyết (Snowflake schema): Tinh chế
của lược đồ hình sao, trong đó một vài chiều có sự phân
cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn,
có hình ảnh giống như bông tuyết
Chòm sao sự kiện (Fact constellations): Nhiều bảng sự
kiện chia sẻ các bảng chiều. Còn được gọi là lược đồ thiên
hà (galaxy schema)
Data Warehouse and Business Intelligence 31
Ví dụ của lược đồ hình sao
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
province_or_street
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
2/11/2014
11
Data Warehouse and Business Intelligence 32
Ví dụ của lược đồ hình bông tuyết
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city_key
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_key
item
branch_key
branch_name
branch_type
branch
supplier_key
supplier_type
supplier
city_key
city
province_or_street
country
city
Data Warehouse and Business Intelligence 33
Ví dụ của chòm sao sự kiện
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
province_or_street
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
Shipping Fact Table
time_key
item_key
shipper_key
from_location
to_location
dollars_cost
units_shipped
shipper_key
shipper_name
location_key
shipper_type
shipper
Data Warehouse and Business Intelligence 34
4.3 Ngôn ngữ truy vấn khai phá dữ liệu: DMQL
Data Mining Query Language: DMQL
Định nghĩa khối (Bảng sự kiện)
define cube []:
Định nghĩa chiều (Bảng chiều)
define dimension as
()
Special Case (Bảng chiều chia sẻ)
First time as “cube definition”
define dimension as
in cube
2/11/2014
12
Data Warehouse and Business Intelligence 35
Định nghĩa lược đồ hình sao trong DMQL
define cube sales_star [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year)
define dimension item as (item_key, item_name, brand,
type, supplier_type)
define dimension branch as (branch_key, branch_name,
branch_type)
define dimension location as (location_key, street, city,
province_or_state, country)
Data Warehouse and Business Intelligence 36
Định nghĩa lược đồ bông tuyết trong DMQL
define cube sales_snowflake [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year)
define dimension item as (item_key, item_name, brand,
type, supplier(supplier_key, supplier_type))
define dimension branch as (branch_key, branch_name,
branch_type)
define dimension location as (location_key, street,
city(city_key, province_or_state, country))
Data Warehouse and Business Intelligence 37
Định nghĩa lược đồ chòm sao sự kiện trong DMQL
define cube sales [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars),
units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type)
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key, street, city, province_or_state, country)
define cube shipping [time, item, shipper, from_location, to_location]:
dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)
define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper_key, shipper_name, location as location in
cube sales, shipper_type)
define dimension from_location as location in cube sales
define dimension to_location as location in cube sales
2/11/2014
13
Data Warehouse and Business Intelligence 38
Các loại giá trị đo
Phân phối (distributive):
Ví dụ: count(), sum(), min(), max().
Đại số (algebraic):
Ví dụ: avg(), min_N(), standard_deviation().
Tổng thể (holistic):
Ví dụ: median(), mode(), rank().
Data Warehouse and Business Intelligence 39
Sự phân cấp mức ý niệm: Chiều (location)
all
Europe North_America
Mexico Canada Spain Germany
Vancouver
M. Wind L. Chan
...
... ...
... ...
...
all
region
office
country
Toronto Frankfurt city
Data Warehouse and Business Intelligence 40
Dữ liệu đa chiều
Sales volume as a function of product, month, and region
P
ro
d
u
c
t
Month
Dimensions: Product, Location, Time
Hierarchical summarization paths
Defined by concept hierarchies
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
2/11/2014
14
Data Warehouse and Business Intelligence 41
Một khối dữ liệu mẫu
Total annual sales
of TV in U.S.A.
Date
C
o
u
n
tr
y
sum
sum
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
U.S.A
Canada
Mexico
sum
Data Warehouse and Business Intelligence 42
Các Cuboids tương ứng đến Cube
all
product date country
product,date product,country date, country
product, date, country
0-D(apex) cuboid
1-D cuboids
2-D cuboids
3-D(base) cuboid
Data Warehouse and Business Intelligence 43
Các tác vụ OLAP điển hình
Roll up (drill-up)
Drill down (roll down)
Slice và dice
Pivot (rotate)
Các tác vụ khác:
drill across
drill through
2/11/2014
15
Data Warehouse and Business Intelligence 44
Slicing
Data Warehouse and Business Intelligence 45
Drill-down
Data Warehouse and Business Intelligence 46
visualization
2/11/2014
16
Data Warehouse and Business Intelligence 47
Mô hình truy vấn mạng hình sao (Star-Net)
Shipping Method
AIR-EXPRESS
TRUCK
ORDER
Customer Orders
CONTRACTS
Customer
Product
PRODUCT GROUP
PRODUCT LINE
PRODUCT ITEM
SALES PERSON
DISTRICT
DIVISION
Organization Promotion
CITY
COUNTRY
REGION
Location
DAILY QTRLY ANNUALY
Time
Each circle is
called a footprint
Data Warehouse and Business Intelligence 48
5. Giới thiệu về Kinh doanh thông minh
5.1 Kinh doanh thông minh (BI) là gì ?
5.2 Sự tiến hóa của các công nghệ BI
5.3 Việc ra quyết định
5.4 Hiệu quả của hệ thống BI
Data Warehouse and Business Intelligence 49
5.1 Kinh doanh thông minh (BI) là gì ?
“Một tập mô hình toán và phương pháp luận phân tích để
khai thác dữ liệu có sẵn nhằm tạo ra thông tin và tri thức
có ích cho những quá trình ra quyết định phức tạp”
2/11/2014
17
Data Warehouse and Business Intelligence 50
5.2 Sự tiến hóa của các công nghệ BI
Data Warehouse and Business Intelligence 51
5.3 Việc ra quyết định
Yêu cầu:
Hiệu quả (Effective)
Thõa mãn về thời gian (Timely)
Quyết định dựa trên:
Miền tri thức
Kinh nghiệm
Thông tin sẵn có
Trong thời đại ngày nay:
Môi trường thay đổi nhanh và thường xuyên
Có tính động và phức tạp
Những quan điểm nghiêm ngặt hơn được dựa trên các
phương pháp luận phân tích và mô hình toán học
Data Warehouse and Business Intelligence 52
Một số ví dụ
Ví dụ 1.1 – Mức độ trung thành của khách hàng trong
lĩnh vực di động
Mức độ trung thành thấp của khách hàng là do đâu ?
• …
• …
• …
Mục đích của chiến dịch tiếp thị: Chọn đúng khách hàng để
giảm ngân sách
Ví dụ 1.2: Hoạch định Logistic
Phát triển kế hoạch hậu cần trong trung hạn
2/11/2014
18
Data Warehouse and Business Intelligence 53
5.3 Hiệu quả của hệ thống kinh doanh thông minh
Data Warehouse and Business Intelligence 54
Dữ liệu, thông tin và tri thức
Dữ liệu
Thông tin
Tri thức
Data Warehouse and Business Intelligence 55
Quản lí tri thức
Cơ cấu có tính hình thức và hệ thống để thu thập, lữu trữ
và chia sẻ những hiểu biết của họ về tri thức
Tri thức là tài sản vô hình vô giá
Cung cấp sự hỗ trợ cho những công nhân tri thức
(knowledge workers) thông qua việc tích hợp các quá
trình ra quyết định và công nghệ thông tin
2/11/2014
19
Data Warehouse and Business Intelligence 56
Quản lí tri thức vs BI
Quản lí tri thức: tập trung vào nghiên cứu thông tin
thường không có cấu trúc, ẩn, được chứa đựng trong hầu
hết các tài liệu, các đối thoại và kinh nghiệm quá khứ
BI: dựa trên thông tin có cấu trúc, thường có tính định
lượng và được tổ chức trong cơ sở dữ liệu
Data Warehouse and Business Intelligence 57
Vai trò của các mô hình toán
BI: cung cấp thông tin và tri thức thông qua việc ứng
dụng các giải thuật và mô hình toán
BI: đẩy mạnh một cách tiếp cận mang tính khoa học và có
lý trí đối với việc quản lí
Data Warehouse and Business Intelligence 58
Phân tích BI điển hình
Xác định các mục tiêu và chỉ tiêu hiệu suất
Phát triển các mô hình toán để khai thác những quan hệ
giữa các biến, tham số kiểm soát hệ thống và các tham số
ước lượng
Đưa ra phân tích what-if để đánh giá hiệu quả thực thi
2/11/2014
20
Data Warehouse and Business Intelligence 59
6. Kiến trúc của BI
Kiến trúc BI điển hình
Data Warehouse and Business Intelligence 60
6. Kiến trúc BI (tt)
Data Warehouse and Business Intelligence 61
6. Kiến trúc BI (tt)
Các nguồn dữ liệu (Data sources)
Kho dữ liệu và data marts
Các phương pháp luận BI
Khám phá dữ liệu (Data exploration)
Khai phá dữ liệu Data mining
Tối ưu hóa
Các quyết định
2/11/2014
21
Data Warehouse and Business Intelligence 62
7. Vai trò của BI trong việc ra quyết định
BI trong tổ chức
Data Warehouse and Business Intelligence 63
Phát triển một hệ thống BI
Data Warehouse and Business Intelligence 64
Phát triển một hệ thống BI (tt)
2/11/2014
22
Data Warehouse and Business Intelligence 65
Các phương pháp luận dùng trong hệ thống BI