Chương 2 Cơ sở dữ liệu Web
+ Các khái niệm về web, csdl web + Thu thập và khai phá các loại dữ liệu + Các kiến trúc csdl trên web + Quan hệ giữa csdl web và xml.
Bạn đang xem trước 20 trang tài liệu Chương 2 Cơ sở dữ liệu Web, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 2. Cơ sở dữ liệu web 2 - 1/43
CHƯƠNG 2
CƠ SỞ DỮ LIỆU WEB
CƠ SỞ DỮ LIỆU WEB & XML
Chương 2. Cơ sở dữ liệu web 2 - 2/43
2.1 Cở sở dữ liệu Web
2.2 Khai phá dữ liệu và Web
2.3 Kiến trúc cơ sở dữ liệu web
2.4 Mối quan hệ với XML
Chương 2: Cơ sở dữ liệu web
Chương 2. Cơ sở dữ liệu web 2 - 3/43
MỤC TIÊU
- Trình bày được:
+ Các khái niệm về web, csdl web
+ Thu thập và khai phá các loại dữ liệu
+ Các kiến trúc csdl trên web
+ Quan hệ giữa csdl web và xml..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 4/43
2.1 Cở sở dữ liệu Web
2.1.1 Trình bày dữ liệu và mô hình dữ liệu
- Cần có lược đồ trình bày dữ liệu thích hợp:
mô hình dữ liệu web được nghiên cứu năm 1996
sự phát triển xml (1998) đã hỗ trợ cho web
XML mở rộng cho nhiều ứng dụng khác.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 5/43
2.1 Cở sở dữ liệu Web
2.1.1 Trình bày dữ liệu và mô hình dữ liệu
CƠ SỞ DỮ LIỆU WEB
Mô hình dữ liệu cho Web..
W3C
SGML, HTML,
ODA Models
Data Models for
Database
systems
XML
Specifications by
W3C
Models for web
and other
Extensions
Chương 2. Cơ sở dữ liệu web 2 - 6/43
2.1 Cở sở dữ liệu Web
2.1.2 Chức năng quản lý cơ sở dữ liệu
Cơ sở dữ liệu web là csdl cho các website trên internet.
- quản lý cơ sở dữ liệu web bao gồm:
xử lý vấn tin
cập nhật dữ liệu
quản lý siêu dữ liệu
bảo mật và toàn vẹn dữ liệu
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 7/43
2.1 Cở sở dữ liệu Web
2.1.2 Chức năng quản lý cơ sở dữ liệu
- xử lý vấn tin
là chức năng chính để lấy thông tin từ cơ sở dữ liệu web.
- Cập nhật dữ liệu
làm thay đổi thông tin trong csdl
ai có quyền cập nhật
phân quyền cập nhật (read only, write,…)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 8/43
2.1 Cở sở dữ liệu Web
2.1.2 Chức năng quản lý cơ sở dữ liệu
- Quản lý siêu dữ liệu
mô tả các thông tin liên quan đến cơ sở dữ liệu (người
dùng, điều khiển truy cập và các chính sách...)
môi trường động
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 9/43
2.1 Cở sở dữ liệu Web
2.1.2 Chức năng quản lý cơ sở dữ liệu
- Quản lý lưu trữ
chỉ mục thích hợp
phương thức truy cập
tích hợp công nghệ quản lý csdl với lưu trữ khối
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 10/43
2.1 Cở sở dữ liệu Web
2.1.2 Chức năng quản lý cơ sở dữ liệu
- An ninh và bảo mật
ai là người sở hữu dữ liệu, bản quyền dữ liệu gốc? Ai có
quyền chỉnh sửa thông tin?
một cơ chế bảo vệ bản quyền và chống ăn cắp là cần thiết
- Duy trì tính toàn vẹn
dữ liệu từ nhiều nguồn khác nhau
duy trì tính toàn vẹn, chất lượng dữ liệu là cần thiết..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 11/43
2.1 Cở sở dữ liệu Web
2.1.3 Cơ sở dữ liệu bán cấu trúc
- Dữ liệu có cấu trúc là dữ liệu có một cấu trúc hoàn toàn xác
định, mỗi phần tử có kiểu cụ thể như interger, string, real,...
- Dữ liệu không có cấu trúc là dữ liệu không có một cấu trúc
nhất định (dữ liệu đa phương tiện, văn bản, hình ảnh,…)
- Dữ liệu bán cấu trúc là dữ liệu có cấu trúc không đầy đủ nhưng
có cấu trúc từng phần (phân đoạn tiêu đề, tác giả)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 12/43
2.1 Cở sở dữ liệu Web
2.1.3 Cơ sở dữ liệu bán cấu trúc
- nghiên cứu phát triển mô hình để trình bày dữ liệu bán cấu
trúc
mô hình đầu tiên dựa trên cơ sở đối tượng
mô hình đối tượng quan hệ
lược đồ trình bày phổ biến là XML
XML không phải là mô hình dữ liệu, nhưng thay vào đó là
siêu mô hình để trình bày nhiều tài liệu khác nhau..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 13/43
2.2 Khai phá dữ liệu và Web
- Khai phá dữ liệu là việc trích rút tri thức một cách tự động và
hiệu quả từ một khối lượng dữ liệu rất lớn và có tiềm năng mang
lại lợi ích.
thông tin trên web ngày càng lớn
khai thác dữ liệu, chiết xuất mẫu và tìm kiếm thông tin cho
người dùng là cần thiết.
khai phá dữ liệu còn gọi là phát hiện tri thức trong cơ sở dữ
liệu
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 14/43
2.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Web mining
Mining Data Source on
the web
Mining Usage Patterns
on the web
Extract Patterns from
Data Source
Give advice to Users
while browsing
Khai phá dữ liệu web
Chương 2. Cơ sở dữ liệu web 2 - 15/43
2.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Giao diện đồ hoạ cho người dùng
Đánh giá mẫu
Máy khai mỏ dữ liệu
Máy chủ cơ sở dữ liệu hay
kho dữ liệu
Cơ sở dữ liệu
Làm sạch và tích hợp Lọc
Cơ sở tri thức
Kiến trúc hệ thống khai mỏ dữ liệu
Kho dữ liệu
Chương 2. Cơ sở dữ liệu web 2 - 16/43
2.2 Khai phá dữ liệu và Web
- Cơ sở dữ liệu, kho dữ liệu:
lưu trữ thông tin.
các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể
được thực hiện tại đây.
- Máy chủ cơ sở dữ liệu hay kho dữ liệu: lấy dữ liệu thích hợp dựa
trên những yêu cầu khai phá của người dùng
- Cơ sở tri thức: miền tri thức được dùng để tìm kiếm hay đánh
giá độ quan trọng của các mẫu kết quả.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 17/43
2.2 Khai phá dữ liệu và Web
- Máy khai phá dữ liệu: một tập các module chức năng
đặc trưng hóa, phân lớp, phân cụm
phân tích sự tiến hóa và sự chệch hướng
- Đánh giá mẫu :
duyệt tìm các mẫu đáng được quan tâm
có thể được tích hợp vào module khai phá
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 18/43
2.2 Khai phá dữ liệu và Web
- Giao diện đồ hoạ cho người dùng:
người dùng giao tiếp với hệ thống
đặc tả yêu cầu khai phá, cung cấp thông tin trợ giúp cho
việc tìm kiếm và thực hiện khai phá
xem các lược đồ cơ sở dữ liệu, kho dữ liệu, đánh giá mẫu
và hiển thị các mẫu trong các khuôn dạng khác nhau.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 19/43
2.2 Khai phá dữ liệu và Web
- Quá trình khai phá tri thức gồm các bước sau:
Làm sạch dữ liệu
Tích hợp dữ liệu
Lựa chọn dữ liệu
Chuyển đổi dữ liệu
Khai phá dữ liệu
Đánh giá mẫu
Biểu diễn tri thức..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 20/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá dữ liệu trên web
thông tin trên web rất nhiều
làm thế nào để chuyển dữ liệu thành thông tin và sau đó là
tri thức để người dùng lấy đúng những thông tin họ muốn.
tích hợp công cụ khai thác dữ liệu vào trong dữ liệu web.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 21/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá dữ liệu trên web
dữ liệu web có thể là:
không có cấu trúc, bán cấu trúc, hình ảnh, âm thanh,
video…
phát triển công cụ để khai thác dữ liệu đa phương tiện, sau
đó là trên web.
kho dữ liệu (Data Warehousing) có thể cần thiết
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 22/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá dữ liệu trên web
CƠ SỞ DỮ LIỆU WEB
Khai mỏ dữ liệu đa phương tiện
Web Miner
Intergration through the web
with tools like XML
Video Data Text DataMultimedia Data
Chương 2. Cơ sở dữ liệu web 2 - 23/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá dữ liệu trên web
Nhiều chuẩn truy cập và quản lý dữ liệu web được phát triển bao
gồm nhiều mô hình, ngôn ngữ đặc tả và kiến trúc:
International Standards Organization - ISO
W3C (XML – DTD)
Object Management Group - OMG
chúng ta mong đợi có ngôn ngữ khai thác dữ liệu để phát
triển web..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 24/43
2.2 Khai phá dữ liệu và Web
2.2.2 Khai phá dữ liệu sử dụng mẫu
Dựa trên các mẫu, xu hướng, và các dự đoán, hệ thống sẽ phân
tích, dự đoán và đưa ra các kết quả mà người dùng mong muốn
Ví dụ
chúng ta sử dụng hệ thống lọc email.
công cụ khai phá dữ liệu dùng để hiển thị chỉ những trang
web mà người dùng mong muốn.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 25/43
2.2 Khai phá dữ liệu và Web
2.2.2 Khai phá dữ liệu sử dụng mẫu
CƠ SỞ DỮ LIỆU WEB
Phân tích mẫu và dự đoán..
Web information
Management
Analyze
Usage Pattern
Guidance
to User
Chương 2. Cơ sở dữ liệu web 2 - 26/43
2.2 Khai phá dữ liệu và Web
2.2.3 Ứng dụng và xu hướng
thương mại điện tử
giải trí trên mạng
tìm kiếm thông tin
CƠ SỞ DỮ LIỆU WEB
Ứng dụng Mining trong thương mại điện tử..
E-
Commerce
Site
Strategy to
Improve
website
Mine Public
and Private
Databases
Mine Usage
Patterns
Ứng dụng Mining trong tìm kiếm
Web search
Engine
Web Miner/
InterfacesTích hợp mạnh/yếu
Chương 2. Cơ sở dữ liệu web 2 - 27/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.1. Kiến trúc máy chủ - tệp (File - Server)
các xử lý tập trung vào một máy tính trung tâm
Máy chủ (File-Server) lưu giữ các tập tin dữ liệu
Các ứng dụng và các hệ quản trị CSDL chạy trên mỗi trạm
làm việc (workstation) yêu cầu các tập tin dữ liệu
Máy chủ hoạt động như một đĩa cứng chứa dữ liệu có thể
chia sẻ
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 28/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.1. Kiến trúc máy chủ - tệp (File - Server)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 29/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.1. Kiến trúc máy chủ - tệp (File - Server)
Kiến trúc này có những nhược điểm sau đây:
Lượng dữ liệu truyền qua lại trên mạng rất nhiều.
Mỗi trạm làm việc phải có một bản sao của hệ quản trị
CSDL.
Việc giải quyết các vấn đề tương tranh, khôi phục dữ liệu
và bảo đảm tính nhất quán của dữ liệu sẽ phức tạp hơn do
có nhiều hệ quản trị CSDL truy cập vào cùng các tập tin dữ
liệu..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 30/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.2. Kiến trúc máy khách - chủ (Client - Server)
các bộ phận phần mềm tương tác với nhau tạo nên hệ
thống:
tiến trình máy khách (client) yêu cầu cung cấp tài nguyên .
tiến trình máy chủ (server) cung cấp tài nguyên
hai tiến trình này chạy trên hai máy tính khác nhau
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 31/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.2. Kiến trúc máy khách - chủ (Client - Server)
Quá trình hoạt động:
tiến trình máy khách nhận yêu cầu của người dùng, kiểm
tra cú pháp và tạo ra các câu truy vấn (SQL hoặc ngôn ngữ
CSDL)
gửi thông điệp đến máy chủ, chờ nhận trả lời và định dạng
dữ liệu trả lại cho NSD đầu cuối
tiến trình máy chủ tiếp nhận và xử lý các yêu cầu về CSDL
rồi trả kết quả về lại cho máy khách (kiểm tra quyền truy cập
dữ liệu, truy vấn, đảm bảo tính toàn vẹn dữ liệu,...)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 32/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.2. Kiến trúc máy khách - chủ (Client - Server)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 33/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.2. Kiến trúc máy khách - chủ (Client - Server)
Ưu điểm:
khả năng truy cập rộng rãi đến các CSDL
nâng cao khả năng thực hiện
chi phí cho phần cứng có thể được giảm
chi phí cho truyền thông được giảm
nâng cao tính nhất quán của dữ liệu
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 34/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.2. Kiến trúc máy khách - chủ (Client - Server)
CƠ SỞ DỮ LIỆU WEB
..
Chương 2. Cơ sở dữ liệu web 2 - 35/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy cập cơ sở dữ liệu
gọi SQL vào trong chương trình
thông qua JDBC
phương thức truy cập cơ sở dữ liệu gateway
Gateway mang kết quả của csdl và định dạng theo khuôn dạng
của web server. Khi client yêu cầu đến server, dữ liệu từ csdl
được thu thập thông qua gateway và trả về cho người dùng.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 36/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy cập cơ sở dữ liệu
CƠ SỞ DỮ LIỆU WEB
Truy cập cơ sở dữ liệu qua gateway
Web Client
INTERNET
Database DBMS Gateway Web Server
Chương 2. Cơ sở dữ liệu web 2 - 37/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy cập cơ sở dữ liệu
Sử dụng XML: Nếu tất cả tài liệu được biểu diễn trong tài
liệu XML, thì có thể cả web server và client đều hiểu được.
CƠ SỞ DỮ LIỆU WEB
Truy cập cơ sở dữ liệu không qua gateway..
Web Client
INTERNET
Database DBMS Web ServerXML
Chương 2. Cơ sở dữ liệu web 2 - 38/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.4 Mô hình giao tiếp
là mô hình giao tiếp giữa client và server
server cung cấp dữ liệu
client yêu cầu dữ liệu
giao tiếp thông qua web
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 39/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.4 Mô hình giao tiếp
Mô hình client yêu cầu dữ liệu
Tác tử web tìm kiếm dữ liệu trên các server thích hợp và
lấy dữ liệu về cho client
CƠ SỞ DỮ LIỆU WEB
Mô hình Yêu cầu – hồi đáp
Data
Consumer
Data
Producer
WEB
Searches
for
Data
Request
Response
Chương 2. Cơ sở dữ liệu web 2 - 40/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.4 Mô hình giao tiếp
Mô hình đẩy (Push model)
client không yêu cầu dữ liệu. Server phát sinh dữ liệu và
đẩy về cho client
CƠ SỞ DỮ LIỆU WEB
Mô hình đẩy
Data
Consumer
Data
Producer
WEB
Searches
for
Data
Push
Push
Chương 2. Cơ sở dữ liệu web 2 - 41/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.4 Mô hình giao tiếp
mô hình kéo (Pull model)
client kéo dữ liệu từ server
CƠ SỞ DỮ LIỆU WEB
Mô hình kéo..
Data
Consumer
Data
Repository
WEB
Searches
for
Data
Go and get
the Data
Pull
Pull
Data
Producer
Chương 2. Cơ sở dữ liệu web 2 - 42/43
2.3 Kiến trúc cơ sở dữ liệu web
2.3.5 Mối quan hệ với XML
các cấu trúc csdl quan hệ, đối tượng, …đều có thể được
chuyển vào trong tài liệu XML
những tài liệu XML có thể khai phá hiệu quả
XML rất phù hợp với việc di chuyển dữ liệu và thao tác
giữa các phần..
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web 2 - 43/43
HỌC GÌ – NHỚ GÌ?
CƠ SỞ DỮ LIỆU WEB