Chương 2 Cơ sở dữ liệu Web

+ Các khái niệm về web, csdl web + Thu thập và khai phá các loại dữ liệu + Các kiến trúc csdl trên web + Quan hệ giữa csdl web và xml.

pdf43 trang | Chia sẻ: lylyngoc | Lượt xem: 1672 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Chương 2 Cơ sở dữ liệu Web, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 2. Cơ sở dữ liệu web 2 - 1/43 CHƯƠNG 2 CƠ SỞ DỮ LIỆU WEB CƠ SỞ DỮ LIỆU WEB & XML Chương 2. Cơ sở dữ liệu web 2 - 2/43 2.1 Cở sở dữ liệu Web 2.2 Khai phá dữ liệu và Web 2.3 Kiến trúc cơ sở dữ liệu web 2.4 Mối quan hệ với XML Chương 2: Cơ sở dữ liệu web Chương 2. Cơ sở dữ liệu web 2 - 3/43  MỤC TIÊU - Trình bày được: + Các khái niệm về web, csdl web + Thu thập và khai phá các loại dữ liệu + Các kiến trúc csdl trên web + Quan hệ giữa csdl web và xml.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 4/43 2.1 Cở sở dữ liệu Web 2.1.1 Trình bày dữ liệu và mô hình dữ liệu - Cần có lược đồ trình bày dữ liệu thích hợp:  mô hình dữ liệu web được nghiên cứu năm 1996  sự phát triển xml (1998) đã hỗ trợ cho web  XML mở rộng cho nhiều ứng dụng khác. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 5/43 2.1 Cở sở dữ liệu Web 2.1.1 Trình bày dữ liệu và mô hình dữ liệu CƠ SỞ DỮ LIỆU WEB Mô hình dữ liệu cho Web.. W3C SGML, HTML, ODA Models Data Models for Database systems XML Specifications by W3C Models for web and other Extensions Chương 2. Cơ sở dữ liệu web 2 - 6/43 2.1 Cở sở dữ liệu Web 2.1.2 Chức năng quản lý cơ sở dữ liệu Cơ sở dữ liệu web là csdl cho các website trên internet. - quản lý cơ sở dữ liệu web bao gồm:  xử lý vấn tin  cập nhật dữ liệu  quản lý siêu dữ liệu  bảo mật và toàn vẹn dữ liệu CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 7/43 2.1 Cở sở dữ liệu Web 2.1.2 Chức năng quản lý cơ sở dữ liệu - xử lý vấn tin  là chức năng chính để lấy thông tin từ cơ sở dữ liệu web. - Cập nhật dữ liệu  làm thay đổi thông tin trong csdl  ai có quyền cập nhật  phân quyền cập nhật (read only, write,…) CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 8/43 2.1 Cở sở dữ liệu Web 2.1.2 Chức năng quản lý cơ sở dữ liệu - Quản lý siêu dữ liệu  mô tả các thông tin liên quan đến cơ sở dữ liệu (người dùng, điều khiển truy cập và các chính sách...)  môi trường động CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 9/43 2.1 Cở sở dữ liệu Web 2.1.2 Chức năng quản lý cơ sở dữ liệu - Quản lý lưu trữ  chỉ mục thích hợp  phương thức truy cập  tích hợp công nghệ quản lý csdl với lưu trữ khối CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 10/43 2.1 Cở sở dữ liệu Web 2.1.2 Chức năng quản lý cơ sở dữ liệu - An ninh và bảo mật  ai là người sở hữu dữ liệu, bản quyền dữ liệu gốc? Ai có quyền chỉnh sửa thông tin?  một cơ chế bảo vệ bản quyền và chống ăn cắp là cần thiết - Duy trì tính toàn vẹn  dữ liệu từ nhiều nguồn khác nhau  duy trì tính toàn vẹn, chất lượng dữ liệu là cần thiết.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 11/43 2.1 Cở sở dữ liệu Web 2.1.3 Cơ sở dữ liệu bán cấu trúc - Dữ liệu có cấu trúc là dữ liệu có một cấu trúc hoàn toàn xác định, mỗi phần tử có kiểu cụ thể như interger, string, real,... - Dữ liệu không có cấu trúc là dữ liệu không có một cấu trúc nhất định (dữ liệu đa phương tiện, văn bản, hình ảnh,…) - Dữ liệu bán cấu trúc là dữ liệu có cấu trúc không đầy đủ nhưng có cấu trúc từng phần (phân đoạn tiêu đề, tác giả) CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 12/43 2.1 Cở sở dữ liệu Web 2.1.3 Cơ sở dữ liệu bán cấu trúc - nghiên cứu phát triển mô hình để trình bày dữ liệu bán cấu trúc  mô hình đầu tiên dựa trên cơ sở đối tượng  mô hình đối tượng quan hệ  lược đồ trình bày phổ biến là XML  XML không phải là mô hình dữ liệu, nhưng thay vào đó là siêu mô hình để trình bày nhiều tài liệu khác nhau.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 13/43 2.2 Khai phá dữ liệu và Web - Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một khối lượng dữ liệu rất lớn và có tiềm năng mang lại lợi ích.  thông tin trên web ngày càng lớn  khai thác dữ liệu, chiết xuất mẫu và tìm kiếm thông tin cho người dùng là cần thiết.  khai phá dữ liệu còn gọi là phát hiện tri thức trong cơ sở dữ liệu CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 14/43 2.2 Khai phá dữ liệu và Web CƠ SỞ DỮ LIỆU WEB Web mining Mining Data Source on the web Mining Usage Patterns on the web Extract Patterns from Data Source Give advice to Users while browsing Khai phá dữ liệu web Chương 2. Cơ sở dữ liệu web 2 - 15/43 2.2 Khai phá dữ liệu và Web CƠ SỞ DỮ LIỆU WEB Giao diện đồ hoạ cho người dùng Đánh giá mẫu Máy khai mỏ dữ liệu Máy chủ cơ sở dữ liệu hay kho dữ liệu Cơ sở dữ liệu Làm sạch và tích hợp Lọc Cơ sở tri thức Kiến trúc hệ thống khai mỏ dữ liệu Kho dữ liệu Chương 2. Cơ sở dữ liệu web 2 - 16/43 2.2 Khai phá dữ liệu và Web - Cơ sở dữ liệu, kho dữ liệu:  lưu trữ thông tin.  các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện tại đây. - Máy chủ cơ sở dữ liệu hay kho dữ liệu: lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của người dùng - Cơ sở tri thức: miền tri thức được dùng để tìm kiếm hay đánh giá độ quan trọng của các mẫu kết quả. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 17/43 2.2 Khai phá dữ liệu và Web - Máy khai phá dữ liệu: một tập các module chức năng  đặc trưng hóa, phân lớp, phân cụm  phân tích sự tiến hóa và sự chệch hướng - Đánh giá mẫu :  duyệt tìm các mẫu đáng được quan tâm  có thể được tích hợp vào module khai phá CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 18/43 2.2 Khai phá dữ liệu và Web - Giao diện đồ hoạ cho người dùng:  người dùng giao tiếp với hệ thống  đặc tả yêu cầu khai phá, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện khai phá  xem các lược đồ cơ sở dữ liệu, kho dữ liệu, đánh giá mẫu và hiển thị các mẫu trong các khuôn dạng khác nhau. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 19/43 2.2 Khai phá dữ liệu và Web - Quá trình khai phá tri thức gồm các bước sau:  Làm sạch dữ liệu  Tích hợp dữ liệu  Lựa chọn dữ liệu  Chuyển đổi dữ liệu  Khai phá dữ liệu  Đánh giá mẫu  Biểu diễn tri thức.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 20/43 2.2 Khai phá dữ liệu và Web 2.2.1 Khai phá dữ liệu trên web  thông tin trên web rất nhiều  làm thế nào để chuyển dữ liệu thành thông tin và sau đó là tri thức để người dùng lấy đúng những thông tin họ muốn.  tích hợp công cụ khai thác dữ liệu vào trong dữ liệu web. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 21/43 2.2 Khai phá dữ liệu và Web 2.2.1 Khai phá dữ liệu trên web dữ liệu web có thể là:  không có cấu trúc, bán cấu trúc, hình ảnh, âm thanh, video…  phát triển công cụ để khai thác dữ liệu đa phương tiện, sau đó là trên web.  kho dữ liệu (Data Warehousing) có thể cần thiết CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 22/43 2.2 Khai phá dữ liệu và Web 2.2.1 Khai phá dữ liệu trên web CƠ SỞ DỮ LIỆU WEB Khai mỏ dữ liệu đa phương tiện Web Miner Intergration through the web with tools like XML Video Data Text DataMultimedia Data Chương 2. Cơ sở dữ liệu web 2 - 23/43 2.2 Khai phá dữ liệu và Web 2.2.1 Khai phá dữ liệu trên web Nhiều chuẩn truy cập và quản lý dữ liệu web được phát triển bao gồm nhiều mô hình, ngôn ngữ đặc tả và kiến trúc:  International Standards Organization - ISO  W3C (XML – DTD)  Object Management Group - OMG chúng ta mong đợi có ngôn ngữ khai thác dữ liệu để phát triển web.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 24/43 2.2 Khai phá dữ liệu và Web 2.2.2 Khai phá dữ liệu sử dụng mẫu Dựa trên các mẫu, xu hướng, và các dự đoán, hệ thống sẽ phân tích, dự đoán và đưa ra các kết quả mà người dùng mong muốn Ví dụ  chúng ta sử dụng hệ thống lọc email.  công cụ khai phá dữ liệu dùng để hiển thị chỉ những trang web mà người dùng mong muốn. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 25/43 2.2 Khai phá dữ liệu và Web 2.2.2 Khai phá dữ liệu sử dụng mẫu CƠ SỞ DỮ LIỆU WEB Phân tích mẫu và dự đoán.. Web information Management Analyze Usage Pattern Guidance to User Chương 2. Cơ sở dữ liệu web 2 - 26/43 2.2 Khai phá dữ liệu và Web 2.2.3 Ứng dụng và xu hướng  thương mại điện tử  giải trí trên mạng  tìm kiếm thông tin CƠ SỞ DỮ LIỆU WEB Ứng dụng Mining trong thương mại điện tử.. E- Commerce Site Strategy to Improve website Mine Public and Private Databases Mine Usage Patterns Ứng dụng Mining trong tìm kiếm Web search Engine Web Miner/ InterfacesTích hợp mạnh/yếu Chương 2. Cơ sở dữ liệu web 2 - 27/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.1. Kiến trúc máy chủ - tệp (File - Server) các xử lý tập trung vào một máy tính trung tâm  Máy chủ (File-Server) lưu giữ các tập tin dữ liệu  Các ứng dụng và các hệ quản trị CSDL chạy trên mỗi trạm làm việc (workstation) yêu cầu các tập tin dữ liệu  Máy chủ hoạt động như một đĩa cứng chứa dữ liệu có thể chia sẻ CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 28/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.1. Kiến trúc máy chủ - tệp (File - Server) CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 29/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.1. Kiến trúc máy chủ - tệp (File - Server) Kiến trúc này có những nhược điểm sau đây:  Lượng dữ liệu truyền qua lại trên mạng rất nhiều.  Mỗi trạm làm việc phải có một bản sao của hệ quản trị CSDL.  Việc giải quyết các vấn đề tương tranh, khôi phục dữ liệu và bảo đảm tính nhất quán của dữ liệu sẽ phức tạp hơn do có nhiều hệ quản trị CSDL truy cập vào cùng các tập tin dữ liệu.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 30/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.2. Kiến trúc máy khách - chủ (Client - Server) các bộ phận phần mềm tương tác với nhau tạo nên hệ thống:  tiến trình máy khách (client) yêu cầu cung cấp tài nguyên .  tiến trình máy chủ (server) cung cấp tài nguyên  hai tiến trình này chạy trên hai máy tính khác nhau CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 31/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.2. Kiến trúc máy khách - chủ (Client - Server) Quá trình hoạt động:  tiến trình máy khách nhận yêu cầu của người dùng, kiểm tra cú pháp và tạo ra các câu truy vấn (SQL hoặc ngôn ngữ CSDL)  gửi thông điệp đến máy chủ, chờ nhận trả lời và định dạng dữ liệu trả lại cho NSD đầu cuối  tiến trình máy chủ tiếp nhận và xử lý các yêu cầu về CSDL rồi trả kết quả về lại cho máy khách (kiểm tra quyền truy cập dữ liệu, truy vấn, đảm bảo tính toàn vẹn dữ liệu,...) CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 32/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.2. Kiến trúc máy khách - chủ (Client - Server) CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 33/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.2. Kiến trúc máy khách - chủ (Client - Server) Ưu điểm:  khả năng truy cập rộng rãi đến các CSDL  nâng cao khả năng thực hiện  chi phí cho phần cứng có thể được giảm  chi phí cho truyền thông được giảm  nâng cao tính nhất quán của dữ liệu CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 34/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.2. Kiến trúc máy khách - chủ (Client - Server) CƠ SỞ DỮ LIỆU WEB .. Chương 2. Cơ sở dữ liệu web 2 - 35/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.3 Truy cập cơ sở dữ liệu  gọi SQL vào trong chương trình  thông qua JDBC  phương thức truy cập cơ sở dữ liệu gateway Gateway mang kết quả của csdl và định dạng theo khuôn dạng của web server. Khi client yêu cầu đến server, dữ liệu từ csdl được thu thập thông qua gateway và trả về cho người dùng. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 36/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.3 Truy cập cơ sở dữ liệu CƠ SỞ DỮ LIỆU WEB Truy cập cơ sở dữ liệu qua gateway Web Client INTERNET Database DBMS Gateway Web Server Chương 2. Cơ sở dữ liệu web 2 - 37/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.3 Truy cập cơ sở dữ liệu  Sử dụng XML: Nếu tất cả tài liệu được biểu diễn trong tài liệu XML, thì có thể cả web server và client đều hiểu được. CƠ SỞ DỮ LIỆU WEB Truy cập cơ sở dữ liệu không qua gateway.. Web Client INTERNET Database DBMS Web ServerXML Chương 2. Cơ sở dữ liệu web 2 - 38/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.4 Mô hình giao tiếp là mô hình giao tiếp giữa client và server  server cung cấp dữ liệu  client yêu cầu dữ liệu  giao tiếp thông qua web CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 39/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.4 Mô hình giao tiếp Mô hình client yêu cầu dữ liệu  Tác tử web tìm kiếm dữ liệu trên các server thích hợp và lấy dữ liệu về cho client CƠ SỞ DỮ LIỆU WEB Mô hình Yêu cầu – hồi đáp Data Consumer Data Producer WEB Searches for Data Request Response Chương 2. Cơ sở dữ liệu web 2 - 40/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.4 Mô hình giao tiếp Mô hình đẩy (Push model)  client không yêu cầu dữ liệu. Server phát sinh dữ liệu và đẩy về cho client CƠ SỞ DỮ LIỆU WEB Mô hình đẩy Data Consumer Data Producer WEB Searches for Data Push Push Chương 2. Cơ sở dữ liệu web 2 - 41/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.4 Mô hình giao tiếp mô hình kéo (Pull model)  client kéo dữ liệu từ server CƠ SỞ DỮ LIỆU WEB Mô hình kéo.. Data Consumer Data Repository WEB Searches for Data Go and get the Data Pull Pull Data Producer Chương 2. Cơ sở dữ liệu web 2 - 42/43 2.3 Kiến trúc cơ sở dữ liệu web 2.3.5 Mối quan hệ với XML  các cấu trúc csdl quan hệ, đối tượng, …đều có thể được chuyển vào trong tài liệu XML  những tài liệu XML có thể khai phá hiệu quả  XML rất phù hợp với việc di chuyển dữ liệu và thao tác giữa các phần.. CƠ SỞ DỮ LIỆU WEB Chương 2. Cơ sở dữ liệu web 2 - 43/43 HỌC GÌ – NHỚ GÌ? CƠ SỞ DỮ LIỆU WEB
Tài liệu liên quan