Đề tài Ứng dụng web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được đưa ra bởi Tim Berners-Leevào khoảng năm 1998. Mục tiêu ban đầu của Semantic Web là để hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ nghĩa là sự mở rộng của WWWhiện tại bằng cách thêm vào các mô tả ý nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà chương trình mà máy tính có thể hiểu được và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết luận và trích xuất ra thông tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework). Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng thông tin và các thư viện số. Các thư viện số ngoài chức năng lưu trữ các tài liệu số, còn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thông tin nào trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu diễn này sẽ thuận lợi cho việc quản lívà người dùng dễ dàng tìm kiếm ra các tài liệu gốc. Ngoài ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài nguyên với nhau dựa trên một chuẩn đặc tả chung.

68 trang | Chia sẻ: nhungnt | Lượt xem: 2917 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Đề tài Ứng dụng web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ    Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ    Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn khoa học: PGS. TS Đỗ Trung Tuấn HÀ NỘI - 2011 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn: “ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ” là kết quả nghiên cứu của riêng tôi, không sao chép của riêng ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn. Hà nội, ngày 02 tháng 05 năm 2011 Tác giả luận văn Lương Đỗ Long ii LỜI CẢM ƠN Trước tiên tôi xin chân thành cảm ơn PGS.TS Đỗ Trung Tuấn, người thầy đã hướng dẫn tận tình, chỉ bảo thẳng thắn và đã động viên tôi rất nhiều để tôi hoàn thành bản luận văn này. Tôi xin chân thành cảm ơn các thầy, cô giáo của Trường Đại học Công nghệ đặc biệt là các thầy, cô giáo trong bộ môn Hê thống Thông tin đã giảng dạy, động viên và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn. Sau cùng, tôi xin đuợc gửi lời cám đến các bạn đồng nghiệp, các bạn học viên cao học khóa 15 - những người đã động viên, giúp đỡ tôi trong suốt quá trình học tập và thực hiện luận văn này. Hà nội, Mùa hè năm 2011 Tác giả luận văn Lương Đỗ Long iii MỤC LỤC Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .................................................1 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu.....................................................1 1.1.1. Khái niệm................................................................................................1 1.1.2. Siêu dữ liệu .............................................................................................2 1.2. Kiến trúc Web ngữ nghĩa ...............................................................................3 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận........................................8 1.3.1 Ngôn ngữ mô tả tài nguyên RDF ..............................................................8 1.3.2 Bản thể luận ...........................................................................................15 1.3.3 Lược đồ RDF và truy vấn RDF...............................................................16 Kết luận..............................................................................................................23 Chương 2. TIẾP CẬN WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ TÀI LIỆU SỐ................................................................................................................24 2.1 Web ngữ nghĩa và thư viện số.......................................................................24 2.1.1 Thư viện số ngữ nghĩa ............................................................................24 2.1.2. Tổ chức tri thức trong thư viện ..............................................................26 2.1.3. Web ngữ nghĩa trong thư viện số ...........................................................26 2.2. Kiến trúc của thư viện số ngữ nghĩa.............................................................30 2.3. Bản thể luận cho thư viện số ngữ nghĩa .......................................................31 2.3.1. Bản thể luận biểu ghi thư mục ...............................................................31 2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................33 2.3.3. Cơ bản về sự phân loại ..........................................................................34 2.3.4. Xây dựng Bản thể luận ..........................................................................36 2.4. Thư viện số ngữ nghĩa và mạng xã hội.........................................................37 2.5. Tìm kiếm trong thư viện ngữ nghĩa..............................................................38 iv 2.5.1. Tìm kiếm dựa trên sự phân loại .............................................................38 2.5.2. Tìm kiếm ngữ nghĩa ..............................................................................38 Kết luận..............................................................................................................40 Chương 3. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL...........41 3.1 Giới thiệu phần mềm JeromeDL...................................................................41 3.2. Kiến trúc và Bản thể luận trong JeromeDL ..................................................42 3.2.1. Kiến trúc của JeromeDL ........................................................................42 3.2.2. Bản thể luận trong JeromeDL ................................................................44 3.3. Truy vấn trong JeromeDL............................................................................48 3.4. Sử dụng JeromeDL ......................................................................................51 Kết luận..............................................................................................................53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..............................................................54 TÀI LIỆU THAM KHẢO......................................................................................56 v Bảng kí hiệu thuật ngữ viết tắt Tên viết tắt Tiếng Việt Tiếng Anh WWW Mạng toàn cầu World Wide Web W3C Tổ chức Mạng toàn cầu World Wide Web Consortium RDF Cơ cấu mô tả tài nguyên Resource Description Framework RDFS Lược đồ Cơ cấu mô tả tài nguyên Resource Description Framework Scheme XML Ngôn ngữ đánh dấu mở rộng eXtensible Markup Language vi Danh mục hình ảnh Hình 1.1. Kiến trúc của Web ngữ nghĩa ..........................................................................................4 Hình 1.2. Đồ thị RDF...................................................................................................................11 Hình 1.3. Quan hệ kế thừa............................................................................................................17 Hình 1.4. Không gian miền và giới hạn của thuộc tính RDFS .......................................................20 Hình 2.1. Các thành phần hỗ trợ thư viện số ngữ nghĩa .................................................................26 Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF.....................................................................29 Hình 2.3. Kiến trúc thư viện số ngữ nghĩa ....................................................................................31 Hình 2.4. Bản thể luận BibTeX ....................................................................................................32 Hình 2.5. Một dạng cây phân cấp .................................................................................................35 Hình 2.6. Một Bản thể luận Cys ...................................................................................................35 Hình 2.7. Quá trình tìm kiếm trong thư viện số ngữ nghĩa ............................................................39 Hình 2.8. Quá trình chia sẻ dữ liệu RDF.......................................................................................40 Hình 3.1. Giao diện của JeromeDL ..............................................................................................42 Hình 3.2. Kiến trúc của JeromeDL ...............................................................................................43 Hình 3.3. Bản thể luận MarcOnt...................................................................................................44 Hình 3.4. Bản thể luận cấu trúc nội dung ......................................................................................46 Hình 3.5. Mạng xã hội trong JeromeDL .......................................................................................48 Hình 3.6. Các bước trong truy vấn JeromeDL...............................................................................49 Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ......................................................................52 Hình 3.8. Giao diện chức năng xuất bản tài liệu............................................................................53 vii Danh mục bảng biểu Bảng 1. Các lớp trong RDFS........................................................................................................18 Bảng 2. Các thuộc tính trong RDFS .............................................................................................19 Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt...................................................45 Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ......................................47 viii MỞ ĐẦU Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được đưa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic Web là để hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ nghĩa là sự mở rộng của WWW hiện tại bằng cách thêm vào các mô tả ý nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà chương trình mà máy tính có thể hiểu được và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết luận và trích xuất ra thông tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework). Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng thông tin và các thư viện số. Các thư viện số ngoài chức năng lưu trữ các tài liệu số, còn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thông tin nào trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu diễn này sẽ thuận lợi cho việc quản lí và người dùng dễ dàng tìm kiếm ra các tài liệu gốc. Ngoài ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài nguyên với nhau dựa trên một chuẩn đặc tả chung. Việc tích hợp ngữ nghĩa vào các ix thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu điểm hơn so với cách tiếp cận thông thường. Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số. Cấu trúc của luận văn gồm 3 chương: Chương 1: Tổng quan về Web ngữ nghĩa Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản làm nên web ngữ nghĩa. Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên cứu cách tích hợp ngữ nghĩa vào các tài nguyên trong thư viện số: cơ chế biên mục và phân loại dựa trên ngữ nghĩa Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư viện số ngữ nghĩa. 1 Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA Trong chương này, sẽ giới thiệu công nghệ cơ bản được sử dụng trong luận văn, bao gồm định nghĩa về web ngữ nghĩa, những nồ lực trong việc xây dựng web ngữ nghĩa từ web hiện tại, giới thiệu kiến trúc web ngữ nghĩa của tổ chức World WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận. 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu 1.1.1. Khái niệm Sau khi ra đời của Internet và World Wide Web (WWW), rất nhiều những nỗ lực đã được thực hiện và các công nghệ được phát triển nhằm mục đích làm cho World Wide Web tốt hơn, nhanh hơn, và thông minh hơn. Nhiều công nghệ, kiến nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong một thời gian ngắn. Một trong những nỗ lực này là web ngữ nghĩa. Web ngữ nghĩa có thể được xem là sự mở rộng của web hiện tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo, nhưng có thể xem là một dạng web thông minh. Web ngữ nghĩa là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dưới dạng mà chương trình máy tính có thể “hiểu” và do vậy cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngữ nghĩa chỉ là một công cụ để con người cũng như máy tính sử dụng để biểu diễn thông tin, hay nói chính xác hơn thì Web ngữ nghĩa chỉ là một dạng dữ liệu trên Web. Khác với các dạng thức dữ liệu được trình bày trong HTML, dữ liệu trong Semantic Web được đánh dấu, phân lớp, mô hình hóa, được bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm máy tính có thể hiểu được dữ liệu và tự động xử lý được những dữ liệu đó. Có thể kể ra đây những ưu điểm của web ngữ nghĩa so với web hiện tại:  Máy tính có thể hiểu được thông tin trên Web: Web ngữ nghĩa định nghĩa các khái niệm và bổ sung quan hệ dưới dạng máy tính có thể hiểu được. Do 2 đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể được tiến hành một cách tự động.  Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho kết quả nhanh, chính xác hơn.  Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức về các thực thể, máy tính có khả năng sinh ra những kết luận mới.  Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi còn được gọi là liên kết bằng siêu dữ liệu. Trong web ngữ nghĩa, với sự trợ giúp của các công nghệ khác, chúng ta có thể trợ giúp cho máy tính hiểu được các khái niệm, mối quan hệ giữa chúng, xử lí nhanh chóng, chính xác các truy vấn từ người dùng. 1.1.2. Siêu dữ liệu Một trong những nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu. Siêu dữ liệu dùng để mô tả tài nguyên thông tin, còn gọi là dữ liệu về dữ liệu. Mỗi thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ, một khóa luận tốt nghiện có [một tác giả], [tên khóa luận], [cán bộ hướng dẫn], ... là các siêu dữ liệu về khóa luận. Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ liệu bằng cách dùng các siêu dữ liệu. Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể được thể hiện ở một trong hai cách sau:  Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngoài đối tượng mô tả.  Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài nguyên mà nó mô tả. Trước đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tượng mô tả, như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngoài đối tương mô tả. 3 Với tài liệu số, siêu dữ liệu của chúng được nhúng (gắn) trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong trường hợp các thẻ meta của tài liệu HTML i. Sơ đồ siêu dữ liệu Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được xác định để mô tả tài nguyên thông tin cho đối tượng số hoặc không số. Thí dụ tập hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài nguyên thông tin. ii. Ngữ nghĩa Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì được gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp được quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố “Creator” – dùng để xác định là tác giả của tài liệu, hoặc yếu tố “Title” – được hiểu là nhan đề của tài liệu. iii. Nội dung Giá trị (dữ liệu) của từng yếu tố được gọi là nội dung. Đó chính là giá trị của mỗi yếu tố siêu dữ liệu. Nhờ các sơ đồ dữ liệu, các chương trình xử lý tự động sẽ nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào, chẳng hạn đoạn dữ liệu này được nhận biết là nhan đề, đoạn dữ liệu kia được nhận biết là tác giả của tài liệu. 1.2. Kiến trúc Web ngữ nghĩa Để có được những khả năng như đã đề cập ở phần trên, web ngữ nghĩa cần có một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dưới đây là kiến trúc tổng quát nhất của web ngữ nghĩa do tổ chức W3C đề xuất: 4 Hình 1.1. Kiến trúc của Web ngữ nghĩa i. Unicode và định danh tài nguyên thống nhất Tầng thấp nhất là tài nguyên (một đối tượng, một thực thể hay một khái niệm, v.v...), chúng được mô tả bằng các định danh tài nguyên thống nhất - Uniform Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi tài nguyên. Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy cập và vị trí của tài liệu trên mạng. Một tập con khác của URI là tên tài nguyên thống nhất : Uniform Resource Name (URN), cho phép xác định một tài nguyên mà không cần phải chứa địa chỉ và phương thức truy cập đến nó, ví dụ chỉ số ISBN là một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh [1]. Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngôn ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu. 5 ii. Biểu diễn XML Tầng tiếp theo là Ngôn ngữ đánh dẫu mở rộng: Extensible Markup Language (XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu được. XML là công nghệ chính và là chuẩn của web hiện tại và trong tương lai. Với XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text, chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự đ