Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng của việc
lưu trữ và tìm kiếm thông tin. Với sự phát triển của máy tính, việc máy tính có khả
năng lưu trữ thông tin với số lượng lớn và tìm kiếm thông tin có ích từ các tập hợp trở
nên cần thiết. Lĩnh vực truy tìm thông tin (Information Retrieval -IR) ra đời vào
những năm 1950 vì nhucầu thiết yếu này. Hơn 40 năm sau, lĩnh vực đó trưởng thành
đáng kể, nhiều hệthống IR được sử dụng phổ biếnvới sự đa dạngtrạng thái của người
sử dụng. Sự phát triểncủa lĩnhvựcnàytrong những năm 1970 đến những năm 1980
dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truy tìm tài liệu
khác nhau đượcphát triển và tiến bộ theomọi khía cạnh của quá trình truy tìm. Những
mô hình kỹ thuật mới được chứng minh qua thực nghiệm,có hiệu quả trong những tập
hợp văn bản nhỏ,có thể dùng cho các nhà nghiên cứu ở thời gian đó. Tuy nhiên, vì
không cóhiệu quảđối với những tập hợp văn bản lớn, câu hỏi có hay không những mô
hình và những kỹ thuật có thể đáp ứng được với thể lớn hơn vẫn chưa được trả lời. Sự
thay đổi lớnvào năm 1992, với sự khởi đầu bằng cuộc thảo luận về truy tìm văn bản,
sau đómột loạt thảo luận kiểm định đứng đầu bởi nhiều hãng khác nhau của Mỹ dưới
sự bảo hộ củaViện Tiêu chuẩnvàCông nghệquốcgia (NIST), nhằm vào việc khuyến
khích nghiên cứu về hệ thống IR với những tập hợp văn bản lớn.Những thuật toán IR
đã phát triển trong những năm từ năm 1996 đến năm 1998, là những kỹ thuật đầu tiên
được dùng cho việc tìm kiếm trên mạng toàn cầu.
60 trang |
Chia sẻ: nhungnt | Lượt xem: 2405 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Đề tài Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THU TRANG
KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
LUẬN VĂN THẠC SỸ
Hà Nội - 2010
3
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7
MỞ ĐẦU 8
CHƯƠNG 1- TỔNG QUAN 11
1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11
1.1.1 Giới thiệu 11
1.1.2 Mục tiêu chính 13
1.1.3 Mô hình dữ liệu đa phương tiện 13
1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14
1.2.1 Trích chọn đặc trưng 15
1.2.2 Chỉ số hóa cấu trúc 16
1.2.3 Đo tính tương tự 17
1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17
1.3.1 Khái quát 17
1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18
1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20
1.4 xếp hạng tài liệu (Ranking) [1] [8] 21
CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25
2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25
2.1.1 Truy vấn Boolean 25
2.1.2 Cấu trúc tệp 26
2.1.3 Các từ dừng và từ gốc 27
2.1.4 Chỉ số hoá và bổ sung 28
2.1.5 Kỹ thuật nén chỉ số (index compression) 29
2.1.6 Chỉ mục tự động 31
2.2 Thước đo hiệu năng [1] [5] [8] 33
2.3 Mô hình truy tìm không gian vectơ [1] [11] 36
2.4 Mô hình truy tìm theo xác suất [1] [6] 37
2.5 Mô hình truy tìm trên cơ sở cụm [1] [6] 38
2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39
2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40
2.7.1 Ý tưởng cơ bản của LSI 40
2.7.2 Một số khái niệm cơ bản 42
4
2.7.3 Kỹ thuật SVD (singular value decomposition) 43
CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54
3.1 Bài toán 54
3.2 Chức năng của chương trình 55
3.3 Hoạt động cơ bản trong chương trình 56
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 61
5
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ký hiệu viết tắt Tiếng Anh Tiếng Việt
CSDL DataBase Cơ sở dữ liệu
DBMS DataBase Manager System Hệ quản trị Cơ sở dữ liệu
IDF Inverse Document Frequency Tần số xuất hiện tài liệu
IR Information retrieval Truy tìm thông tin
LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn
MIRS Multimedia Information Retrieval
System
Hệ thống truy tìm thông tin đa
phương tiện
SVD Singular Value Decomposition Tách giá trị riêng
TF Term Frequency Tần số xuất hiện thuật ngữ
6
DANH MỤC CÁC BẢNG
Bảng 1.1 Ma trận tài liệu - thuật ngữ..............................................................................23
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF ....................................................24
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu..........................................24
Bảng 2.1 Kết quả recall và precision ..............................................................................35
Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu .............................................44
7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hinh 1.1 Mô hình dữ liệu đa phương tiện .......................................................................14
Hình 1.2 Hệ thống IR tiêu biểu .......................................................................................19
Hình 1.3 Tiến trình truy vấn tài liệu................................................................................21
Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động .....................................................29
Hình 2.2 Mô tả recall......................................................................................................33
Hình 2.3 Mô tả Precision ................................................................................................34
Hình 2.4 Đồ thị so sánh hiệu năng ..................................................................................35
Hình 2.5 Sử dụng các khái niệm cho truy vấn .................................................................41
Hình 2.6 Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu......................................45
Hình 2.7 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu ..........................46
Hình 2.8 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu .................47
Hình 2.9 Đồ thị Recall – Precision của thuật toán LSI....................................................53
Hình 3.1 Sơ đồ chức năng...............................................................................................55
Hình 3.2 Chức năng thêm tài liệu ...................................................................................56
Hình 3.3 Chức năng xóa tài liệu .....................................................................................56
Hình 3.4 Chức năng phân tích và tìm kiếm tại bước 1.....................................................57
Hình 3.5 Chức năng phân tích và tìm kiếm tại bước 2.....................................................57
Hình 3.6 Chức năng phân tích và tìm kiếm tại bước 3.....................................................58
Hình 3.7 Chức năng phân tích và tìm kiếm ở những bước cuối cùng...............................59
Hình 3.8 Đồ thị biểu diễn các vecto tài liệu và vecto truy vấn .........................................59
8
MỞ ĐẦU
Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng của việc
lưu trữ và tìm kiếm thông tin. Với sự phát triển của máy tính, việc máy tính có khả
năng lưu trữ thông tin với số lượng lớn và tìm kiếm thông tin có ích từ các tập hợp trở
nên cần thiết. Lĩnh vực truy tìm thông tin (Information Retrieval - IR) ra đời vào
những năm 1950 vì nhu cầu thiết yếu này. Hơn 40 năm sau, lĩnh vực đó trưởng thành
đáng kể, nhiều hệ thống IR được sử dụng phổ biến với sự đa dạng trạng thái của người
sử dụng. Sự phát triển của lĩnh vực này trong những năm 1970 đến những năm 1980
dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truy tìm tài liệu
khác nhau được phát triển và tiến bộ theo mọi khía cạnh của quá trình truy tìm. Những
mô hình kỹ thuật mới được chứng minh qua thực nghiệm, có hiệu quả trong những tập
hợp văn bản nhỏ, có thể dùng cho các nhà nghiên cứu ở thời gian đó. Tuy nhiên, vì
không có hiệu quả đối với những tập hợp văn bản lớn, câu hỏi có hay không những mô
hình và những kỹ thuật có thể đáp ứng được với thể lớn hơn vẫn chưa được trả lời. Sự
thay đổi lớn vào năm 1992, với sự khởi đầu bằng cuộc thảo luận về truy tìm văn bản,
sau đó một loạt thảo luận kiểm định đứng đầu bởi nhiều hãng khác nhau của Mỹ dưới
sự bảo hộ của Viện Tiêu chuẩn và Công nghệ quốc gia (NIST), nhằm vào việc khuyến
khích nghiên cứu về hệ thống IR với những tập hợp văn bản lớn. Những thuật toán IR
đã phát triển trong những năm từ năm 1996 đến năm 1998, là những kỹ thuật đầu tiên
được dùng cho việc tìm kiếm trên mạng toàn cầu.
Ngày nay, sự phát triển nhanh chóng của lĩnh vực thông tin và Internet đã tạo ra
một khối lượng thông tin vô cùng lớn với sự phong phú, đa dạng và phức tạp của loại
hình thông tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương
ứng với khối lượng dữ liệu khổng lồ đó, người ta quan tâm nhiều đến cơ sở dữ liệu đa
phương tiện (Mutimedia Database) trong khoa học công nghệ và trong thực tiễn. Với
hệ thống cơ sở dữ liệu đa phương tiện, bao gồm dữ liệu dạng hình ảnh, video, audio và
văn bản (text) đang có xu thế thâm nhập vào rất nhiều lĩnh vực và đang dần trở thành
hệ cơ sở dữ liệu được quan tâm từ người sử dụng và các chuyên gia trong vấn đề lưu
trữ, xử lý và ứng dụng.
Cho đến nay, vấn đề tìm kiếm thông tin đa phương tiện vẫn được các chuyên
gia nghiên cứu, trong việc truy tìm thông tin phù hợp với yêu cầu của một truy vấn đưa
ra từ người sử dụng. Người sử dụng có xu hướng tìm kiếm chủ yếu trong hệ cơ sở dữ
liệu đa phương tiện, ví dụ như tìm kiếm một loạt hình ảnh cổ vật liên quan đến nền văn
hoá cổ Việt Nam, tìm kiếm dữ liệu âm thanh có bản text kèm theo, tìm kiếm video bài
giảng cho học sinh ôn thi đại học... Để thực hiện được việc tìm kiếm đó trong cơ sở dữ
liệu đa phương tiện thì những người làm khoa học đã nghiên cứu ra các công cụ,
9
phương pháp, kỹ thuật tìm kiếm sao cho thuận tiện, chính xác và nhanh chóng đem lại
được thông tin phù hợp với yêu cầu của người sử dụng.
Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm
từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ, điển hình như bảng nội
dung của một cuốn sách. Ngày nay, sự lớn mạnh của thông tin với phần lớn là dạng
văn bản, hơn nữa nó xuất phát từ nhu cầu thực tế sử dụng của con người. Tài liệu văn
bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện và còn được sử
dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh.
Số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thế việc
việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể thực hiện
được. Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng ngày càng
hoàn thiện dựa trên những kỹ thuật hiện đại phục vụ cho nhu cầu đó.
Các mô hình truy tìm hay được sử dụng trong phạm vi này, đó là: Đối sánh
chính xác, không gian vectơ, xác suất và trên cơ sở cụm. Song, nhược điểm cơ bản của
các mô hình truy tìm thông tin hiện nay là những từ mà người tìm kiếm sử dụng,
thường không giống với những từ đã được đánh chỉ mục trong thông tin tìm kiếm. Vấn
đề này liên quan nhiều đến hai khía cạnh thực tế, đó là tính đồng nghĩa (synonymy)-
cùng một thông tin nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ
cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trông, thấy có cùng ý nghĩa; và tính
đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong ngữ cành khác
nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất mát). Kết quả truy tìm có
thể gồm những tài liệu không liên quan, đơn giản vì những thuật ngữ xuất hiện ngẫu
nhiên trong nó giống với thuật ngữ trong truy vấn và mặt khác, những tài liệu liên
quan có thể bị bỏ qua bởi không chứa các thuật ngữ xuất hiện trong truy vấn (do tính
đồng nghĩa). Một ý tưởng thú vị xem liệu việc truy tìm có thể dựa vào các khái niệm
có hiệu quả hơn so với truy tìm trực tiếp trên các thuật ngữ. Mô hình LSI (Latent
Semantic Indexing) ra đời, là một giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa
trên cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở những khái niệm (không phải
trên các thuật ngữ đơn).
Trước khi truy tìm, các tài liệu được coi như danh sách các từ và chúng phải
được đánh chỉ mục. Có một thực tế là không phải tất cả các từ đều có ý nghĩa, vì vậy
việc loại đi danh sách các từ không có nghĩa vô cùng quan trọng và các từ không có ý
nghĩa sẽ không được đánh chỉ mục. Từ thông tin tóm lược của người sử dụng biểu thị
qua truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập các tài
liệu trong câu trả lời luôn ưu tiên cho những thông tin có ích và phù hợp với truy vấn
người sử dụng đưa ra. Hơn thế nữa, một kỹ thuật được đánh giá là tốt phải dựa trên
việc xếp hạng các tài liệu này, tức là những tài liệu phù hợp và được coi là “gần” với
10
câu truy vấn nhất sẽ được xếp lên trên các tài liệu ít phù hợp hơn trong danh sách tài
liệu trả lời. Đánh giá chất lượng IR còn phụ thuộc vào thước đo hiệu năng thực hiện
của kỹ thuật đó dựa vào các tham số chủ yếu là độ chính xác (precison) và số tài liệu
được gọi lại (recall).
Trên cơ sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo
và phần nội dung gồm ba chương và được trình bày theo thứ tự sau:
Chương 1. Giới thiệu tổng quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài
liệu và các yếu tố cơ bản phục vụ cho việc tìm kiếm thông tin. Khái quát về một hệ
thống truy tìm thông tin (IR) tiêu biểu và cụ thể là truy tìm tài liệu văn bản.
Chương 2. Đề cập đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên
cứu một số mô hình tìm kiếm như: Boolean, không gian vectơ, phân cụm, dựa trên xác
suất, phản hồi phù hợp và LSI.
Chương 3. Cài đặt thực nghiệm mô hình LSI.
Nội dung luận văn đi từ tổng quan về cơ sở dữ liệu đa phương tiện, hệ thống
tìm kiếm đa phương tiện đến kỹ thuật chỉ mục, xử lý tài liệu, trích lọc thông tin đến chi
tiết vấn đề tìm kiếm trên tài liệu văn bản. Đặc biệt, nghiên cứu các mô hình tìm kiếm
và đi sâu nghiên cứu mô hình LSI- tìm kiếm văn bản trên cơ sở nội dung.
11
CHƯƠNG 1 - TỔNG QUAN
1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12]
1.1.1 Giới thiệu
Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, internet,
qua phương tiện truyền thông hay có được từ nhiều phương tiện khác nhau như máy
quay (video) kỹ thuật số... Các dòng dữ liệu số càng ngày càng tăng, các loại dữ liệu
đa phương tiện kết hợp của dữ liệu hình ảnh, âm thanh, văn bản…
Hiện nay, chúng ta đều biết internet đang được phát triển như thế nào, rõ ràng
trong quá trình tương tác và trao đổi thông tin, người sử dụng có xu hướng chủ yếu xử
lý trên kiểu dữ liệu đa phương tiện và chúng ta thấy được sự phát triển của kiểu dữ liệu
này trong cuộc sống hiện đại. Tầm quan trọng của việc sử dụng thông tin sẽ dần dần
thay đổi từ thông tin dạng số và rõ tới thông tin ở dạng đa phương tiện: dữ liệu hình
ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương tiện là thông điệp cho xã hội
thông tin ngày nay.
Sự tương tác của người sử dụng tự nhiên hơn với thông tin và các thiết bị
truyền thông, trong phạm vi rộng sẽ tạo ra một xã hội có giá trị về mọi mặt. Vì thế, có
thể dự đoán được đa phương tiện sẽ thâm nhập vào tất cả các hệ thống thông tin, từ
công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với
khách hàng, giáo dục, khoa học, trong nghệ thuật và được truyền đi rộng rãi qua
internet.
Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó không hoàn
toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng
bit của hình ảnh và âm thanh. Trong đó, tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của
văn bản và nói gì về âm thanh là không dễ dàng lập luận với một máy tính. Những
điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển
đổi, phân tích và phân lớp.
Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh
ảnh, âm thanh và ngôn ngữ. Nó bao gồm sự tương tác của máy với dạng đa phương
thức. Thêm vào đó, kiến thức và sự hiểu biết về các dạng đa phương tiện sẽ có được
hiểu biết về bản chất của các dòng thông tin đa phương tiện. Các hệ thống thông tin đa
phương tiện sẽ lưu và cung cấp truy cập đến các dòng dữ liệu, hệ thống ứng dụng
thông tin trên tất cả các dạng. Trong phạm vi vấn đề này, đa phương tiện có thể được
mô tả như mọi ứng dụng của dữ liệu thông tin trên một máy tính qua các dạng như
hình ảnh, ngôn ngữ tự nhiên và âm thanh.
Một số mô hình ứng dụng đa phương tiện như các thiết bị điện tử, hệ thống lưu
trữ các kho chứa đa phương tiện lớn, sử dụng các tài liệu điện tử của đa phương tiện, y
12
tế điện tử và chính phủ điện tử. Ứng dụng đa phương tiện trở thành một phần không
thể thiếu của các công việc trong nhiều cụm kinh tế. Ví dụ: phân tích hệ thống thông
tin đa phương tiện sử dụng để giám sát, thu thập chứng cớ tòa án và an ninh chung…
Việc phát sinh khối kiến thức đa phương tiện và kiến thức kỹ thuật được dùng để lưu
trữ việc tạo hình ảnh, phim và âm thanh có thể được sử dụng trong di sản văn hóa và
nền công nghiệp giải trí...
Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu
EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng cao, sức chứa lớn
với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số
cơ bản khác và nó có thể quản lý một khối lượng rất lớn thông tin đa phương tiện.
Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói, âm nhạc,
tiếng động và mọi sự kết hợp các âm thanh khác nhau. Việc lưu lại một bài diễn
thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào đó có ý nghĩa rất lớn
trong thực tế. Ví dụ, qua đài phát thanh chúng ta có thể thu thập được nhiều thông tin
với các chủ đề khác nhau, có thể tìm kiếm các bài hát trên internet, thu thập các đoạn
audio bài giảng trong đào tạo từ xa, học ngoại ngữ qua các đoạn audio...
Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ dấu
vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản lý nhân sự;
trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện tượng thiên nhiên,
trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu ảnh để có thể truy vấn các
triệu trứng để tìm ra những căn bệnh tương tự không chỉ bằng văn bản mà bằng cả
hình ảnh, ảnh chụp X quang, ảnh chụp cắt lớp... Trong thời gian gần đây, việc sử dụng
CSDL ảnh đã mang lại hiệu quả to lớn trong nhiều lĩnh vực khác nhau của đời sống,
kinh tế và xã hội.
Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các thời
điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên thực tế chính là
chuyển động của các điểm ảnh từ trạng thái này sang trạng thái khác, hay là sự chuyển
động của mỗi đối tượng riêng lẻ được phân tách từ dữ liệu video. Dữ liệu video được
ứng dụng nhiều trong công nghệ giải trí (phim ảnh, clip âm nhạc..), trong đào tạo từ xa
(qua những video bài giảng)... Nhiều phòng chức năng có nhiệm vụ lưu trữ và thu thập
các video (tư liệu lịch sử, tư liệu khai quật khảo cổ học của địa phương hay quốc gia...)
để nhằm phát triển khả năng trở thành bộ nhớ tiểu sử tự động (autobiographic
memory).
Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách tiếp cận
với “túi các từ” (bag – of – words). Theo thống kê, đến năm 2005 toàn bộ văn bản trên
mạng có thể đã lên tới hàng chục TB. Các dữ liệu văn bản tiêu biểu như: Các trang
web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố hàn lâm, các ứng dụng hỗ
13
trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục, chép sử, thư điện tử,
các bản sao xét xử của toà án, kho thư viện... Điều quan trọng là khối lượng dữ liệu
văn bản ngày càng lớn và được sử dụng lưu trữ tài liệu trong mọi cơ quan tổ chức. Vì
thế, quan tâm đến xử lý văn bản là rất cần thiết. Thực tế, tập văn bản sách trong một
thư viện của một trường đại học nhỏ cũng có thể chứa đến 100GB lưu trữ, hay một nhà
nghiên cứu trong 10 năm có đến 10MB tập văn bản, và cũng nhà nghiên cứu đó trong
10 năm lưu trữ tài liệu thư điện tử có thể chiếm đến 100MB. Ngoài ra còn dùng các
miêu tả bằng văn bản cho hình ảnh hay video, người ta có thể chèn các thuộc tính, các
đoạn thuyết minh, chú thích cho các đối tượng đó.
1.1.2 Mục tiêu chính
Theo cách nhìn trên đây ta nhận thấy CSDL đa phương tiện bao gồm năm mục
tiêu chính như sau:
- Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện: các
phương tiện (media) khác nhau và các thao tác thông thường cũng như các thao tác
đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng...
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề cập đến
không gian lưu trữ của CSDL.
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả
- Có các khả năng của hệ CSDL truyền thống
- Có khả năng truy tìm thông tin đa phương tiện.
1.1.3 Mô hình dữ liệu đa phương tiện
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành
trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và
thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một
vài hình ảnh và âm thanh kèm theo.
Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời
gian. Quan hệ không gian được đặc tả