Ngày nay, với sựphát triển như vũ bão của công nghệthông tin, Internet cũng 
như các dịch vụtrực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thểtruy 
cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn 
nữa, nhu cầu đọc, tìm kiếm và lưu trữthông tin của con người cũng ngày càng tăng 
lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thểnào có 
đủthời gian và sức lực đểđọc hết được chúng. Giải pháp là tóm tắt lại các văn bản 
đó, từđó giúp tiết kiệm thời gian và công sức nhưng vẫn có thểđọc và xửlý được 
nhiều văn bản.
Tóm tắt văn bản tựđộng đã bắt đầu được nghiên cứu từnhững năm 50 của thế
kỉtrước. Đã có nhiều công trình nghiên cứu vềlĩnh vực này và có được những kết 
quảđáng kể. Tóm tắt văn bản đã được sửdụng trong các phần mềm xửlý văn bản 
(Microsoft Office Word…), trong khai phá cơ sởdữliệu văn bản (Oracle…), trong 
các ứng dụng tìm kiếm thông tin trực tuyến (hệthống tìm kiếm Google, Yahoo…) 
và đều thu được những kết quảrất đáng khích lệ.
Tuy nhiên, đối với Tiếng Việt, do sựphức tạp của ngôn ngữnên hiện chưa có 
nhiều công trình nghiên cứu vềtóm tắt văn bảnvàkết quảcủa các công trình nghiên 
cứu vềtóm tắt văn bản tiếng Việt còn hạn chếso với các ngôn ngữkhác mà đặc biệt 
là so với tiếng Anh.
Vì vậy, chúng tôi chọn đềtài: “Nghiên cứu các phương pháp xửlý tiếng Việt 
ứng dụng cho tóm tắt văn bản”nhằm nghiên cứu những vấn đềtổng quan vềxửlý 
ngôn ngữtựnhiên và một sốphương pháp tóm tắt văn bản tiên tiến đã được ứng 
dụng và thu được kết quảkhảquan đối với tiếng Anh; đồng thời nghiên cứu những 
đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó đểcó thể
xây dựng ứng dụngtóm tắt văn bản tiếng Việt.
Nội dung của luận văn được chia làm 4chương:
Chương 1. Tổng quan về tóm tắt văn bản
Chương này trình bày những vấn đềtổng quan vềbài toán tóm tắt văn bản, 
một sốhướng tiếp cận hiện đại và các phương pháp đánh giá kết quảcủa văn bản 
tóm tắt. 
Chương 2. Bài toán tómtắt văn bản tiếng Việt
Chương này trình bày về bài toán tóm tắt văn bản tiếng Việt và một sốkhó 
khăn gặp phải do các đặc điểm của tiếng Việt (ngữâm, ngữpháp, chính tả…), và 
một sốvấn đềvềtiếng Việt trên máy tính (bảng mã, font chữ…), từđó lựa chọn 
phương pháp phù hợp cho bài toán tóm tắt văn bản.
                
              
                                            
                                
            
                       
            
                 59 trang
59 trang | 
Chia sẻ: nhungnt | Lượt xem: 3137 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng cho tóm tắt văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
LÊ QUÝ TÀI 
NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT 
ỨNG DỤNG CHO TÓM TẮT VĂN BẢN 
LUẬN VĂN THẠC SĨ 
Hà Nội - 2011 
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
LÊ QUÝ TÀI 
NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT 
ỨNG DỤNG CHO TÓM TẮT VĂN BẢN 
Ngành: Công nghệ thông tin 
Chuyên ngành: Hệ thống thông tin 
Mã số: 60 48 05 
LUẬN VĂN THẠC SĨ 
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. PHẠM BẢO SƠN 
Hà Nội - 2011
 i 
LỜI CAM ĐOAN 
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm 
hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều được 
trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất 
cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. 
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho 
lời cam đoan của mình. 
Hà Nội, tháng 6 năm 2011 
TÁC GIẢ LUẬN VĂN 
Lê Quý Tài 
 ii 
LỜI CẢM ƠN 
Trước hết tôi xin xin gửi lời cảm ơn đặc biệt tới TS. Phạm Bảo Sơn, người đã 
định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện 
luận văn cao học này. 
Tôi xin chân thành cảm ơn các thầy cô trường Đại học Công nghệ, Đại học 
Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, những kinh 
nghiệm quý báu trong suốt khóa học cao học. 
Cuối cùng, tôi xin dành một tình cảm biết ơn tới gia đình và những người thân 
đã luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học cao học 
cũng như quá trình thực hiện luận văn cao học. 
 iii 
MỤC LỤC 
LỜI CAM ĐOAN.....................................................................................................i 
LỜI CẢM ƠN .........................................................................................................ii 
MỤC LỤC .............................................................................................................iii 
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT........................................... v 
DANH MỤC CÁC BẢNG .....................................................................................vi 
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................vii 
MỞ ĐẦU ................................................................................................................1 
Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN ..............................................3 
1.1 Tổng quan......................................................................................................3 
1.1.1 Khái niệm ..............................................................................................3 
1.1.2 Lịch sử phát triển của tóm tắt văn bản.....................................................3 
1.1.3 Phân loại các phương pháp tóm tắt văn bản.............................................4 
1.2 Mô hình tóm tắt văn bản ................................................................................6 
1.2.1 Các phương pháp áp dụng trong pha phân tích........................................7 
1.2.2 Các phương pháp áp dụng trong pha biến đổi..........................................8 
1.2.3 Các phương pháp trong pha tổng hợp kết quả..........................................9 
1.3 Các phương pháp đánh giá .............................................................................9 
1.3.1 Các phương pháp đánh giá trong..........................................................10 
1.3.2 Các phương pháp đánh giá ngoài ..........................................................11 
Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................. 12 
2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản ...........................................12 
2.2 Đặc điểm tiếng Việt .....................................................................................13 
2.2.1 Đặc điểm chung ....................................................................................13 
2.2.2 Yếu tố ngoại lai trong từ tiếng Việt ......................................................14 
2.2.3 Từ đồng nghĩa .......................................................................................14 
2.2.4 Đặc điểm chính tả .................................................................................15 
2.2.5 Bảng mã tiếng Việt trên máy tính..........................................................16 
2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt...................................17 
 iv 
Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN 
TIẾNG VIỆT......................................................................................................... 20 
3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc ...........................................20 
3.2 Tiền xử lý văn bản .......................................................................................21 
3.3 Xử lý từ .......................................................................................................22 
3.4 Xây dựng đồ thị liên kết...............................................................................24 
3.5 Sinh văn bản tóm tắt ....................................................................................28 
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................ 33 
4.1 Môi trường thử nghiệm................................................................................33 
4.2 Dữ liệu thử nghiệm ......................................................................................33 
4.3 Phương pháp đánh giá..................................................................................33 
4.4 Kết quả thực nghiệm....................................................................................36 
4.4.1 Thử nghiệm xác định ngưỡng................................................................36 
4.4.2 Kết quả thử nghiệm đối với từng phiên bản...........................................37 
KẾT LUẬN........................................................................................................... 42 
TÀI LIỆU THAM KHẢO ..................................................................................... 44 
PHỤ LỤC ............................................................................................................. 46 
 v 
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 
STT Ký hiệu, viết tắt Tên đầy đủ 
1 IDF 
Inverse document frequency 
Tần số tài liệu ngược 
2 IR 
Information Retrieval 
Tìm kiếm thông tin 
3 TF 
Term frequency 
Tần số từ 
 vi 
DANH MỤC CÁC BẢNG 
Bảng 1 Bậc của các nút sắp theo thứ tự giảm dần của văn bản Text(1).txt ............29 
Bảng 2 Đánh giá sự liên quan của văn bản tóm tắt và văn bản GS ........................34 
Bảng 3 Kết quả thử nghiệm với các ngưỡng khác nhau ........................................36 
Bảng 4 Chất lượng của văn bản tóm tắt bởi Microsoft Word ................................37 
Bảng 5 Kết quả thử nghiệm với phiên bản 1 .........................................................38 
Bảng 6 Kết quả thử nghiệm với phiên bản 2 .........................................................38 
Bảng 7 Kết quả thử nghiệm với phiên bản 3 .........................................................39 
Bảng 8 So sánh kết quả các phiên bản và MS Word .............................................39 
Bảng 9 So sánh các văn bản tóm tắt được thực hiện bởi 2 người...........................40 
 vii 
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 
Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động ..........................................6 
Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2)....19 
Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc ...........................20 
Hình 4 Đồ thị liên kết của văn bản Text(1).txt ......................................................27 
Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con người, tỉ lệ nén 10%...........35 
Hình 6 Đồ thị kết quả tóm tắt với các ngưỡng.......................................................36 
Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word............................40 
 1 
MỞ ĐẦU 
Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng 
như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy 
cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn 
nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng 
lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có 
đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản 
đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được 
nhiều văn bản. 
Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế 
kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết 
quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm xử lý văn bản 
(Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong 
các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…) 
và đều thu được những kết quả rất đáng khích lệ. 
Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chưa có 
nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên 
cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt 
là so với tiếng Anh. 
Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt 
ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý 
ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên tiến đã được ứng 
dụng và thu được kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những 
đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó để có thể 
xây dựng ứng dụng tóm tắt văn bản tiếng Việt. 
Nội dung của luận văn được chia làm 4 chương: 
Chương 1. Tổng quan về tóm tắt văn bản 
Chương này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản, 
một số hướng tiếp cận hiện đại và các phương pháp đánh giá kết quả của văn bản 
tóm tắt. 
Chương 2. Bài toán tóm tắt văn bản tiếng Việt 
Chương này trình bày về bài toán tóm tắt văn bản tiếng Việt và một số khó 
khăn gặp phải do các đặc điểm của tiếng Việt (ngữ âm, ngữ pháp, chính tả…), và 
một số vấn đề về tiếng Việt trên máy tính (bảng mã, font chữ…), từ đó lựa chọn 
phương pháp phù hợp cho bài toán tóm tắt văn bản. 
 2 
Chương 3. Ứng dụng phương pháp cấu trúc để tóm tắt văn bản tiếng Việt 
Chương này trình bày về việc sử dụng phương pháp sử dụng cấu trúc văn bản 
kết hợp với từ điển từ dừng và từ điển đồng nghĩa để xây dựng chương trình tóm tắt 
văn bản tiếng Việt. 
Chương 4. Thực nghiệm và đánh giá 
Chương này trình bày về phương pháp được sử dụng để đánh giá hệ thống tóm 
tắt và các kết quả thực nghiệm. 
 3 
Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 
1.1 Tổng quan 
1.1.1 Khái niệm 
Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã được bắt đầu 
nghiên cứu từ những năm 50 của thế kỉ trước. Có nhiều định nghĩa về tóm tắt văn 
bản: 
[19] định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan 
trọng từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm 
người dùng, cho từng tác vụ hay nhiều tác vụ khác nhau. 
[21] định nghĩa hệ thống tóm tắt văn bản là hệ thống đưa ra dạng biểu diễn 
ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của người dùng. 
Radev (2002) [22] định nghĩa văn bản tóm tắt là văn bản được tạo từ một hoặc 
nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản 
gốc nhưng có độ dài không quá ½ văn bản gốc (thường ngắn hơn đáng kể). 
Theo Partha Lal (2002) [16] thì tóm tắt văn bản là việc thể hiện nội dung văn 
bản dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía 
người dùng. 
Đỗ Phúc, Hoàng Kiếm (2006) [5] định nghĩa tóm tắt văn bản tự động là việc 
tìm các ý chính của văn bản. 
Tựu chung lại, có ba đặc điểm quan trọng cần phải xem xét trong hệ thống 
tóm tắt văn bản: 
1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản. 
2) Bản tóm tắt cần truyền tải các thông tin quan trọng. 
3) Bản tóm tắt cần phải ngắn. 
1.1.2 Lịch sử phát triển của tóm tắt văn bản 
Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của 
Luhn (1958) [17] dựa trên tần số từ. Ý tưởng cơ bản của phương pháp tần số từ dựa 
trên kiến thức cho rằng tần số của từng từ trong văn bản là một độ đo hữu dụng để 
đánh giá tầm quan trọng của chúng. 
Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn bản 
của Baxendale (1958), và những nghiên cứu của Edmundson (1969) [14] về vị trí 
của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu 
hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu 
 4 
chứa những từ như “important” (đặc biệt), “result are” (kết quả là), “paper 
introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng. 
Đầu những năm 1970, tiếp tục có những nghiên cứu với hướng tiếp cận ngoài 
(sử dụng các cụm từ dấu hiệu) và được ứng dụng trong các phần mềm thương mại 
(Pollock và Zamora). 
Những năm 1980, phát triển nhiều nghiên cứu với nhiều hướng khác nhau, đặc 
biệt là hướng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo như sử dụng script 
(Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng ngữ 
nghĩa (Reimer và Hahn 1988), cũng như các hướng tiếp cận kết hợp (Rau 1989) hay 
(Aretoulaki 1994). 
Willam B. Cavnar (1994): biểu diễn văn bản dựa trên n-gram thay cho cách 
biểu diễn truyền thống bằng từ khoá. 
Chinatsu Anoe (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng xử 
lý ngôn ngữ tự nhiên và kĩ thuật thống kê dựa trên hệ thống tf-idf, sử dụng WordNet 
để xem xét ngữ nghĩa của từ và đề xuất một số kĩ thuật lượng giá. 
Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội 
(câu chứa các ý chính của văn bản) và rút ra các câu trội. 
Jade Goldstein (1999): phân loại tóm tắt dựa trên độ đo liên quan, phương 
pháp sử dụng kết hợp giữa ngữ học, thống kê. Mỗi câu được đặc trưng bằng các đặc 
tính ngữ học và độ đo thống kê. 
J.Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong câu 
được chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt. 
Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật. Có 2 phương pháp là rút câu 
dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo 
mối liên kết giữa hai từ. 
Hiện nay, một số nghiên cứu về xử lý ngôn ngữ tự nhiên cũng bước đầu được 
áp dụng trong tóm tắt văn bản. Mặt khác, các nghiên cứu về tóm tắt đa văn bản, đa 
ngôn ngữ và tóm tắt đa phương tiện cũng bắt đầu phát triển. 
1.1.3 Phân loại các phương pháp tóm tắt văn bản 
Có nhiều tiêu chí để phân loại các phương pháp tóm tắt văn bản, sau đây là 
một số cách phân loại tiêu biểu [15]: 
Căn cứ vào dạng tóm tắt, ta có thể chia thành: 
- Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” được sao chép 
nguyên dạng từ văn bản nguồn. “Dãy từ” ở đây có thể là cụm từ, câu hoặc đoạn văn. 
Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt thiếu cấu kết cần thiết, các câu 
 5 
được trích ra có thể không phản ánh nội dung. Nói chung văn bản tóm tắt không 
được “trơn” do được “lắp ghép” từ các câu, đoạn văn được trích ra. 
- Tóm tắt (abstracts): văn bản tóm tắt nói chung là không chứa các “dãy từ” 
trong văn bản nguồn mà là được “viết lại” một cách tự động. Với dạng này, người ta 
cần nhiều kĩ thuật xử lý ngôn ngữ. Hiện tại, đây vẫn là vấn đề khó, chưa thể giải 
quyết được một cách triệt để. 
Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng: 
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng khái 
niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao gồm các 
thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong 
văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ 
dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết quả là một bản 
tóm tắt dạng trích xuất (extract). 
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích 
xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ 
tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa, 
chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn của các thực 
thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực thể rồi từ đó tìm ra phần 
quan trọng. Mối quan hệ giữa các thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa, 
trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa trên cây phân tích cú 
pháp và các mối quan hệ khác. 
Căn cứ vào mục đích của bản tóm tắt, có thể chia làm 3 dạng: 
- Trình bày sơ lược (indicative): Đưa ra những thông tin ngắn gọn về chủ đề 
chính của văn bản. Dạng tóm tắt này thường được sử dụng trong các hệ thống tìm 
kiếm thông tin. Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5 đến 10% 
độ dài của toàn bộ văn bản. 
- Tóm tắt cung cấp tin tức (Informative): Cung cấp các chủ đề con của toàn bộ 
văn bản, kiểu tóm tắt này có độ dài từ 20-30% văn bản gốc. 
- Phê bình và đánh giá: Văn bản tóm tắt đưa ra những quan điểm của người 
tóm tắt về chủ đề được đưa ra. Tuy nhiên, kiểu tóm tắt này dường như vượt quá tầm 
của các hệ thống tóm tắt tự động hiện nay. 
Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau, có 
thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình bày sơ 
lược. 
Căn cứ vào người sử dụng, có thể chia thành các dạng: 
 6 
- Tóm tắt chung: với kiểu tóm tắt này thì mọi chủ đề chính trong văn bản đều 
có tầm quan trọng như nhau, văn bản tóm tắt hướng đến một cộng đồng đông đảo 
người đọc. 
- Tóm tắt dựa trên câu truy vấn: kết quả trả về dựa trên câu truy vấn của người 
dùng. 
- Tóm tắt hướng đến người dùng hoặc chủ đề: văn bản tóm tắt đáp ứng nhu 
cầu của người dùng cụ thể hoặc chủ đề cụ thể nào đó. 
Căn cứ vào số lượng văn bản tóm tắt: Tóm tắt đơn văn bản: thực hiện tóm tắt 
trên một văn bản hoặc tóm tắt đa văn bản: thực hiện tóm tắt trên nhiều văn bản khác 
nhau. 
Căn cứ vào ngôn ngữ tóm tắt: Tóm tắt trên một ngôn ngữ hoặc tóm tắt trên 
nhiều ngôn ngữ khác nhau. 
1.2 Mô hình tóm tắt văn bản 
Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động 
Đầu vào của hệ thống có thể là một hoặc nhiều tài liệu, văn bản hay các thông 
tin đa phương tiện như ảnh, âm thanh, video. Hệ thống tóm tắt hiện nay thường tập 
trung vào việc xử lý đầu là văn bản (có thể mở rộng cho các thông tin dạng khác). 
Điều quan trọng trong việc tóm tắt văn bản là mức độ nén, tức là tỉ lệ giữa độ dài 
của văn bản tóm tắt so với văn bản gốc (đôi khi cũng được tính bằng phần bù của tỉ 
số này). Thông thường, tỉ lệ nén được tính dựa trên độ dài của văn bản, hoặc có thể 
tính bằng nội dung thông tin. Tỉ lệ nén dao động từ 1% đến 30%, nếu tỉ lệ nén giảm 
thì thông tin sẽ bị mất nhiều hơn. Văn bản tóm tắt có thể là văn bản liền mạch hoặc 
văn bản rời rạc. Quá trình tóm tắt có thể chia thành 3 pha: phân tích văn bản đầu 
vào, biến đổi, tổng hợp chỉnh sửa cho phù hợp với yêu cầu đầu ra. 
Ph
ân
 tí
ch
Tài liệu 
B
iế
n 
đổ
i 
Tổ
ng
 h
ợp
 k
ết
 q
uả
Văn bản 
tóm tắt 
 7 
1.2.1 Các phương pháp áp dụng trong pha phân tích 
Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ liệu 
và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến đổi. Các 
phương pháp áp dụng trong pha này bao gồm: 
a)Phương pháp thống kê 
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan trọng 
của các từ, cụm từ, câu hoặc đoạn văn. Các phương