Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa

Tóm tắt. Tóm tắt văn bản là một lĩnh vực quan trọng của xử lí ngôn ngữ tự nhiên. Đối với tiếng Việt, do tính phức tạp của ngôn ngữ nên hiện nay các phương pháp tóm tắt còn gặp nhiều khó khăn. Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41%, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản).

pdf10 trang | Chia sẻ: thanhle95 | Lượt xem: 70 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE Natural Sci., 2013, Vol. 58, No. 3, pp. 154-163 This paper is available online at TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG CẤU TRÚC VĂN BẢN VÀ TỪ ĐIỂN ĐỒNG NGHĨA Lê Quý Tài Khoa Hệ thống thông tin quản lý, Học viện Ngân hàng Tóm tắt. Tóm tắt văn bản là một lĩnh vực quan trọng của xử lí ngôn ngữ tự nhiên. Đối với tiếng Việt, do tính phức tạp của ngôn ngữ nên hiện nay các phương pháp tóm tắt còn gặp nhiều khó khăn. Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41%, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản). Từ khóa: Tóm tắt văn bản, đồ thị liên kết, từ đồng nghĩa, xử lí ngôn ngữ. 1. Mở đầu Tóm tắt văn bản là một lĩnh vực của xử lí ngôn ngữ tự nhiên và đã được nghiên cứu từ những năm 50 của thế kỉ 20. Đối với ngôn ngữ tiếng Anh đã có nhiều nghiên cứu về tóm tắt văn bản và thu được những kết quả rất khả quan [3]. Với tiếng Việt, do sự phức tạp về ngôn ngữ nên kết quả của các công trình nghiên cứu về tóm tắt băn bản tiếng Việt còn có nhiều hạn chế. Hiện nay đã có những công trình nghiên cứu về tóm tắt văn bản tiếng Việt sử dụng các phương pháp thống kê, một số dựa trên ngữ nghĩa. Chẳng hạn, Đỗ Phúc, Hoàng Kiếm [6] đã sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, rồi dùng kĩ thuật gom cụm để gom các câu trong văn bản. Nguyễn Trọng Phúc, Lê Thanh Hương [7] lại sử dụng cấu trúc diễn ngôn để tóm tắt văn bản; một số sử dụng phương pháp xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu hoặc sử dụng phương pháp phân đoạn văn bản dựa trên chuỗi từ vựng để tóm tắt văn bản. Phương pháp sử dụng cấu trúc văn bản đã được sử dụng với tiếng Anh [4] và đã thu được kết quả khá tốt. Trong bài báo này chúng tôi trình bày về việc cải tiến phương pháp này kết hợp với từ điển đồng nghĩa để thực hiện tóm tắt văn bản tiếng Việt. Ngày nhận bài: 6/9/2012. Ngày nhận đăng: 5/6/2013. Tác giả liên lạc: Lê Quý Tài, địa chỉ e-mail: quytai3985@gmail.com 154 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2. Nội dung nghiên cứu 2.1. Mô hình tóm tắt văn bản tiếng Việt Hình 1. Mô hình tóm tắt văn bản tiếng Việt Để đánh giá hiệu quả của việc sử dụng bộ tách từ và từ điển đồng nghĩa, chúng tôi đã xây dựng 3 phiên bản cho ứng dụng này. - Phiên bản 1: Hoàn toàn không sử dụng bộ tách từ, các từ được tách ra căn cứ vào dấu trắng phân cách. - Phiên bản 2: Sử dụng bộ tách từ tiếng Việt để tách ra các từ. - Phiên bản 3: Sử dụng bộ tách từ tiếng Việt, kết hợp với từ điển từ dừng và từ điển đồng nghĩa. 2.2. Tiền xử lí Các tập tin được dùng để thử nghiệm được lấy từ trang báo điện tử vnexpress.net và một số bài báo khoa học. Các tập tin được loại bỏ các thẻ HTML, loại bỏ các câu không liên quan đến nội dung và chỉ giữ lại nội dung chính, đồng thời cũng được chuẩn hoá về mặt chính tả. Nội dung của mỗi văn bản được lưu trữ trong một file text và được mã hoá bằng mã Unicode UTF-8. Công cụ WordSegForTV [2] được sử dụng để phân tách các từ và các câu trong toàn bộ các băn bản, kết quả của bước này được dùng làm đầu vào cho pha tiếp theo. 155 Lê Quý Tài 2.3. Xử lí từ Pha này thực hiện tách ra các từ, các câu từ các văn bản có được từ pha trước. Trong bước này, chúng tôi xây dựng tập T chứa toàn bộ các từ có trong văn bản. Chúng tôi sử dụng từ điển từ dừng do website xulyngonngu.com cung cấp để loại bỏ các từ dừng. Đồng thời, từ điển đồng nghĩa cũng được sử dụng để thêm vào tập T các từ đồng nghĩa. Thuật toán dưới đây thể hiện việc chọn ra các từ, các câu, các từ đồng nghĩa và loại bỏ các từ dừng. Từ điển đồng nghĩa được sử dụng là của tài liệu [1]. Thuật toán xử lí từ Input: Tập tin văn bản đã tách từ. Output: Tập các từ T, Tập các câu Sent. 1. Mở tập tin văn bản ST=Nội dung file 2. {Tách ra các câu} n=0; {đếm số lượng câu} k=1; while k<len(st) begin if ST(k)=Dấu kết thúc câu then begin n=n+1; sent(i)=Câu kết thúc tại vị trí k; end; Tăng k; end; 3. {Tách ra các từ} k=1; while k<len(st) begin if ST(k)= “|” then begin word=Chọn ra từ kết thúc tại k; Chuẩn hoá word; {Loại bỏ dấu cách, các kí hiệu vô ích, chuyển về chữ thường} if word có trong từ điển từ dừng then word=”” else if word có trong từ điển đồng nghĩa then Đưa word và các từ đồng nghĩa vào Tập từ Term; Else Đưa word vào Tập từ T; Tăng k; end; 4. return T, Sent; 156 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2.4. Xây dựng đồ thị liên kết Trong lĩnh vực xử lí ngôn ngữ và tìm kiếm thông tin, mỗi văn bản thường được biểu diễn dưới dạng vector, chẳng hạn Di = (di1 , di2, ..., din) trong đó dikbiểu diễn trọng số của từ trong tài liệuDi. Độ tương tự giữa hai văn bảnDi và Dj là sim(Di, Dj) được tính theo các công thức tính độ tương tự. Nếu độ tương tự này đạt đến một ngưỡng đủ lớn thì ta nói rằng chúng có “liên quan về mặt ngữ nghĩa” và ta có thể thiết lập một liên kết giữa hai văn bản này [5]. Áp dụng phương pháp này vào việc tóm tắt văn bản tự động, chúng tôi xây dựng đồ thị liên kết giữa các câu trong băn bản bằng cách: mỗi câu trong văn bản là một nút trong đồ thị; liên kết giữa hai câu bất kì trong đồ thị được thiết lập nếu giữa các câu có độ tương tự đạt đến một ngưỡng nào đó. Việc xác định ngưỡng để quyết định hai câu trong văn bản có quan hệ với nhau có một ý nghĩa quan trọng. Chúng tôi sẽ tiến hành thử nghiệm với nhiều giá trị ngưỡng khác nhau để chọn ra một ngưỡng thích hợp. Sau khi xây dựng được đồ thị liên kết, ta có được hình vẽ trực quan cấu trúc của văn bản. Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách chọn ra các câu phù hợp [4]. Hình 2. Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) Hình bên đây là đồ thị liên kết được xây dựng cho văn bản Text(16).txt trong tập văn bản thử nghiệm. Trong bước xây dựng đồ thị liên kết, mỗi câu sẽ được coi như một vectơ trong không gian Euclide nhiều chiều. Ở đây, chúng tôi sử dụng cách biểu diễn tf-idf [8] để biểu diễn các vectơ. Giả sử văn bản cần tóm tắt có n câu được đánh số là sent1, sent2, ..., sentn và m từ t1, t2, ..., tm, gọi nij là số lần xuất hiện của từ trong câu. Mỗi thành phần thứ i của vector văn bản sentj được tính như sau: sentij = TF (ti, sentj) × IDF (ti) (1) trong đó: - i = 1, m, j = 1, n - Giá trị TF (ti, sentj)được tính bằng ln số lần xuất hiện số từ: (2) TF (ti, sentj) = { 0 ifnij = 0 1 + ln(1 + lnnij) ifnij > 0 (2) Gọi S là tập hợp các câu và Sti là tập các câu có chứa từ ti. S = n∑ j=1 sentj (3a) 157 Lê Quý Tài Sti = {sentj |nij > 0} (3b) - Giá trị IDF (ti) được tính bằng hàm logarit: IDF (ti) = log 1 + |S| |Sti | (4) Sau khi vector hoá các câu trong văn bản, ta tính độ tương tự giữa từng cặp câu với nhau theo công thức tính độ tương đồng Cosine đã nêu ở trên. Khi đó, độ tương tự giữa 2 câu senti và sentj bất kì được tính như sau: sim(senti, sentj) = m∑ k,l=1 sentki sent l j√ m∑ k=1 sentki √ m∑ l sentlj (5) Tiếp đó, ta xây dựng đồ thị liên kết giữa các câu trong văn bản. Đồ thị được biểu diễn bằng một ma trận D như sau: D(senti, sentj) = { 0ifsim(senti, sentj) < threshold sim(senti, sentj)ifsim(senti, sentj) >= threshold (6) Trong đó: threshold là một ngưỡng được cho trước và được tính toán bằng thực nghiệm đối với các loại văn bản. Trong thử nghiệm này của chúng tôi, ngưỡng threshold = 0, 2. 2.5. Sinh văn bản tóm tắt Giả sử văn bản cần tóm tắt có độ dài là p% độ dài của văn bản gốc. Chúng tôi xây dựng thủ tục duyệt đồ thị để chọn ra những câu quan trọng theo 3 phương pháp: * Phương pháp 1. Dựa vào bậc của các nút trên đồ thị Bước 1: Tính bậc của mỗi nút trong đồ thị (bậc được tính bằng số liên kết của nút với các nút khác). Bước 2: Sắp xếp các nút theo thứ tự bậc giảm dần. Bước 3: Chọn ra các nút có bậc cao nhất, ngừng chọn khi số câu đủ yêu cầu. * Phương pháp 2. Duyệt theo chiều sâu Bước 1: Chọn nút bắt đầu là nút đầu tiên (theo thứ tự xuất hiện trong văn bản). Bước 2: Duyệt đồ thị theo chiều sâu bắt đầu từ nút xuất phát, chọn các nút theo số bậc cao nhất. Quá trình duyệt dừng lại khi nút cuối cùng được chọn không liên kết với nút nào về sau. Bước 3: Nếu vẫn chưa đủ số câu cần thiết, thực hiện phương pháp 1 đối với các câu còn lại chưa được chọn. * Phương pháp 3. Phân đoạn văn bản Bước 1: Tách văn bản thành những phân đoạn, căn cứ vào độ dài của văn bản và tỉ lệ nén p. 158 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa Bước 2: Áp dụng phương pháp 1 đối với từng phân đoạn, ở mỗi phân đoạn chọn ít nhất một câu. Các câu còn lại được chọn là các nút có bậc cao trong các phân đoạn. Quá trình chọn sẽ dừng lại khi đạt đủ số câu cần thiết. 2.6. Kết quả thực nghiệm * Dữ liệu thử nghiệm - Tập văn bản thử nghiệm: Gồm 50 văn bản có nội dung với nhiều lĩnh vực khác nhau, phần lớn được lấy từ website Vnexpress và một số bài báo khoa học khác. Trong đó, có 19 bài viết thuộc lĩnh vực Giáo dục, 16 bài về Xã hội, 6 bài viết về Khoa học Thường thức, 4 bài Tâm sự và 4 bài báo khoa học. Mỗi văn bản được lưu trong một tập tin được đặt tên theo thứ tự từ Text(1).txt đến Text(50).txt. Văn bản có kích thước lớn nhất là 27 KB với 179 câu, văn bản có kích thước nhỏ nhất là 1,45 KB với 9 câu. - Từ điển: + Từ điển từ dừng [9]: gồm 807 từ do website xulyngonngu.com cung cấp. + Từ điển đồng nghĩa [1]: gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa. * Phương pháp đánh giá Chúng tôi sử dụng phương pháp so sánh văn bản của hệ thống tóm tắt với văn bản do con người thực hiện tóm tắt để đánh giá hệ thống tóm tắt. Gọi hệ thống tóm tắt cần đánh giá là S, hệ thống tóm tắt do con người tóm tắt là GS, ta có bảng đánh giá mức độ liên quan như sau: Hệ thống GS Hệ thống SSố câu S chọn Số câu S không chọn Số câu GS chọn A B Số câu GS không chọn C D Khi đó, độ chính xác Precision (P) được tính như sau: P = A A+ C (7) Độ chính xác P cho biết tỉ lệ giữa các câu S chọn ra chính xác so với tổng số những câu có trong văn bản tóm tắt do S thực hiện. Độ bao phủ Recall(R) được tính như sau: R = A A+B (8) Độ bao phủ R cho biết tỉ lệ giữa các S chọn ra chính xác so với tổng số câu trong văn bản do GS thực hiện. Độ đo F : là tiêu chí đánh giá chung cho kết quả tóm tắt của hệ thống, độ đo này là hàm điều hoà của độ chính xác, độ hồi quy và được tính như sau: 159 Lê Quý Tài F = 2PR P +R (9) Chúng tôi thử nghiệm hệ thống tóm tắt với 3 mức độ nén: 10%, 20% và 30%. Chúng tôi đã xây dựng 3 phiên bản: - Phiên bản 1: Hoàn toàn không sử dụng bộ tách từ, các từ được tách ra căn cứ vào dấu trắng phân cách. - Phiên bản 2: Sử dụng bộ tách từ tiếng Việt để tách ra các từ. - Phiên bản 3: Sử dụng bộ tách từ tiếng Việt, kết hợp với từ điển từ dừng và từ điển đồng nghĩa. Đồng thời, để so sánh kết quả tóm tắt của hệ thống với các hệ thống khác, chúng tôi lựa chọn Microsoft Office Word 2003 làm hệ tóm tắt đối sánh (sử dụng chức năng AutoSummarize). Tập văn bản thử nghiệm trên được tóm tắt bởi con người, mỗi văn bản được tóm tắt thành 3 văn bản với mức độ nén lần lượt là 10%, 20% và 30%. Các văn bản được chuyển cho hai người tóm tắt để chọn ra các câu có ý nghĩa quan trọng. Việc lựa chọn các câu sẽ là chọn ra số thứ tự của câu đó trong văn bản gốc. * Kết quả thử nghiệm Chúng tôi đã tiến hành thử nghiệm các phiên bản với những ngưỡng khác nhau để chọn ra một ngưỡng phù hợp. Hình 3 thể hiện kết quả (tính theo giá trị hàm điều hoà) của từng phiên bản với các ngưỡng từ 0,05 đến 0,4. Hình 3. Kết quả thử nghiệm chọn ngưỡng Chúng tôi nhận thấy với ngưỡng 0,05; 0,1 và 0,2 thì chương trình tóm tắt cho kết quả khả quan nhất. Khi ngưỡng tăng dần thì giá trị hàm điều hoà lại giảm rất nhanh do khi độ tương tự giữa hai câu không đạt đến ngưỡng đó thì hai câu đó không thể được đưa vào đồ thị liên kết, từ đó hai câu này sẽ không được chọn vào văn bản tóm tắt (mà rất có thể hai câu này chứa nội dung chính và sẽ được chọn). Do đó, trong các thử nghiệm dưới 160 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa đây, chúng tôi chọn sử dụng ngưỡng 0,2 để đánh giá. Bảng 1. Bảng đánh giá kết quả tóm tắt của Microsoft Word Tỉ lệ nén Độ chính xác P Độ bao phủ R Hàm điều hoà F 10% 34 28 30,71 20% 36 30 32,73 30% 44 41 42,45 Trung bình 38 33 35,32 Đơn vị: % Bảng 2. Kết quả tổng hợp so sánh các phiên bản Phiên bản Phương pháp 1 Phương pháp 2 Phương pháp 3 P R F P R F P R F Phiên bản 1 45,67 42 43,76 44,67 43 43,82 39,67 37 38,29 Phiên bản 2 47 42 44,25 53,67 49,33 51,35 40,67 37,67 39,08 Phiên bản 3 46,33 41,67 43,88 54,67 50,33 52,41 40,67 37,67 39,11 Đơn vị: % Hình 4. Đồ thị so sánh giá trị hàm điều hoà giữa các phiên bản và phương pháp Kết quả cho thấy cả 3 phiên bản đã cho giá trị hàm điều hoà vượt trội hơn hẳn so với Microsoft Word (Word chỉ đạt trung bình 35,32%). Cụ thể: Trong phiên bản 1 giá trị hàm điều hoà đạt cao nhất chỉ là 43,82%. Đó là do trong phiên bản này chúng tôi không sử dụng bộ tách từ mà chỉ sử dung dấu cách làm căn cứ để phân tách từ. Trong phiên bản 2, giá trị hàm điều hoà đã tăng lên 51,35% do bộ tách từ đã được sử dụng, dẫn đến kết quả đánh giá độ tương đồng giữa các câu và đồ thị liên kết cũng thay đổi. Ở phiên bản 3, từ điển từ dừng và từ điển đồng nghĩa được sử dụng giúp 161 Lê Quý Tài cải thiện giá trị hàm điều hoà đạt tới 52,41%. Như vậy, việc sử dụng bộ tách từ đã cho kết quả thấy rõ và việc sử dụng thêm từ điển đồng nghĩa cũng góp phần cải thiện độ chính xác của phương pháp tóm tắt. Đồng thời, qua kết quả này chúng tôi cũng nhận thấy, trong phiên bản 3 với phương pháp 2 (phương pháp duyệt đồ thị theo chiều sâu) cho kết quả tốt nhất với giá trị hàm điều hoà đạt 52,41%. Tuy nhiên, kết quả tóm tắt còn phụ thuộc vào dạng của văn bản tóm tắt, phương pháp này có thể là tốt với dạng văn bản này nhưng cũng có thể không tốt với dạng văn bản khác. Trong thử nghiệm này, chúng tôi thấy rằng: các văn bản thuộc nhóm các bài viết về Giáo dục có giá trị hàm điều hoà cao nhất (trung bình đạt xấp xỉ 65%, cá biệt có bài đạt trên 75%); các văn bản thuộc nhóm các bài viết về xã hội đạt xấp xỉ 60%; tuy nhiên các bài viết thuộc nhóm các Bài báo khoa học và Tâm sự lại có kết quả tương đối thấp (chỉ đạt trung bình 40%). Bên cạnh đó, việc đánh giá kết quả tóm tắt cũng phụ thuộc vào phương pháp đánh giá. Ở đây, chúng tôi sử dụng phương pháp so sánh với văn bản do con người thực hiện tóm tắt nên phần nào cũng phụ thuộc vào chất lượng bản tóm tắt do người đó thực hiện. Chúng tôi đã thực hiện so sánh mức độ giống nhau giữa các văn bản tóm tắt bởi hai người và nhận thấy các văn bản tóm tắt chỉ giống nhau trung bình 80%. Do vậy, cần có những nghiên cứu tiếp theo để cải tiến và đưa ra được phương pháp cho kết quả tốt hơn với nhiều dạng văn bản. 3. Kết luận Tóm tắt văn bản là một lĩnh vực quan trọng của xử lí ngôn ngữ tự nhiên và có rất nhiều ứng dụng thực tế như tóm tắt tin tức, các văn bản khoa học, các cuốn sách một cách tự động. Bài viết này đã trình bày về việc sử dụng từ điển đồng nghĩa và cấu trúc văn bản để tóm tắt văn bản tiếng Việt. Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt chưa có dữ liệu về tiếng Việt đầy đủ: như từ điển từ đồng nghĩa, trái nghĩa, từ dừng. . . nên cần có nhiều thời gian và công sức để xây dựng và cải tiến phương pháp tóm tắt văn bản tiếng Việt để có được hệ thống tóm tắt văn bản hiệu quả. Phương pháp chúng tôi sử dụng thực nghiệm trong đề tài này mới chỉ thuộc dạng trích chọn các câu trong văn bản, cần: thử nghiệm với nhiều dạng văn bản khác nhau: bài báo khoa học, báo điện tử. . . để có thể đưa ra được các tham số cho phù hợp kết hợp với phương pháp tìm các cụm từ dấu hiệu để xác định những câu quan trọng hoặc sử dụng phương pháp phân tích cú pháp, biến đổi từ và một số kĩ thuật xử lí khác để tăng tính mạch lạc cho văn bản tóm tắt. TÀI LIỆU THAM KHẢO [1] Trần Trọng Dương, Nguyễn Quốc Khánh, Bùi Hồng Quế, Nguyễn Đình Phúc và Nguyễn Minh Châu, 2008. Từ điển đồng nghĩa và trái nghĩa tiếng Việt dành cho học sinh. Nxb Từ điển Bách khoa, Hà Nội, tr. 9-323. [2] Dang Duc Pham, Giang Chan Binh and Son Bao Pham, 2009. International Conference on Knowledge and Systems Engineering, pp.154-161. 162 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa [3] Jezek, K. and Steinberger, J., 2008. Automatic Text Summarization (The state of the art 2007 and new challenges). Znalosti, FIIT STU Bratislava, Slovakia, pp.1-12. [4] Gerard Salton, Am1t Singha, Mandar Mitra And Chris Buckley, 1997. Automatic Text Structuring and Summarization. Advances in Automatic Text Summarization. The MIT Press Cambridge, Massachusetts London, England, pp. 341-355. [5] Gerard Salton, Chris Buckley and Jame Allan, 1992. Automatic structuring of text files. Electronic Publishing. Vol. 5(1), pp. 1-17. [6] Đỗ Phúc, Hoàng Kiếm, 2006. Rút ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung. Tạp chí Công nghệ thông tin và truyền thông, Hà Nội. [7] Nguyễn Trọng Phúc, Lê Thanh Hương, 2008. Tóm tắt văn bản tiếng Việt sử dụng cấu trúc diễn ngôn. The ICT.rda conference, Hanoi, Vietnam [8] Zdravko Markov and Daniel T.Larose, 2007. Data mining the web – Uncovering patterns in Web content, structure, and usage. John Wiley & Sons Inc. Publication, New Jersey, USA. [9] Website xulyngonngu.com. ABSTRACT Using document structure and a synonym dictionary for vietnamese text summarization Text summarization is an important part of natural language processing. Currently, the methods used to summarize Vietnamese text are ineffective. In this paper, we present the use of document structure and a Vietnamese thesaurus dictionary to build a graphic link between sentences in order to summarize the text. Test results show that structural methods are used more than a Vietnamese thesaurus with the threshold value of 0.2 for best results (the average F measure is 52.41%) when using the approved method of depth-first search (DFS) based on the node degree to pick out the sentence. Summarization took place at an average speed of 8 minutes/50 documents with an average of 40 sentences/documents. 163
Tài liệu liên quan