Đề tài So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt

Gán nhãn từloại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệthống xửlý ngôn ngữtựnhiên. ỞViệt Nam đã có một sốnghiên cứu vềbài toán này, tuy nhiên kết quả đạt được vẫn còn ởmức khiêm tốn so với nhiều ngôn ngữkhác. Việc tìm hiểu các phương pháp gán nhãn từloại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quảtốt hơn cảtrong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từloại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơhỗtrợ (SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng dụng thành công trong rất nhiều bài toán xửlý ngôn ngữtựnhiên. Thực nghiệm áp dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quảthu được trên các dữliệu thực nghiệm cho thấy mô hình CRF có độchính xác cao nhất và thời gian gán nhãn tốt nhất, trong khi đó SVM và MEM có ưu thếhơn vềthời gian huấn luyện. Kết quảnày khá tương đồng với kết quảcủa một vài nghiên cứu tương đương trong các ngôn ngữkhác và đã khẳng định được tính khảthi của ba mô hình này cho tiếng Việt.

pdf68 trang | Chia sẻ: nhungnt | Lượt xem: 2713 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Đề tài So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh HÀ NỘI - 2009 i LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai. Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu khoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học tập. Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này. Sinh viên Lê Hoàng Quỳnh ii TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn cả trong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ (SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm áp dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên các dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kết quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt. iii Mục lục MỞ ĐẦU.........................................................................................................................1 Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI...........................3 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3 1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4 1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6 1.3. Tập nhãn từ loại....................................................................................................7 1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới .............................................................................................7 1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10 Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI .........13 2.1. Gán nhãn bằng phương pháp dựa trên hệ luật ...................................................13 2.2. Các phương pháp dựa vào học máy ...................................................................15 2.3. Phương pháp lai..................................................................................................19 2.4. Các nghiên cứu liên quan tại Việt Nam .............................................................21 2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật ...........................................21 2.4.2. Các nghiên cứu dựa trên phương pháp học máy ........................................22 2.4.3. Các nghiên cứu dựa trên phương pháp lai ..................................................22 Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT .............................................................................................25 3.1. Mô hình cực đại hóa Entropy.............................................................................25 3.1.1. Khái niệm MEM .........................................................................................25 3.1.2. Nguyên lý cực đại hóa Entropy ..................................................................26 3.1.3. Mô hình xác suất.........................................................................................26 3.1.4. Hạn chế của mô hình MEM........................................................................27 3.2. Mô hình trường ngẫu nhiên điều kiện................................................................28 3.2.1. Khái niệm CRF ...........................................................................................28 iv 3.2.2. Hàm tiềm năng của các mô hình CRF ........................................................30 3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. .............................................31 3.2.4. Ước lượng tham số cho các mô hình CRF..................................................33 3.3. Mô hình máy véc tơ hỗ trợ .................................................................................33 3.3.1. Khái niệm và cơ sở của phương pháp SVM...............................................33 3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại .......................36 3.3.3. Huấn luyện SVM ........................................................................................37 Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ ..........39 4.1. Mô tả thực nghiệm .............................................................................................39 4.1.1. Phần cứng....................................................................................................39 4.1.2. Phần mềm....................................................................................................39 4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại.....................................................40 4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị.........................................43 4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại ....................43 4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy....................................................45 4.3. Hệ thống gán nhãn từ loại cho tiếng Việt ..........................................................45 4.3.1. Gán nhãn từ loại dựa vào thông tin về từ....................................................47 4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị ................................................47 4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm.....................48 4.4.1. Phương pháp thực nghiệm ..........................................................................48 4.4.2. Các tham số đánh giá thực nghiệm.............................................................48 4.5. Kết quả thực nghiệm ..........................................................................................48 4.5.1. Kết quả của năm lần thực nghiệm ..............................................................48 4.5.2. Tổng hợp kết quả ........................................................................................51 4.5.3. Đánh giá và thảo luận .................................................................................53 KẾT LUẬN ..................................................................................................................55 v Danh mục hình vẽ Hình 1. Các bước xử lý ngôn ngữ tự nhiên ............................................................4 Hình 2. Một số tập nhãn từ loại cho Tiếng Anh .....................................................8 Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh ....13 Hình 4. Đồ thị có hướng mô tả mô hình HMM....................................................17 Hình 5. Mô hình tổng quát của phương pháp lai ..................................................19 Hình 6. Mô hình TBL cho tiếng Việt ...................................................................24 Hình 7. Đồ thị vô hướng mô tả CRF ....................................................................29 Hình 8. Một bước trong thuật toán Viterbi cải tiến ..............................................32 Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt.......................33 Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. ........................34 Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính.....................................................................................35 Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân......................................................................................................35 Hình 13. Hàm nhân Basis Radial..........................................................................37 Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu ............44 Hình 15. Một mô hình gán nhãn từ loại tiếng Việt...............................................46 Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất ....52 Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai ......52 vi Danh mục bảng biểu Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận................ viii Bảng 2. Tổng kêt số nhãn có thể có của các từ trong tập từ vựng Brown..............7 Bảng 3. Tập nhãn từ loại Penn Treebank ...............................................................8 Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh.............................20 Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt..................................................42 Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng......................................................................................................................44 Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số ..........................45 Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ ...............................49 Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị .....................49 Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ ...............................50 Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị .......................50 Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ ..............................51 Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị ......................51 vii Một số thuật ngữ Anh – Việt Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt 1 Conditional Random Field CRF Miền ngẫu nhiên điều kiện 2 Hidden Markov Model HMM Mô hình Markov ẩn 3 Maximum Entropy Model MEM, MaxEnt Mô hình cực đại hóa Entropy 4 Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên 5 Part of speech tagging POS tagging Gán nhãn từ loại 6 Regular expression BTCQ Biểu thức chính quy 7 Rule-based tagger Bộ gán nhãn dựa trên luật 8 Transformation-Based Learning TBL Phương pháp học dựa trên chuyển đổi 1 MỞ ĐẦU Gán nhãn từ loại cho một văn bản tức là xác định từ loại chính xác cho các từ trong văn bản đó. Đây là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác, tuy nhiên các nghiên cứu về bài toán này ở Việt Nam vẫn còn ở giai đoạn ban đầu nên nhu cầu về cả lý thuyết và ứng dụng đều còn rất lớn. Đối với các văn bản tiếng Việt, việc gán nhãn từ loại gặp phải nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất. Ý thức được tầm quan trọng và nhu cầu thực tiễn cũng như những khó khăn của bài toán gán nhãn từ loại, nghiên cứu trong khóa luận phục vụ đồng thời hai mục đích: Thứ nhất, lựa chọn một tập đặc trưng phù hợp với tính chất của tiếng Việt và có thể sử dụng cho các phương pháp học máy khác nhau. Thứ hai, áp dụng ba phương pháp học máy cho kết quả khá tốt ở các ngôn ngữ khác vào bài toán gán nhãn từ loại tiếng Việt, từ đó đưa ra nhận xét về kết quả, độ phù hợp của từng phương pháp với các ứng dụng thực tế cũng như góp phần đánh giá chất lượng của tập đặc trưng đã xây dựng. Thực nghiệm trên các văn bản tiếng Việt áp dụng ba mô hình học máy đều cho kết quả khá khả quan, tùy vào các đặc trưng riêng của mỗi mô hình mà thời gian xử lý cũng như độ chính xác có những chênh lệch nhất định. Các vấn đề được giải quyết trong khóa luận sẽ đóng góp một phần hữu ích trong việc lựa chọn phương pháp thích hợp giải quyết bài toán, để từ đó phục vụ cho việc tiến hành các nghiên cứu ở mức cao hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản … Khóa luận được tổ chức thành bốn chương chính với nội dung cơ bản như sau: Chương 1: Khái quát về bài toán gán nhãn từ loại. Chương 1 đưa ra khái niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên. Cùng với đó, việc phân tích các vấn đề cơ bản của bài toán và việc xây dựng tập nhãn từ loại cũng là nội dung quan trọng mà chương này đề cập tới. Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại. Trình bày một số hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại như phương pháp thủ công, các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai. So với hướng tiếp cận thủ công có nhược điểm là tốn kém về mặt thời gian, công sức và không khả chuyển, các phương pháp học máy thường được đánh giá cao hơn. Chương 2 này cũng giới thiệu một số nghiên cứu có liên quan đến bài toán gán nhãn từ loại cho tiếng Việt trong những năm gần đây. Chương 3. Ba mô hình học máy áp dụng cho bài toán gán nhãn từ loại tiếng Việt. Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt khi áp dụng cho tiếng Việt là MEM, CRF và SVM. Chương 3 đặt nền tảng lý thuyết cho phần thực nghiệm của khóa luận. Chương 4: Thực nghiệm áp dụng ba mô hình học máy cho bài toán gán nhãn từ loại tiếng Việt và đánh giá kết quả. Chương này trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao gồm việc lựa chọn tập đặc trưng phù hợp cho tiếng Việt và áp dụng ba mô hình học máy MEM, CRF và SVM để giải quyết bài toán gán nhãn từ loại tiếng Việt. Từ kết quả đạt được, tiến hành đối chiếu, so sánh và đưa ra một số nhận xét về ưu, nhược điểm của các mô hình cũng như độ phù hợp của chúng đối với bài toán gán nhãn từ loại tiếng Việt. Phần kết luận tóm lược các kết quả đã đạt được và đóng góp của khóa luận, đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới. 3 Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI Chương 1 giới thiệu về bài toán gán nhãn từ loại cùng với vai trò, ứng dụng của nó trong các hệ thống xử lý ngôn ngữ tự nhiên. Cùng với đó, chương này cũng phân tích những khó khăn mà bài toán gán nhãn từ loại cần phải giải quyết và vấn đề xây dựng tập nhãn từ loại. 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên 1.1.1. Khái niệm về bài toán gán nhãn từ loại Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ [2, 7]. Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước. Bài toán có thể được mô tả như sau:  Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.)  Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:, đối với chuỗi từ “Book that flight.”, thì nhãn thích hợp tương ứng cho từng từ sẽ là Book/VB that/DT flight/NN./.) Quá trình gán nhãn từ loại thường được chia làm 3 bước [2, 3, 4]:  Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao. 4  Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét.  Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill) và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, … 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP Hình 1. Các bước xử lý ngôn ngữ tự nhiên Morphology Syntax Semantics Discourse Pragmatics Knowledge Bill was about to be impeached, and he called his lawyer ADDITIVE or RESULT? Could you pass me the salt? Yes or pass it? Five man lif a piano / a chair? Untieable Knot (un)tieable or untie(able)? walks Noun or Verb? rice flies (NP (NN rice) (NNS files)) or (S (NP (NN rice) (VP (VBZ files))) bank river or financial? cottog bag PART-WHOLE or PURPOSE? 5 Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn n