Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp tiếng Việt

Tóm tắt: Báo cáo này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF. Mô hình vnSynAF là một lược đồ mã hóa dựa trên định dạng XML (eXtended Markup Language) có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Báo cáo cũng giới thiệu một công cụ đồ hoạ trợ giúp gán nhãn cây cú pháp và phát triển treebank tiếng Việt.

10 trang | Chia sẻ: thanhle95 | Lượt xem: 843 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

XÂY DỰNG SƠ ĐỒ MÃ HÓA VÀ CÔNG CỤ TRỢ GIÚP GÁN NHÃN CÚ PHÁP TIẾNG VIỆT Phan Thị Hà1, Nguyễn Thị Minh Huyền2, Lê Hồng Phương2, Lưu Văn Tăng2 1 Học viện Công nghệ Bưu chính Viễn Thông Hà Nội 2 Đại học Khoa học Tự nhiên Hà Nội Tóm tắt: Báo cáo này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF. Mô hình vnSynAF là một lược đồ mã hóa dựa trên định dạng XML (eXtended Markup Language) có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Báo cáo cũng giới thiệu một công cụ đồ hoạ trợ giúp gán nhãn cây cú pháp và phát triển treebank tiếng Việt. 1. Giới thiệu Kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp và được biểu diễn dưới dạng cấu trúc cây phân cấp là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ (XLNN) tự nhiên. Kho văn bản này được gọi là treebank. Treebank có nhiều ứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lí ngôn ngữ tự động, các phần mềm dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp Các hệ thống treebank cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa đã được xây dựng từ lâu, đối với tiếng Việt, việc xây dựng treebank đang là công việc mới bắt đầu. Trong lĩnh vực XLNN tự nhiên, nguồn tài nguyên ngôn ngữ đóng vai trò rất quan trọng trong việc nghiên cứu và phát triển các phương pháp và công cụ tự động. Việc chuẩn hoá vấn đề mã hoá tài nguyên ngôn ngữ nói chung và mã hoá treebank nói riêng nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác tài nguyên là vấn đề rất quan trọng. Gần đây một số dự án xây dựng kho ngữ liệu trên thế giới đưa vấn đề chuẩn hóa lên hàng đầu. Đặc biệt là dự án European eContent LIRICS đã và đang xử lý quá trình chuẩn hóa quốc tế về chú giải tài nguyên cú pháp - SynAF (Syntactic Annotation Framework). Mô hình SynAF được thiết kế dựa vào cả hai cấu trúc phụ thuộc và cấu trúc thành phần, bên cạnh đó thì danh mục dữ liệu (danh sách bộ nhãn gán cho các nút, các cung) trên sơ đồ cũng được xây dựng theo một chuẩn để dễ dàng sử dụng, có thể ánh xạ, tham chiếu sang bộ danh mục của các nước khác nhau một cách dể dàng. Có hai cách thường được sử dụng để mã hóa cây cú pháp. Cách thứ nhất đơn giản, sử dụng cấu trúc dấu ngoặc. Theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu ngoặc bao quanh. Ngay sau dấu ngoặc đầu tiên là ký hiệu ngữ pháp và các thuộc tính (nếu có), tiếp theo là danh sách các thành phần cú pháp con. Cách thứ hai là sử dụng lược đồ mã hóa XML (eXtended Markup Language). Cách này đã được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự án về xử lý ngôn ngữ của Châu Âu [4]. Vấn đề xây dựng kho ngữ liệu chuẩn cho tiếng Việt đang là vần đề cấp thiết, đây là một trong các mục tiêu chính của đề tài Nhà nước về xử lí ngôn ngữ và tiếng nói tiếng Việt giai đoạn 2007-2009. Việc xây dựng công cụ hỗ trợ cho việc mã hóa XML theo chuẩn hóa quốc tế cũng là một nhiềm vụ cần thiết trong việc xây dựng treebank cho tiếng Việt (VNTreebank). Trong báo cáo này chúng tôi giới thiệu về xây dựng sơ đồ mã hóa và bộ công cụ đồ họa hỗ trợ cho các nhà xây dựng VNTreebank trong việc mã hóa tự động các cây cú pháp theo một hệ mã XML tương thích với chuẩn SynAF của tổ chức ISO. 2. Mô hình SynAF 2.1. Một số mô hình mã hoá cấu trúc cú pháp Để mã hoá cấu trúc cú pháp của một câu trong ngôn ngữ, UPenn Treebank sử dụng lược đồ mã hoá ngoặc đơn để phân cấp cấu trúc của câu, cùng với chú giải ngữ pháp và thuộc tính cần sử dụng. Ví dụ, câu "Pierre Vinken, 61 years old, will join the board as the board as a nonexecutive director Nov. 29" được mã như sau: ( (S (NP-SBJ (NP Pierre Vinken) , (ADJP (NP 61 years) old) ,) (VP will (VP join (NP the board) (PP-CLR as (NP a nonexecutive director)) (NP-TMP Nov. 29))) .)) Cấu trúc đồ hoạ của câu được cho trong Hình 1. Hình 1. Cấu trúc cú pháp của một câu trong UPenn Treebank Prague Dependency Treebank chú giải cú pháp dựa trên mô hình hai lớp: lớp cấu trúc thành phần và lớp cấu trúc phụ thuộc. Prague Dependency Treebank sử dụng lược đồ mã hoá PML (The Pargue Markup Language) - một định dạng mã hoá dữ liệu mở dựa trên XML [9]. Các cấu trúc cây phụ thuộc và cây thành phần được mã bằng hai lớp tương ứng. Ví dụ, câu "John loves Mary. He told her this Friday" có chú giải phụ thuộc và thành phần với PML như sau: Chú giải phụ thuộc Chú giải thành phần <annotation xmlns=" <annotation xmlns=" pml/"> Jan Novak Sun May 1 18:56:55 2005 Pred loves Subj John Obj Mary Pred told Subj He Obj her Adv Friday Attrib this pml/"> John Smith Sun May 1 18:56:55 2005 John loves Mary He told her this Friday Ví dụ sau là biểu diễn cây chú giải cú pháp của một câu tiếng Đức và mã hóa của nó dưới dạng TIGER XML - một định dạng mã hoá treebank của tiếng Đức, một trong các tiền đề tham khảo để xây dựng định dang ISO SynAF. [5] 2.2. Mô hình SynAF Mô hình chú giải cú pháp SynAF (Syntactic Annotation Framework) là một siêu mô hình bao phủ cả hai mảng cấu trúc cú pháp phụ thuộc và cú pháp thành phần. Mô hình SynAF là là nền tảng của chú giải đa tầng, cho phép kết hợp sự chú giải dữ liệu ngôn ngữ thông qua cả hai mảng cấu trúc. Ngoài ra, SynAF còn cung cấp danh sách các hạng mục dữ liệu được chuẩn hoá quốc tế cho cho cả hai mảng cấu trúc cú pháp. Các phần tử cơ bản của mô hình SynAF gồm có:  T Nodes : Biểu diễn các nút kết của cây cú pháp, thường gồm các từ được gán nhãn hình thái cú pháp. Các nút T được xác định trên một khoảng (span), có thể là một span bội (dùng để xét các thành phần không liên tục). Các nút T được gán các nhãn từ loại thích hợp ở mức từ.  NT Nodes : Biểu diễn các nút không kết của cây cú pháp, chủ yếu chứa các nút kết thúc T và không kết thúc NT. Các nút NT cũng được xác định trên một span (bội). Chúng được sử dụng để gán nhãn ở mức cụm từ (ngữ) và mức cao hơn (mệnh đề, câu).  Edges : Biểu diễn quan hệ phụ thuộc giữa các nút (cả hai loại nút kết và không kết), đây là quan hệ nhị phân, gồm một tên nhãn và cặp nút nguồn và nút đích.  Syntactic Annotation (SA) : Biểu diễn việc áp dụng thông tin chú giải cú pháp vào đầu vào của nền chú giải hình thái-cú pháp MAF (Morphosyntactic Annotation Framework). Việc áp dụng này có thể là tự động hoặc bằng tay. Khi chú giải cú pháp được gắn vào các nút (kết hoặc không kết), nó sinh ra một nút mới (không kết) hoặc một cạnh phụ thuộc. Biểu diễn UML (Unified Modeling Language) của mô hình SynAF như Hình 2. [7] Để gán nhãn cho các T Node, NT Node, Edge người ta đã sử dụng danh sách các các nhãn từ loại và nhãn quan hệ được khuyến nghị như trong tài liệu ISO/CD/24615. 3. Mô hình SynAF cho tiếng Việt Mô hình SynAF của ISO là cơ sở tốt cho việc xây dựng mô hình chú giải cú pháp câu tiếng Việt. Dựa trên SynAF, chúng tôi đã xây dựng mô hình chú giải cú pháp câu tiếng Việt - vnSynAF. Danh mục các nhãn từ loại dùng để gán nhãn cho các nút T, NT, và các cung Edge chúng tôi dựa trên tài liệu “ Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”. [8]. Các nút T dùng để mô tả thuộc tính của mỗi đơn vị từ đầu vào (token). Các nút NT dùng để biểu diễn các thành phần không kết thúc như từ loại, cụm từ, nhãn qui ước cho các dấuCác cung (edge) dùng để liên kết giữa các nút, biểu diễn chức năng của một thành phần cú pháp, cho biết vai trò của nó trong thành phần cú pháp mức cao hơn, nhờ đó giúp chúng ta biết được quan hệ ngữ pháp giữa các nút, như là chủ ngữ, vị ngữ, tân ngữ Khi đưa thông tin chú giải vào sơ đồ chú giải cú pháp chúng ta cũng có thể lấy trong một tài liệu có trước hoặc là xây dựng một công cụ tự động. Tiếp theo chúng tôi trình bày định dạng chú giải các nhãn cú pháp cho câu tiếng Việt theo XML tương ứng với mô hình vnSynAF. 3.1 Chú giải XML cho các nút kết thúc (T) Tất cả các nút kết thúc T được mã hóa bên trong cặp thẻ .. Trong đó mỗi một từ nguyên dạng trong câu tiếng Việt tương ứng một nút T sẽ được mã hóa bằng một thẻ thành phần : .. </terminals Mỗi thẻ thành phần bao gồm các thuộc tính: • Địa chỉ id: địa chỉ này được định nghĩa ở thuộc tính tar của cung tương ứng. • Từ nguyên dạng wordForm: đây là từ gốc nguyên dạng được lấy từ câu vào. 3.2 Chú giải XML cho các nút không kết thúc (NT) Tương ứng với một câu đầu vào sẽ có nhiều nút (theo sơ đồ biểu diễn cú pháp hình cây). Ở đây chúng tôi dùng cặp thẻ để mã hóa cho tất cả các nút NT trong cây cú pháp. Trong đó, mỗi nút NT được mã hóa bằng một cặp thẻ thành phần E ... : . . .. Mỗi thẻ thành phần bao gồm các thuộc tính: • Địa chỉ id của nút : được xác định tại phần thuộc tính tar của cung đi tới nút đó, nếu nút đó là nút gốc thì sẽ được xác định tại thuộc tính gốc (root) của thẻ đồ thị (graph) • Nhãn label của mỗi nút: Chính là nhãn của một nút (NT) được lấy trong tập nhãn cụm từ, từ loại, nhãn mệnh đề, tập nhãn qui ước. • Các thẻ thành phần để mã hóa các cung đi ra từ nút NT, tương úng với mỗi một nút có thể có nhiều thẻ thành phần . 3.3 Chú giải XML cho các cung(edges): Cung (edges) là một đoạn đi từ nút nguồn (nút NT) đến nút đích (T hoặc NT), để biểu diễn mối quan hệ phụ thuộc giữa các nút, mỗi cung được mã hóa bằng một thẻ: Mỗi thẻ bao gồm các thuộc tính: • Địa chỉ id : Được đánh tuỳ ý, tuy nhiên khi đánh địa chỉ nên dùng kí hiệu có liên quan đến nút nguồn của cung. • Nhãn label: Chính là các nhãn được lấy từ danh sách nhãn chức năng, danh sách nhãn phân loại phụ ngữ của động từ, nhãn phần tử rỗng. Có thể có những thẻ không cần có nhãn này (trong trường hợp không phải là nhãn phân loại phụ ngữ của động từ, hoặc không muốn cụ thể chi tiết hơn các thông tin đã có trong cây cú pháp). • Địa chỉ đích tar: địa chỉ đích của cung, được đánh tuỳ ý. Ngoài việc sử dụng mô hình SynAF thì việc thiết kế bộ nhãn chuẩn cho cú pháp tiếng Việt dùng để gán nhãn cho các nút kết thúc (T), không kết thúc (NT), các cung biểu diễn mối liên hệ phụ thuộc giữa các nút (edges) là điều rất cần thiết. Hình 2. Mô hình SynAF Ví dụ về việc mã một cây cú pháp bằng SynAF ... ... VP V NP D N S wants the cake John NP 4. Công cụ vnSynAF vnSynAF là bộ công cụ được xây dựng dựa trên nền tảng Eclipse, một môi trường tích hợp hỗ trợ phát triển lập trình bằng ngôn ngữ Java và phát triển các công cụ cho việc xây dựng các ứng dụng khác. SynAF có tích hợp nhiều module cho phép người sử dụng thực hiện được nhiều khả năng xây dựng, chỉnh sửa cây cú pháp một cách mềm dẻo. Với giao diện đồ hoạ giúp người sử dụng dễ dàng thao tác chỉ với một số động tác kích chuột và nhập từ bàn phím. Các khả năng thực hiện việc xây dựng, chỉnh sửa cây cú pháp nằm trong các thực đơn hoặc trên các biểu tượng của các thanh công cụ, tương tự như một chương trình vẽ đồ hoạ chuyên dụng. Chương trình SynAF cung cấp các công cụ hỗ trợ cho việc xây dựng ngân hàng kho ngữ liệu. Trong chương trình này dữ lệu đầu vào có thể được cập nhập theo các cách sau:  Câu đầu vào có thể được gõ trực tiếp từ bàn phím thông qua textbox  Câu đầu vào có thể lựa chọn từ một tệp văn bản hoặc tệp XML đã có từ trước Khi câu nhập vào thành công thì sẽ được tự động tách ra thành các từ, mỗi từ sẽ trở thành nhãn của một nút T (terminal) trong cây cú pháp. Sau đó các nhà xây dựng treebank sẽ tiếp tục chú giải cú pháp theo sơ đồ cây dựa vào mô hình SynAF nhờ các nút trợ giúp như TNode, Node, Edges để vẽ các nút T, nút NT, các cung và gán nhãn cho chúng. Chi tiết về là một số ảnh chụp màn hình cơ bản và phương pháp sử dung công cụ vẽ đồ hoạ cú pháp SynAF này có thể xem trong báo cáo kỹ thuật sản phẩm 7.3 [8]. Kết quả đầu ra sẽ là tệp các câu được mã hóa XML theo chuẩn SynAF như đã trình bày ở mục trước. TÀI LIỆU THAM KHẢO 1. Burnard L. (ed.), «User’s reference guide for the British National Corpus version 1.0», Oxford, Oxford University Computing Services, 1995. 2. Ide N., Macleod C., «The American National Corpus: A Standardized Resource of American English», in Proceedings of Corpus Linguistics 2001, Lancaster UK, 2001 3. 4. stuttgart.de/projekte/TIGER/TIGERSearch/doc/html/TigerXML.html 5. ISO/CD 24611, «Language Resource Management - Morpho-syntactic Annotation Framework», ISO TC 37 / SC 4 N225, 25th Oct 2005. 6. ISO/CD/24615, “Language Resource Management- Syntactic Annotation Framework (SynAF)” TC 37 / SC 4 N421, 22th Aug 2007. 7. Uỷ ban Khoa học Xã hội Việt Nam « Ngữ pháp tiếng Việt», NXB Khoa học Xã hội, Hanoi, 1983. 8. Các báo cáo kỹ thuật, 9. PML :