Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số

Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn.

pdf5 trang | Chia sẻ: thanhle95 | Lượt xem: 444 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING Huỳnh Công Pháp, Văn Đỗ Cẩm Vân Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; hcphap@gmail.com; van156dnvn@gmail.com Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn. Abstract - Nowadays, processing Vietnamese and ethnic minority languages is an urgent and interesting issue for many organizations and individuals. However, the resources which are available to the research of processing Vietnamese language as well as some languages of minorities were stored in a discrete way. This is the reason why the exploitation and the inheritance of these resources meet a lot of difficulties. Therefore, the paper proposes some measures to improve the situation. Firstly, collecting and constructing a centralized system of scientific documents on this field. Secondly, merging them in order to create the bigger resources. Finally, constructing the service – oriented architecture system which allows users to access and exploit the tools of processing Vietnamese and minority languages effectively. Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp; môi trường quản lý; hợp nhất; khai thác. Key words - process Vietnamese language; process minority languages; collect; management environment; merge; exploit. 1. Đặt vấn đề Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) là một trong những nhiệm vụ và hướng nghiên cứu quan trọng đối với sự phát triển của ngành Công nghệ thông tin hiện nay. Trước xu thế này, nhiều nguồn tài nguyên bao gồm các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và TDTTS được xây dựng và phát triển. Tuy nhiên, một trong những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn đến việc sử dụng và khai thác chúng trở nên rất khó khăn, thậm chí không thể truy cập được. Thật vậy, hiện nay nhiều tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ về xử lý TV và TDTTS đã được công bố, nhưng chúng được lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy cập và nghiên cứu chúng trở nên rất khó khăn. Tương tự, dữ liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định dạng khác biệt của chúng cũng đã dẫn đến việc khai thác chúng trở nên không hiệu quả. Ngoài ra, nhiều tổ chức, cá nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng, làm giàu thông tin nên việc sử dụng, kế thừa các công cụ này cũng rất khó khăn và hạn chế. Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên xử lý TV và TDTTS một cách tập trung, có hệ thống. Với giải pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được tập hợp, quản lý và được tổ chức một cách có hệ thống, cho phép việc truy cập và khai thác dễ dàng và hiệu quả hơn. 2. Tổng quan về tình hình nghiên cứu xử lý TV và TDTTS hiện nay Trước chủ trương, chính sách và sự quan tâm đặc biệt của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS. 2.1. Tổng quan về các nhóm nghiên cứu xử lý TV và TDTTS Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử lý TV và TDTTS, chúng ta có thể kể đến một số nhóm nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung tâm DATIC – Khoa Công nghệ thông tin Trường Đại học Bách khoa và các trường thành viên của Đại học Đà Nẵng; Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại học Khoa học Tự nhiên TPHCM Các nhóm nghiên cứu trên đã thực hiện nhiều công trình nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công bố nhiều công trình nghiên cứu cũng như phát triển nhiều sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]. 2.2. Tổng quan về tài nguyên xử lý TV và TDTTS Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS có thể được chia thành 3 loại: tài liệu khoa học về xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS; công cụ và sản phẩm xử lý TV và TDTTS. 2.2.1. Tài liệu khoa học về xử lý TV và TDTTS Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan tâm hiện nay tại Việt Nam. Chính vì vậy, ngày càng có 50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân nhiều tài liệu, công trình nghiên cứu về lĩnh vực này. Theo kết quả thống kê từ hệ thống tìm kiếm Google, hiện có khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài liệu về xử lý TDTTS trên máy tính. Trong đó, đáng kể nhất là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu). So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn. Trong khi đó, các nguồn tài liệu này lại được lưu trữ một cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu. Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng những người làm nghiên cứu về lĩnh vực này. 2.2.2. Dữ liệu phục vụ xử lý TV và TDTTS Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV và TDTTS nói riêng rất quan trọng. Xử lý ngôn ngữ tự nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển, đánh giá chất lượng dịch Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều loại dữ liệu khác nhau. Có nhiều cách để phân loại dữ liệu theo các tiêu chí, mục đích và quan điểm. Tuy nhiên, xét về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank (ngân hàng câu được chú giải cú pháp), ontology. a. Kho ngữ liệu TV và TDTTS Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên. Kho ngữ liệu tồn tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất đa dạng. Hiện nay, trên thế giới đã có nhiều kho ngữ liệu, nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1], BTEC [16], ANC [18], ICE [17], Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh vực nghiên cứu này. Một số kho ngữ liệu tiếng Việt và TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ); Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3], Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu tiếng dân tộc Êđê, Chăm, Khơ-me. b. Dữ liệu từ điển TV và TDTTS Từ điển được xem như công cụ đắc lực và cần thiết nhất trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên máy tính. Chính vì vậy, đã có nhiều từ điển TV và TDTTS được xây dựng ở các dạng khác nhau như phần mềm độc lập, ứng dụng web, ứng dụng trên các thiết bị cầm tay. Một số từ điển TV và TDTTS phổ biến như Lạc Việt, VDict.com, Babylon, VnDic, Hellochao, Google, từ điển Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông, từ điển Việt - Eđê Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định dạng dữ liệu riêng. Mặc dù tồn tại nhiều từ điển khác nhau, nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn ngữ giới hạn. Do đó, nếu chúng ta có thể hợp nhất các loại từ điển này lại với nhau thì có thể tạo được một từ điển với dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng. 2.2.3. Công cụ và sản phẩm xử lý TV và TDTTS Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao gồm rất nhiều vấn đề xử lý khác nhau. Do đó, hiện nay cũng đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS khác nhau. Trong số nhiều loại sản phẩm và công cụ xử lý TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm: a. Các bộ mã và bộ gõ TV và TDTTS Một trong những sản phẩm quan trọng đối với xử lý TV và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và TDTTS. Các bộ gõ TV phổ biến như Vietkey, Unikey, VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar, M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê, Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông. Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ điều hành máy tính và điện thoại di động hiện nay. b. Các công cụ hỗ trợ chuyển đổi TV và TDTTS Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể đến gồm các hệ thống từ điển và các hệ thống dịch tự động. Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống từ điển với số lượng từ và cặp ngôn ngữ khác nhau. Các từ điển phổ biến hiện nay có thể kể đến:  Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt- Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung.  Từ điển VDict.com: là hệ thống từ điển TV trực tuyến khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn ngữ như Việt-Anh, Việt-Pháp, Việt-Hán.  Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ. Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở Việt Nam như từ điển Việt-Eđê, Việt-Chăm, Việt- KhmerTuy nhiên, đa số các từ điển này ở dạng phần mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến như các hệ thống từ điển trực tuyến. Cùng với các từ điển TV và TDTTS là các hệ thống dịch tự động. Mặc dù các hệ thống dịch tự động TV hiện nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất định đối với người sử dụng. Một số hệ thống dịch tự động có hỗ trợ TV như:  Hệ thống dịch của Google: Đây là hệ thống dịch tự động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong đó có TV.  Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang tiếng Anh tương đối tốt.  Ngoài ra, còn có các hệ thống như EVTrans, HelloChao cho phép dịch TV sang tiếng Anh. c. Các công cụ xử lý văn bản TV khác Trong số các công cụ xử lý TV, có thể kể đến nhóm các công cụ sau:  Công cụ tách đoạn văn bản TV ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 51  VnTokenizer là công cụ viết bằng Java dựa trên kĩ thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy. Độ chính xác trung bình hệ thống đạt được là gần 94%[9].  PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ thuật so khớp tối đa và các biểu thức chính quy tương tự như vnTokenizer. Điểm khác là hệ thống này sử dụng thuật toán quay lui để tăng hiệu quả. Chương trình không xử lí nhập nhằng mà chỉ chọn phương án ngẫu nhiên. Độ chính xác trung bình hệ thống đạt được là gần 97%[9].  JVnSegmenter là công cụ viết bằng Java, sử dụng cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác), sau đó sử dụng một phương pháp học máy để thực hiện nhiệm vụ gán nhãn. Độ chính xác trung bình hệ thống đạt được khi thực hiện phương pháp đánh giá chéo trên tập dữ liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6]. Hình 1. Cấu trúc các thành phần của JvnTagger  Công cụ phân loại từ TV Phân loại từ nhằm xác định từ loại cho các từ trong văn bản. Phần mềm JvnTagger cho phép gán nhãn từ loại TV được xây dựng dựa trên các phương pháp học máy thống kê MaxEnt, CRFs và được viết bằng Java.  Công cụ phân tích cú pháp TV Phân tích cú pháp nhằm giúp cho máy tính xác định được các thành phần của câu, từ đó máy tính có thể hiểu văn bản được đưa vào. Phần mềm phân tích cú pháp TV BKParser sử dụng văn phạm HPSG (Head-Driven Phrase Structure Grammar, Pollard and Sag, 1994). Phần mềm BKParser dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng dụng hay tích hợp ứng dụng trên đó dễ dàng [5]. Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên, còn có một số nguồn tài nguyên đang được phát triển hoặc trong giai đoạn thử nghiệm gồm:  Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v cho đồng bào các dân tộc thiểu số Việt Nam [10].  Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng Ê đê [14].  Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng. Từ điển này cho phép chúng ta tra nghĩa theo từ.  Hệ thống dịch tự động Jrai – Việt và Việt – Jrai. Hệ thống này được xây dựng bằng phương pháp dịch máy dựa trên xác suất thống kê [9].  Công cụ tách từ tự động trong tiếng Jrai. Công cụ này làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8].  Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13]. 3. Ý tưởng và giải pháp xây dựng môi trường quản lý tập trung tài nguyên xử lý TV và TDTTS Như trình bày ở trên, nguồn tài nguyên xử lý TV và TDTTS đã được quan tâm xây dựng và phát triển. Nhiều tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã được xây dựng cũng như nhiều loại công cụ, sản phẩm về xử lý TV và TDTTS đã được phát triển. Vấn đề là việc khai thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ chúng đang được lưu trữ và quản lý một cách phân tán cùng với sự đa dạng về cấu trúc, định dạng của chúng. Do đó, để có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên này, ý tưởng và giải pháp trước hết là tập hợp các nguồn tài nguyên này để xây dựng một môi trường quản lý và truy cập tập trung, sau đó tiến hành hợp nhất để cho phép việc quản lý và truy cập chúng theo cùng một cách thức đồng nhất và hiệu quả. Để xây dựng được môi trường như vậy, chúng ta cần xây dựng 3 giải pháp cụ thể như sau:  Trước hết, đối với nguồn tài nguyên là các tài liệu khoa học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống quản lý tập trung các tài liệu khoa học về lĩnh vực này. Trong đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu tài liệu. Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một cách thông minh, phân loại cũng như nhóm các tài liệu theo lĩnh vực hẹp, chủ đề, tác giả, cần nghiên cứu trích rút đặc trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa, cần cung cấp các chức năng tìm kiếm thông minh, cũng như các chức năng tóm tắt văn bản, thống kê Giải pháp này được được thể hiện qua mô hình dưới đây: Hình 2. Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản lý tập trung các tài liệu khoa học  Bước 1: Nhận diện website xử lý TV và TDTTS. Từ các website trên Internet, ta sử dụng PHPCrawl (là một thư viện phát triển cho việc crawling/spidering websites viết bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến hành nhận diện website và tài liệu cần tập hợp. Thư viện này được cung cấp tại địa chỉ: Bước này ta có thể hình dung như là đang xây dựng một con robot Dịch vụ Dữ liệu 52 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân có thể tự động dò tìm trong vô số website thông qua từ khóa trong metadata của trang web nếu có, sau đó nhận dạng đâu là website xử lý TV và TDTTS. (a) Lấy URL đầu vào do người dùng nhập kèm theo thông tin về độ sâu. Độ sâu cho phép xác định số lần tìm kiếm và xử lý các URL trong mã nguồn của trang web lấy được, tính từ URL gốc. (b) Từ URL đã có, lấy mã nguồn HTML của trang web tương ứng. (c) Tìm các URL trong mã nguồn HTML vừa tìm được. (d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file định dạng cần tìm.  Bước 2: Nhận diện tài nguyên và trích xuất tài nguyên. Xử lý mỗi URL ở Bước 1 tìm được. Mỗi URL trong HTML đều chứa trong thẻ liên kết với cú pháp: Nội dung hiển thị Có nhiều giải pháp để lấy được tất cả URL trong mã nguồn trang web: Sử dụng biểu thức chính quy (regular expression) để quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng hạn biểu thức chính quy có dạng sau: ]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^ Biểu thức này sẽ lấy được các liên kết URL nằm trong thẻ . Sử dụng thư viện yii- Gtreetable và dùng Json để truy vấn. yii-Gtreetable là một thư viện hỗ trợ phân tích cú pháp HTML dựa trên việc xây dựng bộ đọc/ghi thông tin cây DOM. Thư viện được cung cấp tại địa https://github.com/gilek/yii- gtreetable. Các URL sẽ được lấy thông qua phương thức: $crawler->setURL($model->link). Yêu cầu tài nguyên là các file có thể download được như là: *.rar, *.zip, *.pdf, *.doc, Các file này được chứa đựng trong thẻ <a href=""> với thuộc tính "href". Vì vậy, có thể lấy được nội dung file trong thuộc tính "href".  Bước 3: Hiển thị Xây dựng giao diện tìm kiếm và cung cấp thông tin. Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình luận về các tài liệu quan tâm.  Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo nên các nguồn dữ liệu lớn hơn. Cụ thể, các kho ngữ liệu, các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp ngôn ngữ khác nhau. Do đó, để cho phép việc khai thác và sử dụng các nguồn tài nguyên này một cách hiệu quả, giải pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt định dạng và cấu trúc. Một cách cụ thể, cần phải nghiên cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm ra được những đặc điểm chung và riêng, để từ đó đề xuất một cấu trúc và định dạng chuẩn. Sau khi có được cấu trúc và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài nguyên đang tồn tại rất dễ dàng và thuận lợi.  Thứ ba, đ
Tài liệu liên quan