Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)
là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với
Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi
cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát
huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài
nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên
việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do
đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây
dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV
và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn
hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc
hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài
nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn.
5 trang |
Chia sẻ: thanhle95 | Lượt xem: 544 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49
NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP
TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ
RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING
RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING
Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng;
hcphap@gmail.com; van156dnvn@gmail.com
Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)
là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với
Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi
cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát
huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài
nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên
việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do
đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây
dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV
và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn
hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc
hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài
nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn.
Abstract - Nowadays, processing Vietnamese and ethnic minority
languages is an urgent and interesting issue for many
organizations and individuals. However, the resources which are
available to the research of processing Vietnamese language as
well as some languages of minorities were stored in a discrete way.
This is the reason why the exploitation and the inheritance of these
resources meet a lot of difficulties. Therefore, the paper proposes
some measures to improve the situation. Firstly, collecting and
constructing a centralized system of scientific documents on this
field. Secondly, merging them in order to create the bigger
resources. Finally, constructing the service – oriented architecture
system which allows users to access and exploit the tools of
processing Vietnamese and minority languages effectively.
Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp;
môi trường quản lý; hợp nhất; khai thác.
Key words - process Vietnamese language; process minority
languages; collect; management environment; merge; exploit.
1. Đặt vấn đề
Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS)
là một trong những nhiệm vụ và hướng nghiên cứu quan
trọng đối với sự phát triển của ngành Công nghệ thông tin
hiện nay. Trước xu thế này, nhiều nguồn tài nguyên bao gồm
các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và
TDTTS được xây dựng và phát triển. Tuy nhiên, một trong
những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên
này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn
đến việc sử dụng và khai thác chúng trở nên rất khó khăn,
thậm chí không thể truy cập được. Thật vậy, hiện nay nhiều
tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ
về xử lý TV và TDTTS đã được công bố, nhưng chúng được
lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy
cập và nghiên cứu chúng trở nên rất khó khăn. Tương tự, dữ
liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ
liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định
dạng khác biệt của chúng cũng đã dẫn đến việc khai thác
chúng trở nên không hiệu quả. Ngoài ra, nhiều tổ chức, cá
nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và
TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các
bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng,
làm giàu thông tin nên việc sử dụng, kế thừa các công cụ
này cũng rất khó khăn và hạn chế.
Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu
quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và
TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu
và xây dựng môi trường quản lý, truy cập tài nguyên xử lý
TV và TDTTS một cách tập trung, có hệ thống. Với giải
pháp này, các nguồn tài nguyên xử lý TV và TDTTS sẽ được
tập hợp, quản lý và được tổ chức một cách có hệ thống, cho
phép việc truy cập và khai thác dễ dàng và hiệu quả hơn.
2. Tổng quan về tình hình nghiên cứu xử lý TV và
TDTTS hiện nay
Trước chủ trương, chính sách và sự quan tâm đặc biệt
của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy
tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên
cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS.
2.1. Tổng quan về các nhóm nghiên cứu xử lý TV và
TDTTS
Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử
lý TV và TDTTS, chúng ta có thể kể đến một số nhóm
nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung
tâm DATIC – Khoa Công nghệ thông tin Trường Đại học
Bách khoa và các trường thành viên của Đại học Đà Nẵng;
Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia
Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt;
Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ
Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa
Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại
học Khoa học Tự nhiên TPHCM
Các nhóm nghiên cứu trên đã thực hiện nhiều công trình
nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công
bố nhiều công trình nghiên cứu cũng như phát triển nhiều
sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10].
2.2. Tổng quan về tài nguyên xử lý TV và TDTTS
Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và
TDTTS có thể được chia thành 3 loại: tài liệu khoa học về
xử lý TV và TDTTS; Dữ liệu phục vụ xử lý TV và TDTTS;
công cụ và sản phẩm xử lý TV và TDTTS.
2.2.1. Tài liệu khoa học về xử lý TV và TDTTS
Xử lý TV và TDTTS là lĩnh vực nghiên cứu được quan
tâm hiện nay tại Việt Nam. Chính vì vậy, ngày càng có
50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
nhiều tài liệu, công trình nghiên cứu về lĩnh vực này. Theo
kết quả thống kê từ hệ thống tìm kiếm Google, hiện có
khoảng 24.500 tài liệu các loại về xử lý TV và 2.000 tài
liệu về xử lý TDTTS trên máy tính. Trong đó, đáng kể nhất
là số lượng tài liệu về xử lý tiếng Êđê (1.100 tài liệu).
So với các nguồn tài liệu nghiên cứu về lĩnh vực khác, số
lượng tài liệu nghiên cứu về lĩnh vực này còn khá khiêm tốn.
Trong khi đó, các nguồn tài liệu này lại được lưu trữ một
cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu.
Do vậy, nếu chúng ta có thể tập hợp các nguồn tài liệu
nghiên cứu này và quản lý tập trung ở một hệ thống tra cứu
dùng chung thì chắc chắn sẽ rất hữu ích cho cộng đồng
những người làm nghiên cứu về lĩnh vực này.
2.2.2. Dữ liệu phục vụ xử lý TV và TDTTS
Dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, TV
và TDTTS nói riêng rất quan trọng. Xử lý ngôn ngữ tự
nhiên là lĩnh vực nghiên cứu rất rộng, bao gồm nhiều vấn
đề xử lý khác nhau như: Tóm tắt văn bản, dịch máy, tách
đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích dữ
liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển,
đánh giá chất lượng dịch
Để phục vụ các vấn đề khác nhau trong lĩnh vực xử lý
ngôn ngữ tự nhiên nêu trên, đòi hỏi phải xây dựng nhiều
loại dữ liệu khác nhau. Có nhiều cách để phân loại dữ liệu
theo các tiêu chí, mục đích và quan điểm. Tuy nhiên, xét
về mặt tổng quan, dữ liệu phục vụ xử lý ngôn ngữ tự nhiên
chủ yếu gồm các kho ngữ liệu, dữ liệu từ điển, treebank
(ngân hàng câu được chú giải cú pháp), ontology.
a. Kho ngữ liệu TV và TDTTS
Kho ngữ liệu là loại dữ liệu quan trọng và phổ biến nhất
trong lĩnh vực xử lý ngôn ngữ tự nhiên. Kho ngữ liệu tồn
tại dưới nhiều dạng khác nhau, có cấu trúc và dịnh dạng rất
đa dạng. Hiện nay, trên thế giới đã có nhiều kho ngữ liệu,
nổi tiếng nhất phải kể đến các kho ngữ liệu EuroParl [1],
BTEC [16], ANC [18], ICE [17],
Cùng với đó, nhiều kho ngữ liệu tiếng Việt và TDTTS
cũng đã được xây dựng, đóng vai trò đáng kể trong lĩnh
vực nghiên cứu này. Một số kho ngữ liệu tiếng Việt và
TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ);
Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3],
Kho ngữ liệu dự án VLPS [5]; các kho ngữ liệu của các
trung tâm nghiên cứu DATIC, MICA; các kho ngữ liệu
tiếng dân tộc Êđê, Chăm, Khơ-me.
b. Dữ liệu từ điển TV và TDTTS
Từ điển được xem như công cụ đắc lực và cần thiết nhất
trong số các công cụ phục vụ xử lý ngôn ngữ tự nhiên trên
máy tính. Chính vì vậy, đã có nhiều từ điển TV và TDTTS
được xây dựng ở các dạng khác nhau như phần mềm độc lập,
ứng dụng web, ứng dụng trên các thiết bị cầm tay.
Một số từ điển TV và TDTTS phổ biến như Lạc Việt,
VDict.com, Babylon, VnDic, Hellochao, Google, từ điển
Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông,
từ điển Việt - Eđê
Mỗi từ điển có cơ sở dữ liệu với cách tổ chức và định
dạng dữ liệu riêng. Mặc dù tồn tại nhiều từ điển khác nhau,
nhưng mỗi từ điển chỉ gồm tập hợp từ vựng và cặp ngôn
ngữ giới hạn. Do đó, nếu chúng ta có thể hợp nhất các loại
từ điển này lại với nhau thì có thể tạo được một từ điển với
dữ liệu đầy đủ và số cặp ngôn ngữ đa dạng.
2.2.3. Công cụ và sản phẩm xử lý TV và TDTTS
Như đã đề cập ở phần trên, xử lý ngôn ngữ tự nhiên bao
gồm rất nhiều vấn đề xử lý khác nhau. Do đó, hiện nay cũng
đã tồn tại nhiều sản phẩm và công cụ xử lý TV và TDTTS
khác nhau. Trong số nhiều loại sản phẩm và công cụ xử lý
TV và TDTTS, các sản phẩm nổi bật và quan trọng gồm:
a. Các bộ mã và bộ gõ TV và TDTTS
Một trong những sản phẩm quan trọng đối với xử lý TV
và TDTTS trên máy tính cần kể đến, đó là bộ gõ TV và
TDTTS. Các bộ gõ TV phổ biến như Vietkey, Unikey,
VNKey; các bộ gõ TDTTS như bộ gõ tiếng dân tộc Bahnar,
M’nông, Êđê [11], bộ gõ TayNguyenKey [12] phục vụ cho
việc soạn thảo 6 loại chữ viết của 6 dân tộc thiểu số là Êđê,
Jơrai, Bahnar, Sê đăng, Kơ Ho và Mơ Nông.
Nổi bật hơn, đó là nỗ lực đưa bộ mã TV vào bảng mã
Unicode cũng như việc tích hợp bàn phím ảo TV vào các hệ
điều hành máy tính và điện thoại di động hiện nay.
b. Các công cụ hỗ trợ chuyển đổi TV và TDTTS
Các công cụ hỗ trợ chuyển đổi TV và TDTTS có thể kể
đến gồm các hệ thống từ điển và các hệ thống dịch tự động.
Như đã đề cập ở phần trên, hiện nay có nhiều hệ thống
từ điển với số lượng từ và cặp ngôn ngữ khác nhau. Các từ
điển phổ biến hiện nay có thể kể đến:
Lạc Việt từ điển: là hệ thống từ điển TV rất phổ biến
ở cả hai dạng phần mềm cài đặt trên máy tính và phiên bản
web, gồm 300.000 từ và cụm từ với 5 cặp ngôn ngữ Viêt-
Anh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung.
Từ điển VDict.com: là hệ thống từ điển TV trực tuyến
khá phổ biến, gồm khoảng 400.000 từ với các cặp ngôn
ngữ như Việt-Anh, Việt-Pháp, Việt-Hán.
Từ điển VnDic.net: là hệ thống từ điển TV trực tuyến khá
lớn, gồm gần 400.000 từ và cụm từ với nhiều cặp ngôn ngữ.
Bên cạnh các từ điển TV và tiếng nước ngoài, hiện nay
cũng đã có một số từ điển TV – tiếng dân tộc thiểu số ở
Việt Nam như từ điển Việt-Eđê, Việt-Chăm, Việt-
KhmerTuy nhiên, đa số các từ điển này ở dạng phần
mềm trên máy tính, chưa được chia sẽ sử dụng phổ biến
như các hệ thống từ điển trực tuyến.
Cùng với các từ điển TV và TDTTS là các hệ thống
dịch tự động. Mặc dù các hệ thống dịch tự động TV hiện
nay có chất lượng rất thấp, tuy nhiên chúng vẫn có ích nhất
định đối với người sử dụng. Một số hệ thống dịch tự động
có hỗ trợ TV như:
Hệ thống dịch của Google: Đây là hệ thống dịch tự
động lớn nhất hiện nay, với số lượng 90 ngôn ngữ, trong
đó có TV.
Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang
tiếng Anh tương đối tốt.
Ngoài ra, còn có các hệ thống như EVTrans,
HelloChao cho phép dịch TV sang tiếng Anh.
c. Các công cụ xử lý văn bản TV khác
Trong số các công cụ xử lý TV, có thể kể đến nhóm các
công cụ sau:
Công cụ tách đoạn văn bản TV
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 51
VnTokenizer là công cụ viết bằng Java dựa trên kĩ
thuật so khớp tối đa, kết hợp sử dụng biểu thức chính quy.
Độ chính xác trung bình hệ thống đạt được là gần 94%[9].
PVnSeg là công cụ viết bằng Perl, cũng sử dụng kĩ
thuật so khớp tối đa và các biểu thức chính quy tương tự
như vnTokenizer. Điểm khác là hệ thống này sử dụng thuật
toán quay lui để tăng hiệu quả. Chương trình không xử lí
nhập nhằng mà chỉ chọn phương án ngẫu nhiên. Độ chính
xác trung bình hệ thống đạt được là gần 97%[9].
JVnSegmenter là công cụ viết bằng Java, sử dụng
cách tiếp cận khác: mô hình hoá bài toán tách từ thành bài
toán gán nhãn, trong đó mỗi âm tiết sẽ được gán một trong
ba nhãn (BW - bắt đầu từ, IW – trong từ, và O - loại khác),
sau đó sử dụng một phương pháp học máy để thực hiện
nhiệm vụ gán nhãn. Độ chính xác trung bình hệ thống đạt
được khi thực hiện phương pháp đánh giá chéo trên tập dữ
liệu tách từ mẫu nhỉnh hơn 95% [9], [5], [6].
Hình 1. Cấu trúc các thành phần của JvnTagger
Công cụ phân loại từ TV
Phân loại từ nhằm xác định từ loại cho các từ trong văn
bản. Phần mềm JvnTagger cho phép gán nhãn từ loại TV
được xây dựng dựa trên các phương pháp học máy thống
kê MaxEnt, CRFs và được viết bằng Java.
Công cụ phân tích cú pháp TV
Phân tích cú pháp nhằm giúp cho máy tính xác định được
các thành phần của câu, từ đó máy tính có thể hiểu văn bản
được đưa vào. Phần mềm phân tích cú pháp TV BKParser
sử dụng văn phạm HPSG (Head-Driven Phrase Structure
Grammar, Pollard and Sag, 1994). Phần mềm BKParser
dưới dạng mã nguồn mở để người dùng có thể xây dựng ứng
dụng hay tích hợp ứng dụng trên đó dễ dàng [5].
Ngoài các nhóm tài nguyên xử lý TV và DTTS nêu trên,
còn có một số nguồn tài nguyên đang được phát triển hoặc
trong giai đoạn thử nghiệm gồm:
Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ
cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode
có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn
theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về
chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v
cho đồng bào các dân tộc thiểu số Việt Nam [10].
Kho ngữ liệu song ngữ Việt – Ê đê trong xử lý tiếng
Ê đê [14].
Từ điển điện tử phương ngữ Jrai – Việt của Trung tâm
CNTT Sở Thông tin và Truyền thông Gia Lai và Công ty
TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng.
Từ điển này cho phép chúng ta tra nghĩa theo từ.
Hệ thống dịch tự động Jrai – Việt và Việt – Jrai. Hệ
thống này được xây dựng bằng phương pháp dịch máy dựa
trên xác suất thống kê [9].
Công cụ tách từ tự động trong tiếng Jrai. Công cụ này
làm tiền đề để tiếp tục nghiên cứu và xây dựng các hệ thống
xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin [8].
Kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu
văn hóa dân tộc Cơ Tu [13].
3. Ý tưởng và giải pháp xây dựng môi trường quản lý
tập trung tài nguyên xử lý TV và TDTTS
Như trình bày ở trên, nguồn tài nguyên xử lý TV và
TDTTS đã được quan tâm xây dựng và phát triển. Nhiều
tài liệu khoa học đã được công bố, nhiều nguồn dữ liệu đã
được xây dựng cũng như nhiều loại công cụ, sản phẩm về
xử lý TV và TDTTS đã được phát triển. Vấn đề là việc khai
thác các nguồn tài nguyên này chưa thật sự hiệu quả, bởi lẽ
chúng đang được lưu trữ và quản lý một cách phân tán cùng
với sự đa dạng về cấu trúc, định dạng của chúng. Do đó, để
có thể khai thác hiệu quả hơn nữa các nguồn tài nguyên
này, ý tưởng và giải pháp trước hết là tập hợp các nguồn
tài nguyên này để xây dựng một môi trường quản lý và truy
cập tập trung, sau đó tiến hành hợp nhất để cho phép việc
quản lý và truy cập chúng theo cùng một cách thức đồng
nhất và hiệu quả. Để xây dựng được môi trường như vậy,
chúng ta cần xây dựng 3 giải pháp cụ thể như sau:
Trước hết, đối với nguồn tài nguyên là các tài liệu khoa
học về lĩnh vực xử lý TV và TDTTS: Giải pháp cụ thể đối với
loại tài nguyên này là tìm kiếm, tập hợp và xây dựng hệ thống
quản lý tập trung các tài liệu khoa học về lĩnh vực này. Trong
đó, cần phải tổ chức, phân loại tài liệu theo từng chủ đề, lĩnh
vực hẹp cũng như cung cấp các chức năng hiệu quả nhằm hỗ
trợ một cách thuận lợi cho người dùng khai thác và nghiên cứu
tài liệu. Cụ thể, cần xây dựng giải pháp tổ chức dữ liệu một
cách thông minh, phân loại cũng như nhóm các tài liệu theo
lĩnh vực hẹp, chủ đề, tác giả, cần nghiên cứu trích rút đặc
trưng từ các tài liệu để tổ chức dữ liệu theo hướng ngữ nghĩa,
cần cung cấp các chức năng tìm kiếm thông minh, cũng như
các chức năng tóm tắt văn bản, thống kê Giải pháp này được
được thể hiện qua mô hình dưới đây:
Hình 2. Mô hình tìm kiếm, tập hợp và xây dựng hệ thống quản
lý tập trung các tài liệu khoa học
Bước 1: Nhận diện website xử lý TV và TDTTS. Từ
các website trên Internet, ta sử dụng PHPCrawl (là một thư
viện phát triển cho việc crawling/spidering websites viết
bằng ngôn ngữ PHP) để lấy dữ liệu tự động website, tiến
hành nhận diện website và tài liệu cần tập hợp. Thư viện này
được cung cấp tại địa chỉ: Bước
này ta có thể hình dung như là đang xây dựng một con robot
Dịch vụ Dữ liệu
52 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân
có thể tự động dò tìm trong vô số website thông qua từ khóa
trong metadata của trang web nếu có, sau đó nhận dạng đâu
là website xử lý TV và TDTTS.
(a) Lấy URL đầu vào do người dùng nhập kèm theo
thông tin về độ sâu. Độ sâu cho phép xác định số lần tìm
kiếm và xử lý các URL trong mã nguồn của trang web lấy
được, tính từ URL gốc.
(b) Từ URL đã có, lấy mã nguồn HTML của trang web
tương ứng.
(c) Tìm các URL trong mã nguồn HTML vừa tìm được.
(d) Chọn và lưu trữ các URL có chứa từ khóa hoặc file
định dạng cần tìm.
Bước 2: Nhận diện tài nguyên và trích xuất tài
nguyên. Xử lý mỗi URL ở Bước 1 tìm được. Mỗi URL
trong HTML đều chứa trong thẻ liên kết với cú pháp:
Nội dung hiển thị
Có nhiều giải pháp để lấy được tất cả URL trong mã
nguồn trang web:
Sử dụng biểu thức chính quy (regular expression) để
quét tất cả các đoạn văn bản có cú pháp như vừa nêu, chẳng
hạn biểu thức chính quy có dạng sau:
]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^
Biểu thức này sẽ lấy được các liên kết URL nằm trong thẻ .
Sử dụng thư viện yii- Gtreetable và dùng Json để truy vấn.
yii-Gtreetable là một thư viện hỗ trợ phân tích cú pháp HTML
dựa trên việc xây dựng bộ đọc/ghi thông tin cây DOM. Thư
viện được cung cấp tại địa https://github.com/gilek/yii-
gtreetable. Các URL sẽ được lấy thông qua phương thức:
$crawler->setURL($model->link). Yêu cầu tài nguyên là các
file có thể download được như là: *.rar, *.zip, *.pdf, *.doc,
Các file này được chứa đựng trong thẻ <a
href=""> với thuộc
tính "href". Vì vậy, có thể lấy được nội dung file trong thuộc
tính "href".
Bước 3: Hiển thị
Xây dựng giao diện tìm kiếm và cung cấp thông tin.
Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu
đã được tổng hợp theo từng chủ đề, và có thể trao đổi, bình
luận về các tài liệu quan tâm.
Thứ hai, đối với nguồn tài nguyên là dữ liệu phục vụ
xử lý TV và TDTTS: Giải pháp cụ thể đối với loại tài
nguyên này là tập hợp và tìm cách hợp nhất chúng để tạo
nên các nguồn dữ liệu lớn hơn. Cụ thể, các kho ngữ liệu,
các cơ sở dữ liệu từ điển sẽ có định dạng, cấu trúc và cặp
ngôn ngữ khác nhau. Do đó, để cho phép việc khai thác và
sử dụng các nguồn tài nguyên này một cách hiệu quả, giải
pháp cần thiết là hợp nhất chúng lại với nhau, có nghĩa là
tìm cách trộn, liên kết các nguồn dữ liệu này lại với nhau
để tạo thành một nguồn dữ liệu đa ngữ, đồng nhất về mặt
định dạng và cấu trúc. Một cách cụ thể, cần phải nghiên
cứu định dạng và cấu trúc của mỗi loại tài nguyên này, tìm
ra được những đặc điểm chung và riêng, để từ đó đề xuất
một cấu trúc và định dạng chuẩn. Sau khi có được cấu trúc
và định dạng chuẩn thì việc xây dựng một nguồn tài nguyên
đồng nhất từ việc tập hợp và chuyển đổi các nguồn tài
nguyên đang tồn tại rất dễ dàng và thuận lợi.
Thứ ba, đ