Tóm tắt. Hệ truy hồi thông tin có kết quả trả về càng gần với câu truy vấn của
người dùng đưa vào thì càng có độ tin cậy cao. Tuy nhiên, các hệ truy hồi thông tin
hiện nay vẫn còn trả về kết quả không như mong muốn của người dùng và hỗ trợ tốt
cho tiếng Anh; riêng với tiếng Việt thì các hệ này vẫn còn ít và không được công bố
rộng rãi các mã nguồn. Bài báo trình bày cách phát triển hệ một truy hồi thông tin
tiếng Việt dựa trên mã nguồn mở Lucene và cách xây dựng công cụ VietAnalyzer
hỗ trợ xử lí tiếng Việt.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 865 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Phát triển hệ truy hồi thông tin tiếng Việt dựa trên mã nguồn mở, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE
Interdisciplinary Science, 2013, Vol. 58, No. 1, pp. 37-45
This paper is available online at
PHÁT TRIỂN HỆ TRUY HỒI THÔNG TIN TIẾNG VIỆT
DỰA TRÊN MÃ NGUỒNMỞ
Trần Anh Tuấn và Đào Thị Thanh Loan
Khoa Ngoại ngữ - Tin học, Trường Cao đẳng Sư phạm Đắk Lắk
Tóm tắt. Hệ truy hồi thông tin có kết quả trả về càng gần với câu truy vấn của
người dùng đưa vào thì càng có độ tin cậy cao. Tuy nhiên, các hệ truy hồi thông tin
hiện nay vẫn còn trả về kết quả không như mong muốn của người dùng và hỗ trợ tốt
cho tiếng Anh; riêng với tiếng Việt thì các hệ này vẫn còn ít và không được công bố
rộng rãi các mã nguồn. Bài báo trình bày cách phát triển hệ một truy hồi thông tin
tiếng Việt dựa trên mã nguồn mở Lucene và cách xây dựng công cụ VietAnalyzer
hỗ trợ xử lí tiếng Việt.
Từ khóa: Hệ truy hồi thông tin tiếng Việt, vnIR, VietAnalyzer.
1. Mở đầu
Với sự phát triển nhanh chóng của internet, đặc biệt là world wide web, giúp cho
người dùng chia sẻ các thông tin với nhau dễ dàng hơn. Các trang web được phân bố hầu
hết ở tất cả các quốc gia, mà hầu hết các trang web gần như là thông tin ở dạng văn bản.
Mỗi tài liệu, thông tin có ngôn ngữ, văn phong, từ vựng khác nhau phụ thuộc vào nguồn
gốc quốc gia, ngôn ngữ, tác giả,... vì thế, có thể nói, thông tin trong thế giới world wide
web là rất phong phú và đa dạng. Chính sự phát triển mạnh mẽ và đa dạng này đã gây khó
khăn cho người dùng trong việc tìm kiếm thông tin liên quan đến lĩnh vực cần tìm. Để
đáp ứng được nhu cầu tìm kiếm thông tin liên quan đến lĩnh vực cần tìm của người dùng
trong kho thông tin khổng lồ, phong phú và đa dạng thì cần phải có một công cụ trợ giúp
người dùng trong quá trình tìm kiếm. Công cụ hỗ trợ người dùng trong quá trình tìm kiếm
đó chính là các máy tìm kiếm (search engine).
Hiện nay, các máy tìm kiếm được phát triển nhằm hỗ trợ người dùng trong quá trình
tìm kiếm thông tin như Google, Yahoo,... Các máy tìm kiếm này đã và đang hỗ trợ đắc
lực trong việc tìm kiếm thông tin người dùng quan tâm và kết quả có độ chính xác và độ
Received March 2, 2012. Accepted May 20, 2012.
Contact Tran Anh Tuan, e-mail address: tuanta@dlc.edu.vn
or Dao Thi Thanh Loan, e-mail address: loandtt@dlc.edu.vn
37
Trần Tuấn Anh và Đào Thị Thanh Loan
bao phủ cao. Tuy nhiên, các máy này chỉ hỗ trợ tốt cho các ngôn ngữ mà khoảng trống
là dấu hiệu để nhận dạng từ. Tiếng Việt là một trong những ngôn ngữ mà khoảng trống
không phải là dấu hiệu để nhận dạng từ [1]. Chính điều này đã làm ảnh hưởng rất lớn đến
độ chính xác và độ bao phủ tài liệu liên quan.
Mặc dù, các máy tìm kiếm này vẫn hỗ trợ cho tiếng Việt trong việc tìm kiếm thông
tin, nhưng vẫn còn nhiều thách thức như kết quả trả về chứa nhiều tài liệu mà người dùng
không quan tâm. Do đó, người dùng phải tốn nhiều thời gian trong quá trình chọn lọc
thông tin liên quan.
Hơn nữa, mã nguồn của các máy tìm kiếm như Google, Yahoo,... không được công
bố. Cũng như các máy tìm kiếm Google, Yahoo thì mã nguồn các máy tìm kiếm hỗ trợ
cho tiếng Việt cũng không được công bố. Do vậy, các tổ chức muốn sử dụng chức năng
tìm kiếm phục vụ cho mục đích riêng của mình thì hầu như đều phải tự xây dựng và phát
triển máy tìm kiếm từ đầu. Để xây dựng hoàn thiện một máy tìm kiếm thì rất mất nhiều
công sức cũng như tài chính. Một trong những giải pháp phù hợp đó là sử dụng các mã
nguồn mở về máy tìm kiếm (hoặc hệ truy hồi thông tin - Information Retrieval) đã công
bố. Hệ truy hồi thông tin khác với máy tìm kiếm là không có bộ dò tìm (web crawler) [5].
Xây dựng máy tìm kiếm/hệ truy hồi thông tin hiện nay có rất nhiều nhóm nghiên
cứu. Công trình của nhóm tác giả Đỗ Phúc và cộng sự [2] là máy tìm kiếm tiếng Việt, hỗ
trợ tìm kiếm thông tin thuộc lĩnh vực công nghệ thông tin. Máy tìm kiếm này có hỗ trợ
tìm kiếm thêm các từ hoặc cụm từ gần nghĩa với câu truy vấn ban đầu dựa vào ontology
thuộc lĩnh vực tin học. Trong công trình của mình, nhóm tác sử dụng Oracle text để đánh
chỉ mục, đây là một trong những ưu điểm của máy này. Tuy nhiên, trong quá trình tạo
kho ngữ liệu (corpus) phục vụ cho việc đánh chỉ mục, nhóm tác giả không loại bỏ các từ
trong danh sách stopword tiếng Việt, điều này có thể dẫn đến kho ngữ liệu đánh chỉ mục
có nội dung lớn. Công trình của nhóm tác giả Huỳnh Đức Việt và cộng sự [4] là hệ thống
tìm kiếm công văn tiếng Việt phát triển dựa trên mã nguồn mở Lucene. Hệ tìm kiếm này
hỗ trợ hai ứng dụng đó là: ứng dụng thứ nhất cho phép người quản trị tạo và cập nhật chỉ
mục trên máy chủ; ứng dụng thứ hai cho phép người dung tìm kiếm trên môi trường LAN
và môi trường Internet. Hệ thống tìm kiếm công văn tiếng Việt chỉ hỗ trợ các chức năng
xử lí tiếng Việt trong giai đoạn đánh chỉ mục như loại bỏ các từ loại bỏ tiếng Việt, chuẩn
hóa,... mà không đề cập đến việc xử lí tiếng Việt như tách câu, tách từ tiếng Việt trong việc
đánh chỉ mục cũng như tìm kiếm. Máy tìm kiếm VSearch của tác giả Nhữ Đình Thuần
[3] là máy hỗ trợ tiếng Việt. Máy này sử dụng VietSpider, VSearch Crawler sàng lọc, bóc
tách nội dung các trang web. VietSpider, VSearch Crawler là điểm mạnh của VSearch nên
máy này không cần nhiều đến các kĩ thuật xếp hạng (pagerank) phức tạp. Máy Vsearch sử
dụng mã nguồn mở Solr và là một máy tìm kiếm thương mại nên mã nguồn không được
công bố. Công trình Sarsarn Look của NECTEC [5,7] là máy tìm kiếm hỗ trợ tiếng Thái.
Máy này sử dụng mã nguồn mở Lucene phát triển. Để hỗ trợ cho tiếng Thái, NECTEC
xây dựng công cụ ThaiAnalyzer hỗ trợ tiền xử lí tiếng Thái. Máy đã và đang phát triển với
nhiều phiên bản khác nhau, với mỗi phiên bản thì máy được bổ sung thêm các thành phần
như tìm kiếm ngữ nghĩa dựa trên ontology, truy vấn xuyên ngữ Thái-Anh,...
38
Phát triển hệ truy hồi thông tin tiếng Việt dựa trên mã nguồn mở
2. Nội dung nghiên cứu
2.1. Sơ đồ và hoạt động của hệ truy hồi thông tin tiếng Việt
Để xây dựng hệ truy vấn thông tin tiếng Việt, chúng tôi đề xuất mô hình như Hình
1 và hệ thống tạm gọi là vnIR.
Hình 1. Mô hình hệ truy hồi thông tin tiếng Việt - vnIR
Mô hình thực hiện theo 2 giai đoạn như sau:
Giai đoạn 1: Đánh chỉ mục (Indexing)
Ở giai đoạn này, tập các tài liệu được công cụ VietAnalyzer chuẩn hóa thành tập
các tài liệu chuẩn tiếng Việt (tập tài liệu chuẩn gồm các câu ở dạng mã Unicode và không
chứa stopword tiếng Việt); các tài liệu chuẩn tiếng Việt là đầu vào của giai đoạn đánh chỉ
mục (indexing).
Các tài liệu chuẩn tiếng Việt được thực hiện bằng thuật toán chuẩn tập tin tiếng Việt.
Giai đoạn 2: Tìm kiếm và trả kết quả (Searching)
Dựa trên câu truy vấn được người dùng đưa vào, công cụ VietAnalyzer sẽ thực hiện
tách từ và chuyển sang dạng kí số. Tiếp theo, thực hiện tìm kiếm các tài liệu liên quan đến
câu truy vấn của người dùng dạng kí số.
Câu truy vấn chuyển sang dạng kí số được thực hiện bằng thuật toán Chuyển câu
tiếng Việt sang dạng kí số. Kết quả của giai đoạn này là một tập tài liệu KQ được vnIR
đánh giá ứng với câu truy vấn.
2.2. Phân tách câu và từ tiếng Việt
Phân tách câu:
Phân tách câu dựa vào dấu báo hiệu kết thúc câu (dấu hỏi, chấm than,...) hoặc dấu
chấm câu. Tuy nhiên, do tính nhập nhằng của dấu báo hiệu kết thúc câu nên việc phân
tách câu gây không ít khó khăn [1]. Hiện nay, các công trình phân tách câu sử dụng các
phương pháp: TBL, Maxium Entropy,...
39
Trần Tuấn Anh và Đào Thị Thanh Loan
Đối với tiếng Việt, các công trình phân tách câu đã được công bố của các nhóm tác
giả Nguyễn Cẩm Tú,...
Phân tách từ:
Tiếng Việt là một trong những ngôn ngữ mà khoảng trống không phải là dấu hiệu
để nhận dạng từ mà chỉ mang ý nghĩa phân tách các âm tiết với nhau [1]. Ví dụ : từ “đất
nước” được tạo ra từ 2 âm tiết “đất” và “nước”, cả 2 âm tiết này đều có nghĩa riêng khi
đứng độc lập, nhưng khi ghép lại sẽ mang một nghĩa khác.
Chính vì thế, phân tách từ tiếng Việt là một trong những giai đoạn ảnh hưởng rất
lớn đến kết quả các bài toán xử lí ngôn ngữ tự nhiên khác như phân loại văn bản, tóm tắt
văn bản,... Do vậy, bài toán này có rất nhiều nhóm nghiên cứu, công bố và kết quả có độ
chính xác ngày càng cao như công trình của nhóm tác giả Phan Thị Tươi, nhóm tác giả
Đinh Điền, nhóm tác giả Nguyễn Cẩm Tú,...
Trong bài báo này, chúng tôi sử dụng công cụ JvnTextPro của nhóm tác giả Nguyễn
Cẩm Tú [9] để thực hiện phân tách câu và từ vì công cụ có hỗ trợ mã nguồn mở.
2.3. Xây dựng công cụ hỗ trợ tiền xử lí
Hệ truy hồi thông tin có các nhiệm vụ sau: mô hình biểu diễn văn bản, thuật toán
tìm kiếm so trùng từ khóa và cơ chế lọc kết quả truy vấn [6,8]. Lucene [10] là mã nguồn
mở có đầy đủ các chức năng của một hệ truy hồi thông tin. Do vậy, chúng tôi kế thừa
toàn bộ các chức năng cũng như cấu trúc của Lucene. Tuy nhiên, Lucene không hỗ trợ
cho tiếng Việt. Do đó, cần phải có công cụ hỗ trợ tiền xử lí tiếng Việt, công cụ này được
chúng tôi xây dựng và tạm gọi là VietAnalyzer.
Công cụ VietAnalyzer gồm các chức năng như sau:
- Chức năng 1: Chuẩn hóa các tập tin sang dạng mã Unicode.
- Chức năng 2: Phân tách tài liệu thành tập các câu.
- Chức năng 3: Phân tách câu thành tập các từ.
- Chức năng 4: Loại bỏ các từ trong danh sách stopword tiếng Việt.
- Chức năng 5: Chuyển câu tiếng Việt sang câu dạng kí số.
- Chức năng 6: Chuyển câu dạng kí số sang câu tiếng Việt.
Các thuật toán hỗ trợ công cụ VietAnalyzer gồm VnFNF, VnS2DS, DS2VnS. Các
thuật toán được trình bày chi tiết như sau:
Thuật toán VnFNF hỗ trợ chức năng 1, 2, 3 và 4 của công cụ VietAnalyzer. Kết
quả thuật toán là tập các tập tin chuẩn (tập tin chuẩn gồm các câu ở dạng mã Unicode và
không chứa stopword tiếng Việt).
Thuật toán 1: Chuẩn tập tin tiếng Việt
(Vietnamese File Normal Formalize - VnFNF)
Nhập: Tập tài liệuD = {di}, i = 1..n
Xuất: Tập tài liệu D′ = {d′i}, i = 1..n gồm các tài liệu chuẩn tiếng Việt
40
Phát triển hệ truy hồi thông tin tiếng Việt dựa trên mã nguồn mở
Phương pháp:
1. Với mỗi tài liệu di thuộcD, i = 1..n
2. Chuẩn hóa di;
3. Phân tách di thành tập câu {Sj}, j = 1..m
4. Với mỗi câu Sj thuộc di
5. S ′j ⇐ V nS2DS(Sj);
6. Lưu S ′j vào d′i
7. Quay lại 4
8. Quay lại 1
9. Return D′;
Thuật toán VnS2DS hỗ trợ việc chuẩn tập tin tiếng Việt. Kết quả của thuật toán là
câu tiếng Việt ở dạng kí số.
Thuật toán 2: Chuyển câu tiếng Việt sang dạng kí số
(Vietnamese Sentence to Digital String - VnS2DS)
Nhập: s là câu tiếng Việt
Xuất: s′ là câu được chuyển từ tiếng Việt sang dạng kí số
Phương pháp:
1. Phân tách s thành tập các từ {wj}, j = 1..m
2. s′ ← φ;
3. Với mỗi từ wj thực hiện:
4. Nếu wj là stopword thì loại bỏ;
5. Ngược lại: chuyển wj sang dạng kí số và lưu vào w′j ;
6. s′ ← s′ + w′j;
7. Quay lại 3
8. Trả về s′;
Thuật toán DS2VnS hỗ trợ chức năng 6 của công cụ VietAnalyzer. Kết quả của
thuật toán là câu ở dạng tiếng Việt.
Thuật toán 3: Chuyển câu ở dạng kí số sang tiếng Việt
(Digital String to Vietnamese Sentence - DS2VnS)
Nhập: s′ là câu ở dạng kí số
Xuất: s′′ là câu được chuyển từ dạng kí số sang tiếng Việt
Phương pháp:
1. AA← {b, c, f, . . . , x, w, z}; //tập kí tự không dấu
2. s′′ ← φ; i = 1;
3. Loại bỏ các dấu gạch dưới trong s′;
4. Trong khi i nhỏ hơn chiều dài của s′:
5. Nếu kí tự ci không thuộc AA và khác rỗng thì:
6. Sao chép 3 kí tự từ vị trí thứ i và lưu vào t;
41
Trần Tuấn Anh và Đào Thị Thanh Loan
7. Chuyển t sang tiếng Việt và lưu vào t ;
8. s′′ ← s′′ + t ; i+ = 3;
9. Ngược lại: s′′ ← s′′ + ci; i++;
10. Quay lại 4;
11. Trả về s′′;
Trong đó:
- Stopword tiếng Việt: á, à, ạ, á à, a ha, a lô, à ơi,...
- Mã quy ước chuyển từ tiếng Việt sang kí số: à = a03; á = a05, ả = a07, ã = a09,
ạ = a11, ă = a13,...
Với cách biểu diễn các kí tự đặc biệt như trên thì dung lượng tập tin sau khi mã hóa
sẽ giảm đi một nửa so với cách biểu diễn ở hệ Hexa 6 kí tự như Lucene biểu diễn cho các
ngôn ngữ như Hy Lạp, Séc,...
Ví dụ minh họa:
Thuật toán VnS2DS:
- Cho câu tiếng Việt: bộ nhớ máy tính mới
- Kết quả phân tách từ gồm: bộ_nhớ; máy_tính; mới
- Các từ ở dạng kí số: bo23_nho29; ma05y_ti05nh; mo29i
- Câu ở dạng kí số: bo23_nho29 ma05y_ti05nh mo29i
Thuật toánDS2VnS:
- Câu ở dạng kí số: bo23_xu19_ly05_trung_ta25m Intel mo29i
- Kết quả câu tiếng Việt: bộ xử lý trung tâm Intel mới
2.4. Thực nghiệm
Kho ngữ liệu:
Bảng 1: Thống kê kho ngữ liệu
Kí
hiệu Nguồn tài liệu
Số lượng
(tập tin)
Dung lượng
(MB)
D3 Wikipedia tiếng Việt, Thể loại: Máy tính 92 5,8
D4
Khoa học công nghệ (Liên hiệp các hội khoa
học và kỹ thuật Tp Hồ Chí Minh), Mục làm bạn
với máy vi tính
156 6,63
D5 Thông tin công nghệ, Mục máy tính 660 46,0
D6 Tin nhanh CNTT - TT (ICT News) - Mục phầncứng 609 34,2
Hiện nay, tiếng Việt vẫn chưa có một kho ngữ liệu chuẩn như TREC được công bố.
Do đó, chúng tôi phải xây dựng một kho ngữ liệu thuộc lĩnh vực máy tính. Kho dữ liệu
được lấy từ các trang: Wikipedia tiếng Việt, Khoa học công nghệ, Thông tin công nghệ và
42
Phát triển hệ truy hồi thông tin tiếng Việt dựa trên mã nguồn mở
Tin nhanh, Công nghệ thông tin - truyền thông. Sau đó bóc tách chúng từ dạng trang web
(.html, .htm) sang dạng tập tin văn bản (.txt). Kho ngữ liệu được dùng để đánh chỉ mục
phục vụ tìm kiếm và được thống kê theo số lượng và dung lượng như ở bảng 1.
Kết quả thực nghiệm:
Bảng 2. Thống kê độ chính xác, độ bao phủ của vnIR
Kí
hiệu Câu truy vấn
Số tài
liệu tìm
được
Số tài
liệu tìm
được liên
quan
Tổng số
tài liệu
liên
quan
Độ
chính
xác P
(%)
Độ bao
phủ R
(%)
Q1 card đồ họa mới 1452 2 2 0,14 100,00
Q2 bộ nhớ máy tính 1478 18 18 1,22 100,00
Q3 màn hình tinh thể lỏng 485 7 9 1,44 77,78
Q4 card mở rộng 367 6 7 1,63 85,71
Q5 màn hình LCD 491 241 245 49,08 98,37
Q6 máy tính Dell 1471 3 3 0,20 100,00
Q7 máy chủ 46 46 706 100,00 6,52
Q8 máy tính 1470 1463 1475 99,52 99,19
Q9 bộ xử lý 1320 124 184 9,39 67,39
Q10 bộ nhớ 866 543 867 62,70 62,63
Q11 màn hình 485 464 998 95,67 46,49
Q12 CPU AMD 834 9 10 1,08 90,00
Q13 HDD box 115 3 3 2,61 100,00
Q14 mainboard Gigabyte 722 1 1 0,14 100,00
Q15 AMD 380 372 384 97,89 96,88
Q16 Asus 407 388 413 95,33 93,95
Q17 Samsung 1280 1277 1281 99,77 99,69
Q18 chipset 266 256 266 96,24 96,24
Q19 Intel 956 949 961 99,27 98,75
Q20 LAN 647 646 1349 99,85 47,89
Q21 mainboard 694 61 694 8,79 8,79
Q22 RAM 199 160 460 80,40 34,78
Q23 SATA 276 257 287 93,12 89,55
Q24 Seagate 42 40 42 95,24 95,24
Q25 CRT 12 9 12 75,00 75,00
Trung bình 54,63 78,83
Mục tiêu đặt ra của bài báo là phát triển hệ thống truy hồi thông tin tiếng Việt có
độ tin cậy. Do vậy, giá trị của độ chính xác (precision) và độ bao phủ (recall) được chọn
làm tiêu chí để đánh giá trong phần thực nghiệm. Độ chính xác và độ bao phủ được xác
định như sau [8]:
43
Trần Tuấn Anh và Đào Thị Thanh Loan
Hình 2. Thống kê độ chính xác và độ bao phủ theo câu truy vấn
Độ chính xác (P) là tỉ lệ giữa số lượng tài liệu liên quan tìm được so với số tài liệu
tìm được.
Độ bao phủ (R) là tỉ lệ giữa số lượng tài liệu liên quan tìm được so với số tài liệu
liên quan có trong kho ngữ liệu.
Tập câu truy vấn là 25 câu truy vấn được chọn từ
dap/phan-cung/để làm thực nghiệm.
Kết quả được thể hiện ở Bảng 2 và Hình 2.
Trong phần thực nghiệm chúng tôi sử dụng 14 câu truy vấn là tiếng Anh và từ viết
tắt để kiểm nghiệm độ tin cậy của công cụ VietAnalyzer nên. Độ tin cậy của công cụ
VietAnalyzer được kiểm nghiệm thông qua kết quả thực nghiệm.
Một trong những khó khăn của bài báo là kho ngữ liệu chuẩn cho tiếng Việt vẫn
chưa có. Do đó, độ chính xác và độ bao phủ của thực nghiệm có kết quả không cao. Sở dĩ
kết quả như thực nghiệm là do số tài liệu liên quan đến thông tin cần tìm còn ít và chưa
phong phú. Điều này cho thấy kho ngữ liệu cũng đóng vai trò quan trọng trong việc đánh
giá thực nghiệm.
3. Kết luận
Bài báo đã trình bày cách phát triển hệ truy hồi thông tin tiếng Việt sử dụng mã
nguồn mở Lucene. Để xây dựng hệ truy hồi vnIR cho tiếng Việt, bài báo đã sử dụng
mã nguồn mở Lucene (trong việc đánh chỉ mục và tìm kiếm) và xây dựng công cụ
VietAnalyzer hỗ trợ Lucene trong việc xử lí tiếng Việt. Kết quả thực nghiệm có độ chính
xác 54,63%, độ bao phủ 78,83%. Kết quả thực nghiệm có độ chính xác chưa cao là do
kho ngữ liệu ngữ liệu do chúng tôi xây dựng là kho ngữ liệu tĩnh và chủ quan nên số mục
tài liệu liên quan còn ít, chưa phong phú. Vì vậy, công việc tiếp theo là xây dựng kho
ngữ liệu lớn hơn và phong phú hơn trong việc đánh giá thực nghiệm chẳng hạn như sử
44
Phát triển hệ truy hồi thông tin tiếng Việt dựa trên mã nguồn mở
dụng Internet như là kho ngữ liệu trong việc đánh giá thực nghiệm và tiếp tục cải tiến
các thuật toán nhằm cải thiện độ chính xác, độ bao phủ của cho hệ truy hồi thông tin
tiếng Việt vnIR.
TÀI LIỆU THAM KHẢO
[1] Đinh Điền, 2006. Giáo trình Xử lí Ngôn ngữ tự nhiên. Nhà xuất bản Đại học Quốc
gia Tp. Hồ Chí Minh.
[2] Đỗ Phúc và cộng sự. Phát triển một hệ thống Search Engine hỗ trợ cho tìm kiếm thông
tin thuộc lĩnh vực CNTT. Trường Đại học Khoa học Tự nhiên Tp. Hồ Chí Minh.
[3] Nhữ Đình Thuần, 2011. Vsearch 1.0.
[4] Huỳnh Đức Việt, Võ Duy Thanh và Võ Trung Hùng, 2010. Nghiên cứu ứng dụng mã
nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản. Tạp chí
Khoa học và Công nghệ, Đại học Đà Nẵng, Số 4 (39) 2012, trang 307-316.
[5] Choochart Haruechaiyasak. Information Retrieval and Search Engine. Research and
Development on Information, National Electronics and Computer Technology Center.
[6] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schu¨tze, 2008.
Introduction to Information Retrieval. Cambridge University Press, Chapter 9,
pp. 177-194.
[7] NECTEC, 2010. SanSarn Look Roadmap.
[8] Ricardo Baeza - Yates, Berthier Ribeiro - Neto, 1999.Modern Information Retrieval.
ACM Press, New York.
[9] Nguyen Cam Tu, Phan Xuan Hieu and Nguyen Thu Trang, 2010. JVnTextPro: A tool
to process Vietnamese texts. version 2.0.
[10] Lucene docs,
ABSTRACT
Vietnamese language information retrieval using open source
Information retrieval systems are to provide accurate information in response to
users’ queries. Currently, information retrieval systems exist which return good results
in English but poor result in Vietnamese language. Quality systems which function in
Vietnamese language are few and little known. The paper describes how to develop a
Vietnamese language information retrieval system making use of Lucene open source
material and how to build a VietAnalyzer tool in order to pre-process Vietnamese
documents.
45