Tóm tắt: Ngày nay, chất lượng của các dịch vụ trong thư viện
không ngừng được nâng cao nhờ sự phát triển của công nghệ
và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp
khoảng cách về không gian, cũng như mở rộng thời gian hoạt
động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể
gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất
kỳ giới hạn nào về thời gian và không gian thông qua mạng
Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong
thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời
những thắc mắc của bạn đọc, chúng tôi đề xuất một phương
pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông
qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể
trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu
các câu trả lời có sẵn.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 40 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng mô hình Sequence To Sequence vào xây dựng hệ thống trả lời tự động cho thư viện, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE
VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
Vũ Đình Minh1* - Nguyễn Thị Thu Thủy2**
Tóm tắt: Ngày nay, chất lượng của các dịch vụ trong thư viện
không ngừng được nâng cao nhờ sự phát triển của công nghệ
và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp
khoảng cách về không gian, cũng như mở rộng thời gian hoạt
động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể
gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất
kỳ giới hạn nào về thời gian và không gian thông qua mạng
Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong
thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời
những thắc mắc của bạn đọc, chúng tôi đề xuất một phương
pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông
qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể
trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu
các câu trả lời có sẵn.
1. GIỚI THIỆU
Trong những năm gần đây, sự ảnh hưởng của các công nghệ và
thiết bị máy tính là vô cùng rõ ràng tới rất nhiều lĩnh vực. Trong lĩnh
vực thư viện, dịch vụ thư viện truyền thống đang dần chuyển đổi sang
thư viện điện tử vì những ưu điểm của nó. Thông qua mạng Internet,
người dùng có thể dễ dàng gửi các yêu cầu của mình tới thư viện nhằm
thu thập và truy xuất thông tin từ các hệ thống phần mềm. Với các ưu
* Tiến sĩ, Trung tâm Mạng thông tin, Trường Đại học Bách Khoa Hà Nội.
** Thạc sĩ, Thư viện Tạ Quang Bửu, Trường Đại học Bách Khoa Hà Nội.
660
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
điểm về sự không bị giới hạn về không gian và thời gian, người dùng
hiện nay có thể kết nối với các hệ thống một cách dễ dàng và thuận lợi.
Bên cạnh nhu cầu sử dụng tài liệu, một trong các nhu cầu của bạn
đọc là yêu cầu tư vấn và hỗ trợ để sử dụng thư viện hiệu quả. Để có
thể sử dụng hệ thống phần mềm thư viện với những nghiệp vụ phức
tạp, người dùng đôi khi có những thắc mắc cần được giải đáp. Có hai
phương pháp được sử dụng để giải quyết vấn đề này là: trực tiếp liên
hệ với cán bộ thư viện và gián tiếp liên hệ với cán bộ thư viện thông
qua một hệ thống phần mềm. Phương pháp thứ nhất có ưu điểm về
độ chính xác khi mọi thắc mắc về tình huống của bạn đọc sẽ được giải
quyết trực tiếp với một nhân viên có những kiến thức về thư viện. Tuy
nhiên, như đã phân tích ở trên, phương pháp này có hạn chế về mặt
thời gian và không gian. Để thực hiện giải pháp này, bạn đọc bắt buộc
phải có mặt tại thư viện trong khoảng thời gian phục vụ. Phương pháp
thứ hai có thể giải quyết được vấn đề này khi mọi yêu cầu đều được
phản hồi thông qua mạng Internet dưới các hình thức như một hệ
thống phần mềm, fanpage, Tuy nhiên, phương pháp này có một hạn
chế về nguồn nhân lực cho việc phản hồi thông tin. Thêm vào đó, các
câu hỏi của nhiều người dùng đôi khi khá đơn giản và thường trùng
lặp trong quá trình khai thác dữ liệu thông tin thư viện.
Trong khi đó, một hệ thống tự động trả lời câu hỏi có thể giải quyết
được vấn đề này dựa trên các kỹ thuật học sâu của lĩnh vực trí tuệ nhân
tạo. Thông qua việc ánh xạ các câu hỏi tới các câu trả lời, hệ thống có
thể nhanh chóng phản hồi các yêu cầu của người dùng mà không đòi
hỏi bất kỳ sự trợ giúp nào từ con người. Trong bài viết này, chúng tôi
đề xuất một phương pháp sử dụng kỹ thuật học máy để xây dựng một
hệ thống tự động trả lời các câu hỏi của người dùng.
Cấu trúc của bài viết này được lần lượt trình bày gồm 7 mục. Trong
mục tiếp theo, chúng tôi cung cấp một khảo sát về các nghiên cứu liên
quan đến việc trả lời câu hỏi của người dùng. Trong mục 3, một cơ sở
lý thuyết về các kỹ thuật trong lĩnh vực học máy được trình bày nhằm
giúp người đọc dễ dàng hơn trong việc hiểu phương pháp đề xuất.
Trong mục 4, phương pháp học máy được trình bày. Mục 5 mô tả về
661
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
thí nghiệm của việc áp dụng mô hình đề xuất vào việc trả lời câu hỏi
liên quan đến lĩnh vực thư viện của bạn đọc. Kết quả và thảo luận được
trình bày trong mục 6. Cuối cùng, chúng tôi thống kê lại các vấn đề và
đề xuất các hướng phát triển trong tương lai.
2. CÁC GIẢI PHÁP ĐỂ GIẢI QUYẾT VẤN ĐỀ
Như đã trình bày trong mục 1, nhu cầu giải đáp những thắc mắc của
người dùng đối với các hoạt động thư viện là một trong các yếu tố cần
được cải thiện để nâng cao chất lượng dịch vụ. Để giải quyết vấn đề này,
có hai hướng tiếp cận chính: các phương pháp truyền thống được thực
hiện bởi con người và hệ thống trả lời tự động các câu hỏi từ người dùng.
• Đối với hướng tiếp cận thứ nhất, các câu trả lời sẽ được phản
hồi bởi các cán bộ thư viện có trách nhiệm, được phân công cho nhiệm
vụ trả lời câu hỏi. Các phương pháp trong hướng tiếp cận này có ưu
điểm về độ chính xác cao trong các câu trả lời do được thực hiện bởi
nguồn nhân lực chất lượng cao. Các phương pháp có thể được kể đến
như là: fanpage của Facebook, Website của thư viện và các phương
pháp khác. Tuy nhiên, các phương pháp này có nhược điểm về tính
nhất quán trong câu trả lời do được thực hiện bởi nhiều người khác
nhau. Bên cạnh đó, các yêu cầu của người dùng không thể thực hiện
bên ngoài thời gian hoạt động của thư viện.
• Đối với hướng tiếp cận thứ hai, một hệ thống có thể tự động
phản hồi các câu trả lời dựa trên kho dữ liệu câu hỏi của thư viện sẽ
được xây dựng. Cụ thể là, thông qua việc tự động ánh xạ các câu hỏi
tới câu trả lời, các yêu cầu của người dùng sẽ được thực hiện vào bất kỳ
khoảng thời gian nào. Thêm vào đó, giải pháp này còn giúp giảm đi chi
phí về nhân lực trong quá trình vận hành hệ thống thư viện.
Với sự phát triển không ngừng của các ứng dụng trong công nghệ
thông tin cũng như lợi ích của việc áp dụng hệ thống tự động trả lời
câu hỏi, trong bài báo này, chúng tôi sẽ đề xuất một hệ thống trả lời câu
hỏi tự động dựa trên trí tuệ nhân tạo được áp dụng cho Thư viện Tạ
Quang Bửu của Trường Đại học Bách Khoa Hà Nội để góp phần nâng
cao chất lượng phục vụ bạn đọc.
662
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
3. CƠ SỞ LÝ THUYẾT
3.1. Machine learning là gì?
.
Hình 1. Quy trình của mô hình trong học máy
Trong những năm gần đây, Machine learning (học máy) là một
thuật ngữ phổ biến với sự bùng nổ về các ứng dụng công nghệ thông
tin. Có rất nhiều các vấn đề đã được giải quyết như là: xe tự lái, dịch
máy, hay phân loại dịch bệnh. Về mặt định nghĩa, học máy là một
nhánh nhỏ của trí tuệ nhân tạo, nó giúp máy tính có thể tự học dựa
trên dữ liệu mà không cần phải được lập trình cụ thể [1]. Nói cách
khác, học máy bao gồm các mô hình thống kê để khái quát các đặc
tính trong tập dữ liệu huấn luyện và thực hiện dự đoán cho các dữ liệu
chưa biết trong tương lai.
Hình 1 mô tả một qui trình cơ bản của các mô hình trong học máy. Cụ
thể là, mô hình học máy thường bao gồm hai giai đoạn cơ bản: giai đoạn
huấn luyện và giai đoạn kiểm tra đánh giá. Dựa trên một tập dữ liệu bao
gồm: các thuộc tính và kết quả, giai đoạn một giúp tìm ra một hàm số để
ánh xạ hai thành phần này lại với nhau. Trong khi đó, giai đoạn hai hướng
663
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
đến việc kiểm tra khả năng ứng dụng hàm số này trong thực tế, thông qua
việc áp dụng trên một tập dữ liệu khác có cấu trúc tương ứng.
Hai giai đoạn này đều có chung hai thành phần chính: trích xuất
đặc trưng và thuật toán chính. Trong bước thứ nhất, sau khi tiền xử lý
dữ liệu thô để chuẩn hóa dữ liệu, quá trình trích xuất đặc trưng giúp
cho máy tính loại đi những thành phần thuộc tính không cần thiết và
tìm ra những thuộc tính có ảnh hưởng quan trọng đến việc tính toán
kết quả. Trong bước thứ hai, dựa trên những đặc trưng đã được trích
xuất, một thuật toán phân loại thường được sử dụng để tìm ra một
hàm số giúp cho việc ánh xạ từ các thuộc tính đầu vào tới kết quả. Từ
đó, hàm số này sẽ được sử dụng để dự đoán cho bài toán với các đầu
vào tương ứng.
Trong phần tiếp theo, một mô hình cơ bản của deep learning (học
sâu) – một nhánh của Machine learning được trình bày, nhằm giúp cho
người đọc dễ dàng làm quen hơn với mô hình được đề xuất.
3.2. Mô hình sequence to sequence (seq2seq)
Như chúng ta đã biết, xử lý ngôn ngữ tự nhiên là một trong những
thử thách lớn nhất của khoa học máy tính. Lý do là máy tính chỉ làm
việc với các tín hiệu số và không thể hiểu được ngôn ngữ của con
người. Với mục tiêu giúp cho máy tính có thể hiểu được ngôn ngữ của
con người, các tác giả đã đề xuất mô hình Sequence to sequence [2]
nhằm chuyển ngôn ngữ của con người thành ngôn ngữ máy tính.
Seq2seq[2] là một mô hình cơ bản của deep learning (học sâu) –
một nhánh của học máy và đã đạt được rất nhiều thành tựu ấn tượng
trong các lĩnh vực như là: dịch máy, tóm tắt văn bản, dán nhãn văn
bản Thông thường, đầu vào của mô hình seq2seq là các chuỗi về từ,
ký tự, và đầu ra là một chuỗi khác. Mô hình seq2seq thường gồm hai
thành phần chính sau đây: encoder (bộ mã hóa) và decoder (bộ giải
mã). Encoder có nhiệm vụ mã hóa câu đầu vào thành một vector bởi
một mạng nơron hồi quy và decoder sẽ giải mã vector thành câu đầu
ra dựa trên một mạng nơron hồi quy khác.
664
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Hình 2 mô tả quá trình để ánh xạ từ một câu hỏi đến câu trả lời.
Cụ thể là, trong bước mã hóa (encoder), với đầu vào là một câu hỏi, câu
sẽ được tách ra thành các từ. Mỗi từ này sau đó sẽ được đại diện bởi
một vector duy nhất và lần lượt được đưa vào mạng nơron để tính toán
tìm ra các trạng thái ẩn. Tiếp theo đó, trạng thái ẩn cuối cùng sẽ được
sử dụng là đại diện cho câu đầu vào, hay còn gọi là vector trung gian.
Vector này có chức năng gói gọn các thông tin của câu đầu vào và giúp
cho bộ giải mã (decoder) dự đoán thông tin chính xác hơn. Trong bước
giải mã, một mạng nơron khác được sử dụng và nhận vector trung
gian như là thành phần đầu vào thứ nhất để dự đoán lần lượt các từ
trong câu đầu ra. Kết quả sau đó sẽ được đánh giá dựa trên sự so sánh
giữa các từ trong câu dự đoán và câu trả lời thật có sẵn trong tập dữ liệu
sử dụng để huấn luyện.
Hình 2. Mô hình sequence to sequence
4. GIẢI QUYẾT VẤN ĐỀ
Trong mục này, chúng tôi sẽ trình bày chi tiết việc áp dụng mô
hình seq2seq vào việc xây dựng hệ thống trả lời tự động các câu hỏi
liên quan đến lĩnh vực thư viện. Như chúng ta đã biết, hàng năm thư
viện đều tiếp nhận một số lượng lớn các tân sinh viên. Chính vì thế,
sự trùng lặp về những thắc mắc của các sinh viên mới và sinh viên cũ
thường xảy ra. Điều này gây ra sự không thống nhất trong các câu trả
lời vì yếu tố thời gian và con người.
665
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
Để giải quyết vấn đề này, chúng tôi đề xuất giải pháp sử dụng mô
hình seq2seq để ánh xạ các câu hỏi tới các câu trả lời. Cụ thể là, các câu
hỏi của người dùng sẽ được chuyển đổi thành các vector, sau đó, câu
trả lời sẽ được sinh ra dựa trên các vector này.
5. THÍ NGHIỆM
Để kiểm tra khả năng của việc áp dụng mô hình seq2seq vào việc
xây dựng hệ thống tự động trả lời câu hỏi, chúng tôi áp dụng trên tập
dữ liệu các câu hỏi của Thư viện Tạ Quang Bửu. Tập dữ liệu bao gồm
100 cặp câu hỏi và trả lời của 6 chủ đề chính như thống kê trong bảng 1.
Sau khi tiến hành tiền xử lý dữ liệu, dữ liệu được đưa vào mô hình
để dự đoán các câu trả lời dựa trên câu hỏi. Độ chính xác của mô hình
được đánh giá dựa trên sự so sánh về độ sai lệch của câu trả lời dự đoán
và câu trả lời thực tế. Kết quả cho thấy rằng sự chính xác của việc dự
đoán các câu trả lời là khả quan và có thể đáp ứng nhu cầu của bạn đọc
như được trình bày trong hình 3.
Hình 3. Thí nghiệm áp dụng mô hình seq2seq
vào tập dữ liệu câu hỏi và trả lời của Thư viện Tạ Quang Bửu
Bảng 1. Dữ liệu câu hỏi và câu trả lời của thư viện Tạ Quang Bửu
Loại câu hỏi Câu hỏi Câu trả lời
Câu hỏi chung Thời gian làm việc của thư viện? Sáng: 8h đến 11h. Chiều: 13h30 đến 17h
Phòng đọc Khi vào phòng đọc, em được
mang những gì?
Bạn đọc được phép mang theo giấy, vở, bút vào
phòng đọc. Thư viện không chịu trách nhiệm về
các đồ vật quý hiếm, có giá trị như tiền bạc, điện
thoại, máy ảnh... của bạn đọc.
666
PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM
Phòng mượn
tài liệu
Sau khi mượn, trả ở máy tự
động, em có thể kiểm tra tài
khoản của mình được không?
Bạn hoàn toàn có thể kiểm tra tài khoản luôn
trên máy mượn trả, hoặc máy tra cứu.
Gia hạn tài liệu Có mấy cách gia hạn tài liệu? Có 3 cách gia hạn tài liệu:
1. Gia hạn trực tiếp bằng cách đến phòng mượn
thư viện để cán bộ thư viện thực hiện.
2. Gia hạn tại trang Link
hướng dẫn
3. Gia hạn qua email tvtqb@hust.edu.vn hoặc
điện thoại bằng cách gửi thông tin cá nhân vào
mail yêu cầu hỗ trợ.
Tra cứu tài liệu Làm thế nào để tra cứu tài liệu
ở thư viện?
Bạn có thể tìm tại liệu theo hai cách:
1. Qua các hệ thống mục lục tại một số phòng
như Phòng mượn sách tham khảo 102.
2. Tìm kiếm tài liệu qua trang tìm kiếm http://
libopac.hust.edu.vn/
Báo, tạp chí Báo, tạp chí được lưu trữ ở đâu? Báo, tạp chí mới sẽ được xếp trên giá trong
phòng Báo - Tạp chí. Báo, tạp chí cũ sẽ được xếp
trong kho.
6. THẢO LUẬN
Trong bài viết này, phương pháp đề xuất là xây dựng một giải
pháp tự động phản hồi câu trả lời cho người dùng dựa trên các yêu cầu
cụ thể. Điều này được hiểu như là việc ánh xạ các câu hỏi của người
dùng vào tập các câu trả lời có sẵn của thư viện. Hình 2 đã chỉ ra rằng
việc áp dụng mô hình seq2seq vào tập dữ liệu các câu hỏi và trả lời của
Thư viện Tạ Quang Bửu đạt được những kết quả khả quan trong việc
nâng cao chất lượng phục vụ bạn đọc.
Hệ thống tự động trả lời câu hỏi được xây dựng nhằm các mục
đích như sau:
- Tăng thời gian phục vụ, giải đáp các yêu cầu của người dùng.
- Giảm chi phí về nhân lực chất lượng cao. Từ đó, thư viện có
thêm nguồn lực để thực hiện các hoạt động khác.
- Câu trả lời có tính thống nhất.
667
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN
Tuy nhiên, phương pháp đề xuất mới được áp dụng trong tập dữ
liệu nhỏ và cần được đánh giá trong một tập dữ liệu lớn hơn. Bên cạnh
đó, mô hình đề xuất vẫn còn thiếu sự đánh giá từ phía người sử dụng
về chất lượng của các câu trả lời. Chính vì thế, mô hình đề xuất cần
được tích hợp vào các hệ thống của thư viện để nhận được các phản
hồi từ phía người sử dụng. Trong tương lai, chúng tôi sẽ áp dụng mô
hình đề xuất vào các hệ thống sẵn có của thư viện để đánh giá chất
lượng của mô hình đề xuất.
7. KẾT LUẬN
Trong bài viết này, để nâng cao chất lượng dịch vụ của thư viện,
chúng tôi đề xuất xây dựng một hệ thống tự động trả lời câu hỏi của
người dùng. Để làm được điều này, chúng tôi đã sử dụng một mô hình
phổ biến của học máy là seq2seq để ánh xạ các câu hỏi và câu trả lời.
Tuy nhiên, sự đánh giá của người dùng và sự hiệu quả của mô
hình chỉ được đánh giá trong một tập dữ liệu nhỏ. Trong tương lai,
chúng tôi sẽ tích hợp phương pháp đề xuất vào các dịch vụ của thư
viện để thu thập các đánh giá từ phía người sử dụng.
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. https://github.com/tiepvupsu/ebookMLCB.
Tiếng Anh
2. Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. (2014), “Sequence
to sequence learning with neural networks.” Advances in neural
information processing systems.