Ứng dụng mô hình Sequence To Sequence vào xây dựng hệ thống trả lời tự động cho thư viện

Tóm tắt: Ngày nay, chất lượng của các dịch vụ trong thư viện không ngừng được nâng cao nhờ sự phát triển của công nghệ và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp khoảng cách về không gian, cũng như mở rộng thời gian hoạt động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất kỳ giới hạn nào về thời gian và không gian thông qua mạng Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời những thắc mắc của bạn đọc, chúng tôi đề xuất một phương pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu các câu trả lời có sẵn.

pdf9 trang | Chia sẻ: thanhle95 | Lượt xem: 40 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Ứng dụng mô hình Sequence To Sequence vào xây dựng hệ thống trả lời tự động cho thư viện, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN Vũ Đình Minh1* - Nguyễn Thị Thu Thủy2** Tóm tắt: Ngày nay, chất lượng của các dịch vụ trong thư viện không ngừng được nâng cao nhờ sự phát triển của công nghệ và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp khoảng cách về không gian, cũng như mở rộng thời gian hoạt động của thư viện đối với người dùng. Cụ thể là, bạn đọc có thể gửi yêu cầu của mình tới các cán bộ thư viện mà không bị bất kỳ giới hạn nào về thời gian và không gian thông qua mạng Internet. Tuy nhiên, các yêu cầu này chỉ được thực hiện trong thời gian hoạt động của thư viện. Để nâng cao khả năng trả lời những thắc mắc của bạn đọc, chúng tôi đề xuất một phương pháp tự động phản hồi dựa trên các yêu cầu của bạn đọc. Thông qua thử nghiệm, kết quả cho thấy phương pháp đề xuất có thể trả lời chính xác các yêu cầu của bạn đọc dựa trên một tập dữ liệu các câu trả lời có sẵn. 1. GIỚI THIỆU Trong những năm gần đây, sự ảnh hưởng của các công nghệ và thiết bị máy tính là vô cùng rõ ràng tới rất nhiều lĩnh vực. Trong lĩnh vực thư viện, dịch vụ thư viện truyền thống đang dần chuyển đổi sang thư viện điện tử vì những ưu điểm của nó. Thông qua mạng Internet, người dùng có thể dễ dàng gửi các yêu cầu của mình tới thư viện nhằm thu thập và truy xuất thông tin từ các hệ thống phần mềm. Với các ưu * Tiến sĩ, Trung tâm Mạng thông tin, Trường Đại học Bách Khoa Hà Nội. ** Thạc sĩ, Thư viện Tạ Quang Bửu, Trường Đại học Bách Khoa Hà Nội. 660 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM điểm về sự không bị giới hạn về không gian và thời gian, người dùng hiện nay có thể kết nối với các hệ thống một cách dễ dàng và thuận lợi. Bên cạnh nhu cầu sử dụng tài liệu, một trong các nhu cầu của bạn đọc là yêu cầu tư vấn và hỗ trợ để sử dụng thư viện hiệu quả. Để có thể sử dụng hệ thống phần mềm thư viện với những nghiệp vụ phức tạp, người dùng đôi khi có những thắc mắc cần được giải đáp. Có hai phương pháp được sử dụng để giải quyết vấn đề này là: trực tiếp liên hệ với cán bộ thư viện và gián tiếp liên hệ với cán bộ thư viện thông qua một hệ thống phần mềm. Phương pháp thứ nhất có ưu điểm về độ chính xác khi mọi thắc mắc về tình huống của bạn đọc sẽ được giải quyết trực tiếp với một nhân viên có những kiến thức về thư viện. Tuy nhiên, như đã phân tích ở trên, phương pháp này có hạn chế về mặt thời gian và không gian. Để thực hiện giải pháp này, bạn đọc bắt buộc phải có mặt tại thư viện trong khoảng thời gian phục vụ. Phương pháp thứ hai có thể giải quyết được vấn đề này khi mọi yêu cầu đều được phản hồi thông qua mạng Internet dưới các hình thức như một hệ thống phần mềm, fanpage, Tuy nhiên, phương pháp này có một hạn chế về nguồn nhân lực cho việc phản hồi thông tin. Thêm vào đó, các câu hỏi của nhiều người dùng đôi khi khá đơn giản và thường trùng lặp trong quá trình khai thác dữ liệu thông tin thư viện. Trong khi đó, một hệ thống tự động trả lời câu hỏi có thể giải quyết được vấn đề này dựa trên các kỹ thuật học sâu của lĩnh vực trí tuệ nhân tạo. Thông qua việc ánh xạ các câu hỏi tới các câu trả lời, hệ thống có thể nhanh chóng phản hồi các yêu cầu của người dùng mà không đòi hỏi bất kỳ sự trợ giúp nào từ con người. Trong bài viết này, chúng tôi đề xuất một phương pháp sử dụng kỹ thuật học máy để xây dựng một hệ thống tự động trả lời các câu hỏi của người dùng. Cấu trúc của bài viết này được lần lượt trình bày gồm 7 mục. Trong mục tiếp theo, chúng tôi cung cấp một khảo sát về các nghiên cứu liên quan đến việc trả lời câu hỏi của người dùng. Trong mục 3, một cơ sở lý thuyết về các kỹ thuật trong lĩnh vực học máy được trình bày nhằm giúp người đọc dễ dàng hơn trong việc hiểu phương pháp đề xuất. Trong mục 4, phương pháp học máy được trình bày. Mục 5 mô tả về 661 ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN thí nghiệm của việc áp dụng mô hình đề xuất vào việc trả lời câu hỏi liên quan đến lĩnh vực thư viện của bạn đọc. Kết quả và thảo luận được trình bày trong mục 6. Cuối cùng, chúng tôi thống kê lại các vấn đề và đề xuất các hướng phát triển trong tương lai. 2. CÁC GIẢI PHÁP ĐỂ GIẢI QUYẾT VẤN ĐỀ Như đã trình bày trong mục 1, nhu cầu giải đáp những thắc mắc của người dùng đối với các hoạt động thư viện là một trong các yếu tố cần được cải thiện để nâng cao chất lượng dịch vụ. Để giải quyết vấn đề này, có hai hướng tiếp cận chính: các phương pháp truyền thống được thực hiện bởi con người và hệ thống trả lời tự động các câu hỏi từ người dùng. • Đối với hướng tiếp cận thứ nhất, các câu trả lời sẽ được phản hồi bởi các cán bộ thư viện có trách nhiệm, được phân công cho nhiệm vụ trả lời câu hỏi. Các phương pháp trong hướng tiếp cận này có ưu điểm về độ chính xác cao trong các câu trả lời do được thực hiện bởi nguồn nhân lực chất lượng cao. Các phương pháp có thể được kể đến như là: fanpage của Facebook, Website của thư viện và các phương pháp khác. Tuy nhiên, các phương pháp này có nhược điểm về tính nhất quán trong câu trả lời do được thực hiện bởi nhiều người khác nhau. Bên cạnh đó, các yêu cầu của người dùng không thể thực hiện bên ngoài thời gian hoạt động của thư viện. • Đối với hướng tiếp cận thứ hai, một hệ thống có thể tự động phản hồi các câu trả lời dựa trên kho dữ liệu câu hỏi của thư viện sẽ được xây dựng. Cụ thể là, thông qua việc tự động ánh xạ các câu hỏi tới câu trả lời, các yêu cầu của người dùng sẽ được thực hiện vào bất kỳ khoảng thời gian nào. Thêm vào đó, giải pháp này còn giúp giảm đi chi phí về nhân lực trong quá trình vận hành hệ thống thư viện. Với sự phát triển không ngừng của các ứng dụng trong công nghệ thông tin cũng như lợi ích của việc áp dụng hệ thống tự động trả lời câu hỏi, trong bài báo này, chúng tôi sẽ đề xuất một hệ thống trả lời câu hỏi tự động dựa trên trí tuệ nhân tạo được áp dụng cho Thư viện Tạ Quang Bửu của Trường Đại học Bách Khoa Hà Nội để góp phần nâng cao chất lượng phục vụ bạn đọc. 662 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM 3. CƠ SỞ LÝ THUYẾT 3.1. Machine learning là gì? . Hình 1. Quy trình của mô hình trong học máy Trong những năm gần đây, Machine learning (học máy) là một thuật ngữ phổ biến với sự bùng nổ về các ứng dụng công nghệ thông tin. Có rất nhiều các vấn đề đã được giải quyết như là: xe tự lái, dịch máy, hay phân loại dịch bệnh. Về mặt định nghĩa, học máy là một nhánh nhỏ của trí tuệ nhân tạo, nó giúp máy tính có thể tự học dựa trên dữ liệu mà không cần phải được lập trình cụ thể [1]. Nói cách khác, học máy bao gồm các mô hình thống kê để khái quát các đặc tính trong tập dữ liệu huấn luyện và thực hiện dự đoán cho các dữ liệu chưa biết trong tương lai. Hình 1 mô tả một qui trình cơ bản của các mô hình trong học máy. Cụ thể là, mô hình học máy thường bao gồm hai giai đoạn cơ bản: giai đoạn huấn luyện và giai đoạn kiểm tra đánh giá. Dựa trên một tập dữ liệu bao gồm: các thuộc tính và kết quả, giai đoạn một giúp tìm ra một hàm số để ánh xạ hai thành phần này lại với nhau. Trong khi đó, giai đoạn hai hướng 663 ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN đến việc kiểm tra khả năng ứng dụng hàm số này trong thực tế, thông qua việc áp dụng trên một tập dữ liệu khác có cấu trúc tương ứng. Hai giai đoạn này đều có chung hai thành phần chính: trích xuất đặc trưng và thuật toán chính. Trong bước thứ nhất, sau khi tiền xử lý dữ liệu thô để chuẩn hóa dữ liệu, quá trình trích xuất đặc trưng giúp cho máy tính loại đi những thành phần thuộc tính không cần thiết và tìm ra những thuộc tính có ảnh hưởng quan trọng đến việc tính toán kết quả. Trong bước thứ hai, dựa trên những đặc trưng đã được trích xuất, một thuật toán phân loại thường được sử dụng để tìm ra một hàm số giúp cho việc ánh xạ từ các thuộc tính đầu vào tới kết quả. Từ đó, hàm số này sẽ được sử dụng để dự đoán cho bài toán với các đầu vào tương ứng. Trong phần tiếp theo, một mô hình cơ bản của deep learning (học sâu) – một nhánh của Machine learning được trình bày, nhằm giúp cho người đọc dễ dàng làm quen hơn với mô hình được đề xuất. 3.2. Mô hình sequence to sequence (seq2seq) Như chúng ta đã biết, xử lý ngôn ngữ tự nhiên là một trong những thử thách lớn nhất của khoa học máy tính. Lý do là máy tính chỉ làm việc với các tín hiệu số và không thể hiểu được ngôn ngữ của con người. Với mục tiêu giúp cho máy tính có thể hiểu được ngôn ngữ của con người, các tác giả đã đề xuất mô hình Sequence to sequence [2] nhằm chuyển ngôn ngữ của con người thành ngôn ngữ máy tính. Seq2seq[2] là một mô hình cơ bản của deep learning (học sâu) – một nhánh của học máy và đã đạt được rất nhiều thành tựu ấn tượng trong các lĩnh vực như là: dịch máy, tóm tắt văn bản, dán nhãn văn bản Thông thường, đầu vào của mô hình seq2seq là các chuỗi về từ, ký tự, và đầu ra là một chuỗi khác. Mô hình seq2seq thường gồm hai thành phần chính sau đây: encoder (bộ mã hóa) và decoder (bộ giải mã). Encoder có nhiệm vụ mã hóa câu đầu vào thành một vector bởi một mạng nơron hồi quy và decoder sẽ giải mã vector thành câu đầu ra dựa trên một mạng nơron hồi quy khác. 664 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Hình 2 mô tả quá trình để ánh xạ từ một câu hỏi đến câu trả lời. Cụ thể là, trong bước mã hóa (encoder), với đầu vào là một câu hỏi, câu sẽ được tách ra thành các từ. Mỗi từ này sau đó sẽ được đại diện bởi một vector duy nhất và lần lượt được đưa vào mạng nơron để tính toán tìm ra các trạng thái ẩn. Tiếp theo đó, trạng thái ẩn cuối cùng sẽ được sử dụng là đại diện cho câu đầu vào, hay còn gọi là vector trung gian. Vector này có chức năng gói gọn các thông tin của câu đầu vào và giúp cho bộ giải mã (decoder) dự đoán thông tin chính xác hơn. Trong bước giải mã, một mạng nơron khác được sử dụng và nhận vector trung gian như là thành phần đầu vào thứ nhất để dự đoán lần lượt các từ trong câu đầu ra. Kết quả sau đó sẽ được đánh giá dựa trên sự so sánh giữa các từ trong câu dự đoán và câu trả lời thật có sẵn trong tập dữ liệu sử dụng để huấn luyện. Hình 2. Mô hình sequence to sequence 4. GIẢI QUYẾT VẤN ĐỀ Trong mục này, chúng tôi sẽ trình bày chi tiết việc áp dụng mô hình seq2seq vào việc xây dựng hệ thống trả lời tự động các câu hỏi liên quan đến lĩnh vực thư viện. Như chúng ta đã biết, hàng năm thư viện đều tiếp nhận một số lượng lớn các tân sinh viên. Chính vì thế, sự trùng lặp về những thắc mắc của các sinh viên mới và sinh viên cũ thường xảy ra. Điều này gây ra sự không thống nhất trong các câu trả lời vì yếu tố thời gian và con người. 665 ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN Để giải quyết vấn đề này, chúng tôi đề xuất giải pháp sử dụng mô hình seq2seq để ánh xạ các câu hỏi tới các câu trả lời. Cụ thể là, các câu hỏi của người dùng sẽ được chuyển đổi thành các vector, sau đó, câu trả lời sẽ được sinh ra dựa trên các vector này. 5. THÍ NGHIỆM Để kiểm tra khả năng của việc áp dụng mô hình seq2seq vào việc xây dựng hệ thống tự động trả lời câu hỏi, chúng tôi áp dụng trên tập dữ liệu các câu hỏi của Thư viện Tạ Quang Bửu. Tập dữ liệu bao gồm 100 cặp câu hỏi và trả lời của 6 chủ đề chính như thống kê trong bảng 1. Sau khi tiến hành tiền xử lý dữ liệu, dữ liệu được đưa vào mô hình để dự đoán các câu trả lời dựa trên câu hỏi. Độ chính xác của mô hình được đánh giá dựa trên sự so sánh về độ sai lệch của câu trả lời dự đoán và câu trả lời thực tế. Kết quả cho thấy rằng sự chính xác của việc dự đoán các câu trả lời là khả quan và có thể đáp ứng nhu cầu của bạn đọc như được trình bày trong hình 3. Hình 3. Thí nghiệm áp dụng mô hình seq2seq vào tập dữ liệu câu hỏi và trả lời của Thư viện Tạ Quang Bửu Bảng 1. Dữ liệu câu hỏi và câu trả lời của thư viện Tạ Quang Bửu Loại câu hỏi Câu hỏi Câu trả lời Câu hỏi chung Thời gian làm việc của thư viện? Sáng: 8h đến 11h. Chiều: 13h30 đến 17h Phòng đọc Khi vào phòng đọc, em được mang những gì? Bạn đọc được phép mang theo giấy, vở, bút vào phòng đọc. Thư viện không chịu trách nhiệm về các đồ vật quý hiếm, có giá trị như tiền bạc, điện thoại, máy ảnh... của bạn đọc. 666 PHÁT TRIỂN MÔ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Phòng mượn tài liệu Sau khi mượn, trả ở máy tự động, em có thể kiểm tra tài khoản của mình được không? Bạn hoàn toàn có thể kiểm tra tài khoản luôn trên máy mượn trả, hoặc máy tra cứu. Gia hạn tài liệu Có mấy cách gia hạn tài liệu? Có 3 cách gia hạn tài liệu: 1. Gia hạn trực tiếp bằng cách đến phòng mượn thư viện để cán bộ thư viện thực hiện. 2. Gia hạn tại trang Link hướng dẫn 3. Gia hạn qua email tvtqb@hust.edu.vn hoặc điện thoại bằng cách gửi thông tin cá nhân vào mail yêu cầu hỗ trợ. Tra cứu tài liệu Làm thế nào để tra cứu tài liệu ở thư viện? Bạn có thể tìm tại liệu theo hai cách: 1. Qua các hệ thống mục lục tại một số phòng như Phòng mượn sách tham khảo 102. 2. Tìm kiếm tài liệu qua trang tìm kiếm http:// libopac.hust.edu.vn/ Báo, tạp chí Báo, tạp chí được lưu trữ ở đâu? Báo, tạp chí mới sẽ được xếp trên giá trong phòng Báo - Tạp chí. Báo, tạp chí cũ sẽ được xếp trong kho. 6. THẢO LUẬN Trong bài viết này, phương pháp đề xuất là xây dựng một giải pháp tự động phản hồi câu trả lời cho người dùng dựa trên các yêu cầu cụ thể. Điều này được hiểu như là việc ánh xạ các câu hỏi của người dùng vào tập các câu trả lời có sẵn của thư viện. Hình 2 đã chỉ ra rằng việc áp dụng mô hình seq2seq vào tập dữ liệu các câu hỏi và trả lời của Thư viện Tạ Quang Bửu đạt được những kết quả khả quan trong việc nâng cao chất lượng phục vụ bạn đọc. Hệ thống tự động trả lời câu hỏi được xây dựng nhằm các mục đích như sau: - Tăng thời gian phục vụ, giải đáp các yêu cầu của người dùng. - Giảm chi phí về nhân lực chất lượng cao. Từ đó, thư viện có thêm nguồn lực để thực hiện các hoạt động khác. - Câu trả lời có tính thống nhất. 667 ỨNG DỤNG MÔ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN Tuy nhiên, phương pháp đề xuất mới được áp dụng trong tập dữ liệu nhỏ và cần được đánh giá trong một tập dữ liệu lớn hơn. Bên cạnh đó, mô hình đề xuất vẫn còn thiếu sự đánh giá từ phía người sử dụng về chất lượng của các câu trả lời. Chính vì thế, mô hình đề xuất cần được tích hợp vào các hệ thống của thư viện để nhận được các phản hồi từ phía người sử dụng. Trong tương lai, chúng tôi sẽ áp dụng mô hình đề xuất vào các hệ thống sẵn có của thư viện để đánh giá chất lượng của mô hình đề xuất. 7. KẾT LUẬN Trong bài viết này, để nâng cao chất lượng dịch vụ của thư viện, chúng tôi đề xuất xây dựng một hệ thống tự động trả lời câu hỏi của người dùng. Để làm được điều này, chúng tôi đã sử dụng một mô hình phổ biến của học máy là seq2seq để ánh xạ các câu hỏi và câu trả lời. Tuy nhiên, sự đánh giá của người dùng và sự hiệu quả của mô hình chỉ được đánh giá trong một tập dữ liệu nhỏ. Trong tương lai, chúng tôi sẽ tích hợp phương pháp đề xuất vào các dịch vụ của thư viện để thu thập các đánh giá từ phía người sử dụng. TÀI LIỆU THAM KHẢO Tiếng Việt 1. https://github.com/tiepvupsu/ebookMLCB. Tiếng Anh 2. Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. (2014), “Sequence to sequence learning with neural networks.” Advances in neural information processing systems.