Tóm tắt: Phân tích cảm xúc trong câu đang là một trong những bài toán quan trọng
của lĩnh vực xử lý ngôn ngữ tự nhiên. Đã có rất nhiều các phương pháp học máy được đề
xuất để giải quyết bài toán này. Tuy nhiên, các phương pháp đó chỉ thực hiện ở những bộ
dữ liệu nhỏ và ít so sánh đánh giá với các phương pháp khác. Trong bài báo này, chúng
tôi đưa ra 5 phương pháp học máy khác nhau và so sánh chúng trên cùng bộ cơ sở dữ
liệu Foody.vn. Các đặc trưng được đưa vào 5 phương pháp lần lượt là 1000, 1500 và
2000 đặc trưng. Sau khi so sánh, kết quả cho thấy sự khác biệt về độ chính xác giữa các
phương pháp là không nhiều (khoảng 2%) và độ chênh lệnh kết quả giữa các đặc trưng
khác nhau trong khoảng 4%. Có thể thấy rằng, việc lựa chọn phương pháp học máy phức
tạp hay đơn giản không ảnh hưởng nhiều đến kết quả của bài toán mà còn phụ thuộc vào
lượng đặc trưng được sử dụng.
10 trang |
Chia sẻ: thanhle95 | Lượt xem: 261 | Lượt tải: 2
Bạn đang xem nội dung tài liệu So sánh một số phương pháp học máy giải quyết bài toán phân tích cảm xúc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
104
So SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
GIẢI QUYẾT BÀI ToÁN PHÂN TÍCH CẢM XÚC
TRoNG CÂU
Ma Thị Hồng Thu1
Phùng Thị Thu Trang2
Tóm tắt: Phân tích cảm xúc trong câu đang là một trong những bài toán quan trọng
của lĩnh vực xử lý ngôn ngữ tự nhiên. Đã có rất nhiều các phương pháp học máy được đề
xuất để giải quyết bài toán này. Tuy nhiên, các phương pháp đó chỉ thực hiện ở những bộ
dữ liệu nhỏ và ít so sánh đánh giá với các phương pháp khác. Trong bài báo này, chúng
tôi đưa ra 5 phương pháp học máy khác nhau và so sánh chúng trên cùng bộ cơ sở dữ
liệu Foody.vn. Các đặc trưng được đưa vào 5 phương pháp lần lượt là 1000, 1500 và
2000 đặc trưng. Sau khi so sánh, kết quả cho thấy sự khác biệt về độ chính xác giữa các
phương pháp là không nhiều (khoảng 2%) và độ chênh lệnh kết quả giữa các đặc trưng
khác nhau trong khoảng 4%. Có thể thấy rằng, việc lựa chọn phương pháp học máy phức
tạp hay đơn giản không ảnh hưởng nhiều đến kết quả của bài toán mà còn phụ thuộc vào
lượng đặc trưng được sử dụng.
Từ khóa: Phân tích cảm xúc câu, học máy, trí tuệ nhân tạo, học sâu, xử lý ngôn
ngữ tự nhiên
1. Giới thiệu
Phân tích cảm xúc trong câu đang là một trong những nhiệm vụ cơ bản của lĩnh vực
xử lý ngôn ngữ tự nhiên và đã thu hút một lượng lớn các nhà nghiên cứu trong thời gian
gần đây. Mỗi ngày trôi qua có hàng triệu các bình luận được đăng lên các mạng xã hội hay
các trang web bán hàng trực tuyến của các siêu thị điện máy, nhà hàng, khách sạn Một
yêu cầu thiết yếu được đặt ra là gán nhãn cho các bình luận/ý kiến của người dùng đó về
một lớp nhất định. Số lượng các lớp này có thể ít hoặc nhiều tùy thuộc vào nhu cầu của
người sử dụng. Trong phạm vi bài báo này, chúng tôi sử dụng hai lớp là tích cực và tiêu
cực. Hay nói cách khác, các bình luận/ý kiến mang tính chất khen ngợi, ca tụng, hài lòng
sẽ được đưa vào lớp tích cực, và ngược lại những bình luận mang tính phê bình, phàn nàn,
khiếu nại sẽ được phân loại vào lớp tiêu cực. Nhiệm vụ của bài toán phân tích cảm xúc
trong câu là từ các câu bình luận đầu vào, hãy phân loại chúng thành hai lớp tích cực hoặc
tiêu cực, mỗi câu chỉ thuộc một lớp duy nhất.
Ngày nay, các mô hình học máy ngày càng đa dạng từ đơn giản đến phức tạp và
được áp dụng ở khắp lĩnh vực, đặc biệt là xử lý ngôn ngữ tự nhiên. Đối với bài toán phân
tích cảm xúc trong câu cũng đã được nghiên cứu và đề xuất khá nhiều phương pháp. Đối
1. Đại học Tân Trào
2. Đại học Thái Nguyên
106
SO SáNH MỘT SỐ PHươNG PHáP HỌC MáY...
Phần tiếp theo của bài báo được tổ chức như sau: Phần 2 nêu mô hình tổng quan
của các phương pháp học máy. Các kết quả thực nghiệm và so sánh được đề cập ở phần
3. Cuối cùng là kết luận và tài liệu tham khảo.
2. Một số phương pháp học máy
Hình 2 là mô hình tổng quan cho các phương pháp học máy giải quyết bài toán phân
tích cảm xúc trong câu. Trong đó:
- Đầu vào: là các câu bình luận dưới dạng văn bản đã được tiền xử lý như: loại bỏ
các ký hiệu đặc biệt, các biểu tưởng cảm xúc, các từ dừng, ...
- Trích chọn đặc trưng: là các thao tác nhằm xử lý trên các câu để lọc ra được các
đặc trưng trong câu. Trong bài báo này, chúng tôi sử dụng kỹ thuật tf-idf [6].
- Đầu ra: là phân lớp tích cực hoặc tiêu cực của mô hình học máy ứng với câu bình
luận được nhập từ đầu vào.
Hình 2. Mô hình tổng quan giải quyết bài toán phân tích cảm xúc trong câu
2.1. Hồi quy tuyến tính (Linear Regression)
Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ
thuộc y với một hay nhiều biến độc lập x. Đây được coi là mô hình cơ bản và đơn giản
nhất trong học máy. Ý tưởng của mô hình là xây dựng một hàm tuyến tính bằng cách
kết hợp các biến đầu vào sao cho y [7].
Trong đó, , , (với ví dụ trên k = 3) được gọi là các tham số của mô hình,
w
0
còn được gọi là bias. là các đặc trưng được đưa vào mô hình. y là đại diện cho các
lớp của đầu ra, với bài toán này, y = 0 tương ứng với tiêu cực, y = 1 tương ứng với tích cực.
là kết quả dự đoán của mô hình học máy, , nếu thì câu đầu vào được dự
đoán thuộc lớp tiêu cực, ngược lại nếu thì câu đó được kết luận thuộc lớp tích cực.
Ưu điểm:
- Đơn giản, dễ cài đặt và sử dụng.
Nhược điểm:
- Dễ nhạy cảm với nhiễu.
- Không biểu diễn được các mô hình phức tạp.
2.2. Máy vectơ hỗ trợ (SVM)
Như đã biết, với bài toán phân loại nhị phân tuyến tính ta cần vẽ được mặt phân tách
(với không gian 2 chiều thì mặt phẳng này là đường phân tách): để phân biệt
được dữ liệu. Khi đó dấu của hàm ước lượng
sẽ thể hiện được điểm dữ liệu x nằm ở cụm dữ liệu nào. SVM chính là một biện pháp để
107
MA THị HồNG THu, PHùNG THị THu TRANG
thực hiện được phép lấy mặt phẳng như vậy [7].
Một máy vector hỗ trợ thực hiện phân loại bài viết thành 2 lớp tích cực và tiêu cực
bằng cách lập bản đồ phi tuyến của tập dữ liệu huấn luyện thành một không gian đặc trưng
đa chiều. Sau đó, xây dựng một siêu phẳng (ranh giới quyết định) N-chiều để tách bộ dữ
liệu thành hai cụm tích cực và tiêu cực.
Hình 3. Ví dụ về 2 đường thẳng khác nhau cho phép tách bộ dữ liệu thành 2 cụm
Hình 3 cho thấy một bộ dữ liệu tuyến tính được tách biệt trong một không gian 2
chiều với hai cách khác nhau để phân biệt chúng. Chất lượng của siêu phẳng này được
quyết định bởi một khoảng cách (được gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp
đến mặt phẳng này. Khoảng cách biên càng lớn thì sự phân chia các điểm ra thành hai lớp
càng tốt, nghĩa là sẽ đạt được kết quả phân loại tốt.
Đối với bài toán phân tích tình cảm trong câu, mỗi bình luận đầu vào sẽ cho n đặc
trưng thông qua kỹ thuật tf-idf. Do đó, các câu này sẽ được biểu diễn thành các điểm dữ
liệu trong không gian n chiều. Nhiệm vụ của chúng ta là sử dụng SVM để xây dựng 2 siêu
phẳng làm biên tương ứng cho 2 lớp tích cực và tiêu cực sao cho khoảng cách biên này
là lớn nhất.
Ưu điểm:
- Hiệu quả trong không gian sâu.
- Vẫn hiệu quả trong trường hợp kích thước không gian lớn hơn số mẫu.
- Dễ tùy chỉnh với nhiều hàm kernel khác nhau.
Nhược điểm:
- Nếu sử dụng số lượng đặc trưng lớn hơn nhiều số lượng mẫu sẽ dễ xảy ra hiện
tượng over-fitting.
- Các SVM không trực tiếp cung cấp các ước tính xác suất, chúng được tính toán
bằng cách sử dụng five-fold cross-validation.
2.3. Mạng nơron nhiều tầng (Multi Layer Perceptron)
Mạng neural network (NN) là sự kết hợp của của các tầng perceptron hay còn được
gọi là perceptron đa tầng (multilayer perceptron) như trong hình 4.
Một mạng NN sẽ có 3 kiểu tầng:
108
SO SáNH MỘT SỐ PHươNG PHáP HỌC MáY...
* Tầng vào (input layer): Là tầng bên
trái cùng của mạng thể hiện cho các đầu vào
của mạng. Đối với bài toán này, tầng đầu
vào chính là n đặc trưng của mỗi câu sau
khi áp dụng kỹ thuật trích chọn đặc trưng.
* Tầng ra (output layer): Là tầng bên
phải cùng của mạng thể hiện cho các đầu ra
của mạng. Đối với bài toán này, chúng ta có
1 nút đầu ra thể hiện cho kết quả dự đoán
tích cực hoặc tiêu cực của mô hình.
* Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra thể hiện cho việc
suy luận logic của mạng.
Tất cả các nốt mạng (nơ-ron) được kết hợp đôi một với nhau theo một chiều duy
nhất từ tầng vào tới tầng ra. Hay nói cách khác, việc suy luận trong mạng NN là suy luận
tiến (feedforward) như trong công thức (2) và (3) [7][8]:
(2)
(3)
Trong đó, n(l) là số lượng nút ở tầng l tương ứng và là nút mạng thứ j của tầng l.
Còn là tham số trọng lượng của đầu vào đối với nút mạng thứ i của tầng l+1
và là độ lệch (bias) của nút mạng thứ i của tầng l+1. Đầu ra của nút mạng này được
biểu diễn bằng ứng với hàm kích hoạt tương ứng.
Ưu điểm:
- Đơn giản, dễ cài đặt.
- Có thể sử dụng để giải quyết nhiều bài toán dạng phân lớp trong học máy.
Nhược điểm:
- Khi số lượng hidden layers lớn lên, số lượng hệ số cần tối ưu cũng lớn lên và mô
hình sẽ trở nên phức tạp. Sự phức tạp này ảnh hưởng tới hai khía cạnh:
* Thứ nhất, tốc độ tính toán sẽ bị chậm đi rất nhiều.
* Thứ hai, nếu mô hình quá phức tạp, nó có thể biểu diễn rất tốt training data, nhưng
lại không biểu diễn tốt test data.
2.4. Mạng nơron tích chập (Convolutional Neural Network)
Mạng nơron tích chập (CNN) là một loại mạng neuron đặc biệt để xử lý dữ liệu có
cấu trúc dạng lưới. Chẳng hạn, dữ liệu dạng chuỗi thời gian (time-series) có thể được xem
là lưới 1 chiều chứa các mẫu được lấy tại các khoảng thời gian nhất định, hay dữ liệu hình
Hình 4. Ví dụ về một mạng NN
110
SO SáNH MỘT SỐ PHươNG PHáP HỌC MáY...
chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate). Hiện nay, có nhiều
biến thể của LSTM được đề xuất như: Bi-LSTM, GRu,
Trong bài toán này, đầu vào và đầu ra của mạng LSTM được thiết lập tương tự như
mạng CNN.
Ưu điểm:
- Thường được áp dụng cho các đối tượng văn bản hoặc âm thanh vì có khả năng
ghi nhớ tốt.
- Không cần phải huấn luyện nó để có thể nhớ được, Do đó, giải quyết được vấn đề
phụ thuộc xa mà RNN không làm được.
Nhược điểm:
- Phức tạp hơn mạng RNN do đó tốc độ thường chậm hơn.
- Do có một tập các công thức, khiến cho LSTM trở nên khá khó hiểu.
3. Thực nghiệm
3.1. Bộ cơ sở dữ liệu Foody.vn và các thiết lập
Foody.vn là trang web được Công ty Cổ phần FOODY xây dựng nhằm mục đích
tìm kiếm và đánh giá các nhà hàng, khách sạn, địa điểm du lịch ở Việt Nam một cách
chi tiết, thuận lợi cho người sử dụng. Hiện tại trên Foody.vn đang lưu trữ hơn 38 triệu
người sử dụng, hơn 1 triệu bình luận, hơn 500 nghìn check-in và hơn 9 triệu ảnh.
Bô cơ sử dữ liệu Foody.vn được lấy từ các bình luận của trang web foody.vn. Với
việc phân loại cảm xúc tích cực và tiêu cực được dựa trên số điểm trung bình của mỗi bình
luận. Theo đó, các bình luận tiêu cực được lấy mức điểm đánh giá từ 0,1 tới 5,7 điểm. Còn
các bình luận tích cực được lấy mức điểm từ 8,5 tới 10,0.
Tổng số lượng mẫu của trong cả data_train và data_test là 50.000 mẫu dữ liệu bình
luận (review). Được phân chia như sau:
* Số lượng mẫu tập train là 30.000 bình luận.
* Số lượng mẫu tập validation là 10.000 bình luận.
* Số lượng mẫu tập test là 10.000 bình luận.
Để tải bộ dữ liệu này, bạn đọc có thể truy cập website tại [11]:
Để so sánh các phương pháp học máy với nhau, chúng tôi sử dụng thuật toán tf-idf
để trích chọn ra các đặc trưng trong các bình luận. Tất cả các mô hình học máy đều được
chúng tôi cài đặt bằng ngôn ngữ python trên cùng một máy tính với cấu hình CPu 3.6GHz
x 8, RAM 20GB, hệ điều hành ubuntu 16.04.
Mã nguồn của chương trình được cung cấp tại địa chỉ: https://tinyurl.com/y2tgsfxn
3.2. Kết quả và thảo luận
Theo như hình 6, có thể thấy rằng số lượng các đặc trưng được trích rút trong các
câu tăng lên thì độ chính xác của các phương pháp cũng tăng lên. Phương pháp đơn giản
112
SO SáNH MỘT SỐ PHươNG PHáP HỌC MáY...
TÀI LIỆU THAM KHẢo
[1] V. Hatzivassiloglou and J. M. Wiebe, "Effects of adjective orientation and gradability
on sentence subjectivity," in Proceedings of the 18th conference on Computational
linguistics-Volume 1, 2000, pp. 299-305.
[2] P. D. Turney, "Thumbs up or thumbs down?: semantic orientation applied to
unsupervised classification of reviews," in Proceedings of the 40th annual meeting
on association for computational linguistics, 2002, pp. 417-424
[3] Phan Dang-Hung, Cao Tuan-Dung (2014), “Applying skip-gram word estimation and
SVM-based classification for opinion mining Vietnamese food places text reviews”,
Proceedings of the Fifth Symposium on Information and Communication Technology
(SoICT) ACM, Ha Noi, pp. 232 – 239.
[4] Duyen Nguyen. Thi, Ngo. Xuan Bach, Tu. Minh Phuong, "An empirical study on
sentiment analysis for Vietnamese", Advanced Technologies for Communications
(ATC) International Conference on. IEEE, 2014.
[5] Q. Vo, H. Nguyen, B. Le and M. Nguyen (2017), “Multi-channel LSTM-CNN model
for Vietnamese sentiment analysis”, 9th International Conference on Knowledge and
Systems Engineering (KSE), Hue, pp. 24-29.
[6] Kỹ thuật trích chọn đặc trưng tf-idf, https://en.wikipedia.org/wiki/Tf%E2%80%93idf
[7] Vũ Hữu Tiệp (2018), “Machine Learning cơ bản”, Nhà xuất bản khoa học và kỹ thuật.
[8] Bishop, Christopher M. (2006), “Pattern recognition and Machine Learning”, Nhà
xuất bản Springer.
[9] Yoon Kim (2014), “Convolutional neural networks for sentence classification”,
Proceedings of the 2014 Conference on Empirical Methods in Natural Language
Processing (EMNLP), Qatar, pp. 1746–1751.
[10] Hochreiter và Schmidhuber (1997), “Long Short Term Memory networks”, Journal
of Neural Computation, MIT Press, 9(8):1735 – 1780.
[11] Bộ cơ sở dữ liệu Foody.vn, Link: https://github.com/congnghia0609/ntc-scv/tree/
master/data.
113
MA THị HồNG THu, PHùNG THị THu TRANG
Title: A CoMPARISoN oF MACHINE LEARNING APPRoACHES To
SENTIMENT ANALYSIS IN SENTENCES
MA THI HONG THu
Tan Trao University
PHuNG THI THu TRANG
Thai Nguyen University
Abstract: Sentiment analysis is one of the most important problems in natural
language processing. There have been many machine learning approaches proposed to
solve this problem. However, these approaches only work on small datasets and they are
less compared to others. This paper presents 5 different machine learning approaches
and makes a comparison between them on the same database of Foody.vn. 1000, 1500
and 2000 specificities are respectively incorporated into these five approaches to draw
distinctions. The results show that the difference in accuracy and results between these
approaches is not much, about 2% and 4 % respectively. It can be seen that the outcome
of the problem is not affected by the choice of a complex or simple machine learning
approach, but it depends on the sum of specificity used.
Keywords: Sentiment analysis, machine learning, artificial intelligence, deep
learning, natural language processing