Với sựbùng nổcủa nguồn dữliệu trên Internet, những bài toán vềxửlý thông
tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời nhưmột nhu cầu
tất yếu. Thông tin trên mạng thường gồm 2 loại: sựviệc và quan điểm. Ngược với loại
quan điểm, thông tin vềsựviệc được rất nhiều công cụgiải quyết nhưmáy tìm kiếm,
lọc thông tin, … Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét
vềmức độquan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty
buôn bán sản phẩm. Đối với họ, ý kiến đánh giá vềsản phẩm mà người dùng đưa ra là
quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả.
Ra đời nhưmột thiết yếu, hệthống đánh giá quan điểm người dùng đã được nghiên
cứu mạnh mẽtrong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong
đợi. Trong đó có phương pháp đưa ra được kết quảkhá khảquan nhưphương pháp sử
dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy.
75 trang |
Chia sẻ: nhungnt | Lượt xem: 2144 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Đề tài Tự động đánh giá quan điểm người dùng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
----WX----
Kiều Thanh Bình
TỰ ĐỘNG ĐÁNH GIÁ
QUAN ĐIỂM NGƯỜI DÙNG
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2010
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
----WX----
Kiều Thanh Bình
TỰ ĐỘNG ĐÁNH GIÁ
QUAN ĐIỂM NGƯỜI DÙNG
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
GV hướng dẫn: TS. Phạm Bảo Sơn
Hà Nội – 2010
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
i
Lời mở đầu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông
tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu
tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại
quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm,
lọc thông tin, … Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét
về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty
buôn bán sản phẩm. Đối với họ, ý kiến đánh giá về sản phẩm mà người dùng đưa ra là
quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả.
Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên
cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong
đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử
dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy.
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
ii
Lời cảm ơn
Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người
đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa
qua. Em cũng chân thành cảm ơn mọi người ở phòng HMI lab đặc biệt là anh Nguyễn
Bá Đạt đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc.
Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học
Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua.
Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm
việc tốt hơn. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi.
Hà Nội, ngày 20 tháng 5 năm 2010
Kiều Thanh Bình
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
iii
Mục lục
Lời mở đầu ..................................................................................................................... i
Lời cảm ơn..................................................................................................................... ii
Mục lục ......................................................................................................................... iii
Danh sách hình vẽ........................................................................................................ vi
Danh sách bảng........................................................................................................... vii
Chương 1 Giới thiệu .....................................................................................................1
Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm ...........................3
2.1 Xu hướng các cuộc nghiên cứu gần đây..............................................................3
2.1.1 Xác định từ, cụm từ quan điểm...................................................................4
2.1.2 Xác định chiều hướng từ, cụm từ quan điểm..............................................4
2.1.3 Phân lớp câu / tài liệu chỉ quan điểm..........................................................7
2.2 Những thách thức và công việc có thể trong tương lai .......................................9
2.2.1 Các loại từ khác ..........................................................................................9
2.2.2 Thuật ngữ chỉ quan điểm ..........................................................................10
2.2.3 Tính phủ định............................................................................................10
2.2.4 Cấp độ quan điểm .....................................................................................11
2.2.5 Sự phức tạp của câu / tài liệu....................................................................12
2.2.6 Quan điểm theo ngữ cảnh .........................................................................13
2.2.7 Tài liệu không đồng nhất ..........................................................................13
2.2.8 Một số vấn đề khác ...................................................................................14
Chương 3 Giới thiệu GATE.......................................................................................15
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
iv
3.1 Tổng quan về GATE ..........................................................................................15
3.1.1 Mô hình kiến trúc của GATE ...................................................................16
3.1.2 Những khái niệm cơ bản trong GATE......................................................18
3.2 Xây dựng plugin trên GATE ..............................................................................18
3.3 Các thành phần quan trọng của GATE .............................................................21
3.3.1 Bộ từ điển (Gazetteers) .............................................................................21
3.3.2 Bộ luật JAPE.............................................................................................22
3.4 Các công cụ quản lý chất lượng........................................................................27
3.4.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation
Diff) ........................................................................................................................27
3.4.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool).....28
Chương 4 Hệ thống đánh giá quan điểm người dùng..............................................30
4.1 Giới thiệu hệ thống ............................................................................................30
4.2 Thu thập dữ liệu và gán nhãn............................................................................31
4.2.1 Thu thập dữ liệu........................................................................................32
4.2.2 Gán nhãn dữ liệu.......................................................................................33
4.3 Xây dựng hệ thống đánh giá quan điểm............................................................34
4.3.1 Mô tả tổng quan hệ thống .........................................................................35
4.3.2 Tiền xử lý..................................................................................................37
4.3.3 Xây dựng bộ từ điển .................................................................................38
4.3.4 Xây dựng bộ luật.......................................................................................40
Chương 5 Kết quả thực nghiệm và phân tích lỗi.....................................................46
5.1 Tiến hành thực nghiệm ......................................................................................46
5.2 Kết quả thực nghiệm..........................................................................................47
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
v
5.2.1 Kết quả thực nghiệm đánh giá ở mức từ...................................................47
5.2.2 Kết quả thực nghiệm đánh giá ở mức câu ................................................48
5.2.3 Kết quả thực nghiệm đánh giá ở mức văn bản theo từng Features ..........49
5.2.4 Kết luận chung về kết quả đánh giá..........................................................53
5.3 Phân tích lỗi.......................................................................................................54
5.3.1 Lỗi do gán nhãn từ loại (POS tag) ............................................................54
5.3.2 Lỗi do luật .................................................................................................56
5.3.3 Lỗi do tách câu..........................................................................................57
Chương 6 Tổng kết và hướng phát triển................................................................59
Tài liệu tham khảo.......................................................................................................60
Phụ lục A. Annotation Guideline. ..............................................................................63
Phụ lục B. Bảng nhãn từ loại tiếng Việt ....................................................................64
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
vi
Danh sách hình vẽ
Hình 1 - Giao diện của GATE.......................................................................................16
Hình 2 - Mô hình kiến trúc của GATE [6] ....................................................................17
Hình 3 - Giao diện thêm một thành phần tích hợp vào GATE......................................20
Hình 4 - Chọn các thành phần cho ứng dụng GATE ....................................................21
Hình 5 - Giao diện của Annotation Diff ........................................................................27
Hình 6 - Giao diện của Corpus Benchmark tool ...........................................................28
Hình 7 - Minh họa giao diện hệ thống...........................................................................31
Hình 8 - Những reviews do người dùng đánh giá ở trang tinvadung.vn.......................33
Hình 9 - Gán nhãn dữ liệu .............................................................................................34
Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE............36
Hình 11 - GATE sau khi POS Tag và Lookup..............................................................40
Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ .............................................55
Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu.......................................................56
Hình 14 - Lỗi do viết luật ảnh hưởng đến nhận dạng từ ...............................................57
Hình 15 – Lỗi do tách câu .............................................................................................58
Tự động đánh giá ý kiến người dùng Kiều Thanh Bình
vii
Danh sách bảng
Bảng 1 - Kết quả nhận dạng từ đánh giá trên tập huấn luyện .......................................47
Bảng 2 - Kết quả nhận dạng từ đánh giá trên tập kiểm tra............................................47
Bảng 3 - Kết quả nhận dạng câu đánh giá trên tập huấn luyện .....................................48
Bảng 4 - Kết quả nhận dạng câu đánh giá trên tập kiểm tra..........................................48
Bảng 5 - Kết quả đánh giá Acer Aspire 3935 trên tập huấn luyện................................50
Bảng 6 - Kết quả đánh giá Apple Macbook Air MB543ZPA trên tập huấn luyện .......50
Bảng 7 - Kết quả đánh giá Acer Aspire AS4736 trên tập huấn luyện...........................51
Bảng 8 - Kết quả đánh giá Feature trên tập huấn luyện ................................................51
Bảng 9 - Kết quả đánh giá Dell Inspiron 1210 trên tập kiểm tra ..................................51
Bảng 10 - Kết quả đánh giá Compaq Presario CQ40 trên tập kiểm tra ........................52
Bảng 11 - Kết quả đánh giá HP Pavilion dv3 trên tập kiểm tra ....................................52
Bảng 12 - Kết quả đánh giá Feature trên tập kiểm tra...................................................53
Chương 1. Giới thiệu bài toán đánh giá quan điểm Kiều Thanh Bình
1
Chương 1
Giới thiệu
Hiện nay nền công nghệ càng ngày càng phát triển, đặc biệt với sự ra đời của
Web, lượng thông tin trên Web là một kho tàng đồ sộ và nhiệm vụ của chúng ta là làm
thế nào để khai thác kho tàng to lớn đó. Chính vì nó quá khổng lồ cho nên lượng thông
tin rác cũng rất nhiều, vậy làm thế nào để biết được cái gì là cần thiết và cái gì là dư
thừa. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay
Machine Learning đều đi tìm câu trả lời cho câu hỏi đó tuy nhiên chúng cũng chỉ tìm
được câu trả lời cho những phần nhỏ của câu hỏi mà thôi. Mỗi người quan tâm một số
lĩnh vực, mỗi người cần biết thông tin về một vài thứ mà trên Web thì bao gồm vô vàn
thông tin thế nhưng lĩnh vực mà đa số người đều quan tâm, từ những nhà doanh
nghiệp đến khách hàng - những người dùng đều quan tâm đó chính là sản phẩm.
Người dùng thì quan tâm sản phẩm này có tốt không, sản phẩm kia tốt ở chỗ nào và
chỗ nào không tốt. Còn doanh nghiệp thì lại thường quan tâm đến sản phẩm của họ
được mọi người tiếp đón thế nào, những điểm nào chưa tốt để họ bổ sung sửa chữa,
hay phát huy thêm những điểm người dùng quan tâm … Câu trả lời cho những câu hỏi
này nằm trong nghiên cứu về “Opinion Mining” hay còn gọi “phân tích quan điểm
người dùng”. Nghiên cứu này của chúng tôi xuất phát từ sự cần thiết của doanh nghiệp
và người dùng, sử dụng những công cụ có ích nhất để đánh giá một cách chính xác
nhất về sản phẩm. Với mỗi sản phẩm sẽ có những điểm tính năng riêng (Features) và
nhiệm vụ của chúng tôi là từ những review, comment, Feedback,… trên nguồn dữ liệu
khổng lồ Web để đánh giá xem tính năng của sản phẩm này được mọi người tiếp đón
thế nào.
Chương 1. Giới thiệu bài toán đánh giá quan điểm Kiều Thanh Bình
2
Hệ thống của chúng tôi sử dụng dữ liệu từ trên trang Web http//tinvadung.vn
làm dữ liệu chuẩn để phát triển và kiểm thử hệ thống. Chúng tôi giải quyết bài toán
dựa trên hướng tiếp cận về luật và phân lớp ở mức câu. Ở đây chúng tôi tạm thời chia
thành 2 loại đánh giá của người dùng là hướng tích cực (positive) và hướng tiêu cực
(negative). Hệ thống của chúng tôi được xây dựng trên nền GATE [3] – là một
framework giúp phát triển các thành phần xử lý ngôn ngữ tự nhiên, và được sử dụng
với dữ liệu về máy tính (laptop & desktop). Trong tương lai chúng tôi sẽ phát triển hệ
thống để đưa ra một thước đo chính xác hơn về những đánh giá và mở rộng thêm với
các lĩnh vực khác.
Phần còn lại của khóa luận được chia thành 5 chương:
• Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán tự động
đánh giá quan điểm người dùng, những công trình nghiên cứu hiện tại và những
thách thức sẽ giải quyết trong tương lai.
• Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE,
và cách xây dựng một hệ thống tích hợp trong GATE.
• Chương 4: Chúng tôi mô tả chi tiết hệ thống tự động đánh giá quan điểm người
dùng trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE.
• Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi
vẫn còn tồn tại.
• Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ
thống trong tương lai.
Chương 2. Hướng tiếp cận cho bài toán đánh giá quan điểm Kiều Thanh Bình
3
Chương 2
Các hướng tiếp cận cho
bài toán đánh giá quan điểm
Với sự phát triển nhanh chóng của tài nguyên mạng, đặc biệt là những quan
điểm trực tuyến (quan điểm sản phẩm, quan điểm phim ảnh,…) nhiều nghiên cứu hiện
đang chú trọng vào mảng phân tích ý kiến, cũng được biết đến như mảng đánh giá
quan điểm. Đó là một chuyên ngành học mới bao gồm: trích xuất thông tin (IR), xử lý
ngôn ngữ tự nhiên (NLP) và ngôn ngữ học máy tính. Hệ thống đánh giá quan điểm
thường cố gắng tìm ra những từ, cụm từ chỉ ý kiến, xác định chiều hướng của những
từ, cụm từ, sau đó phân lớp câu, đoạn hay toàn bộ tài liệu dựa trên những xu hướng
quan điểm đó. Bởi vậy, nhiệm vụ thông thường của hệ thống đánh giá quan điểm bao
gồm nhận biết từ, cụm từ chỉ quan điểm và phân loại tài liệu hoặc câu theo các chiều
hướng quan điểm. Khác với việc phân loại thể loại hay chủ đề, việc phân loại quan
điểm đòi hỏi sự am hiểu về chiều hướng cảm xúc trong bài viết. Một số khía cạnh
mang tính thách thức trong đánh giá quan điểm tồn tại trong việc sử dụng những loại
từ khác, việc xây dựng thuật ngữ quan điểm, những mức độ quan điểm khác nhau, sự
phức tạp của câu chữ, từ ngữ trong những văn cảnh khác nhau, việc phân loại quan
điểm trong bài viết phức tạp… Một số phương pháp đã được đề xuất để giải quyết
những vấn đề trên, tuy nhiên trong tương lai sẽ có nhiều nghiên cứu hơn nữa nhằm
giải quyết triệt để những thách thức đó.
2.1 Xu hướng các cuộc nghiên cứu gần đây
Từ cách đây một vài năm, việc đánh giá quan điểm đã trở thành chủ đề nóng
giữa các nhà nghiên cứu xử lý ngôn ngữ tự nhiên và trích chọn thông tin. Nhiều nỗ lực
Chương 2. Hướng tiếp cận cho bài toán đánh giá quan điểm Kiều Thanh Bình
4
lớn dành cho việc nghiên cứu ở mảng này, có khá nhiều các bài báo được xuất bản và
những ứng dụng khác nhau có sử dụng hệ thống đánh giá quan điểm được phát triển và
đưa vào trong hoạt động thương mại. Mặc dù các ứng dụng dựa trên hệ thống đánh giá
quan điểm có mục đích, vấn đề trọng tâm, điểm nổi bật khác nhau; tuy nhiên chúng
thường được chia thành 3 phần chính: xác định từ, cụm từ chỉ quan điểm; xác định xu
hướng quan điểm và phân loại câu hay văn bản chỉ quan điểm. Ba thành phần cơ bản
này cũng là 3 thành phần cơ bản xây dựng trên hệ thống của chúng tôi.
2.1.1 Xác định từ, cụm từ quan điểm
Những từ, cụm từ chỉ quan điểm là những từ ngữ được sử dụng để diễn tả cảm
xúc, ý kiến người viết; những quan điểm chủ quan đó dựa trên những vấn đề mà anh ta
hay cô ta đang tranh luận. Việc rút ra những từ, cụm từ chỉ quan điểm là giai đoạn đầu
tiên trong hệ thống đánh giá quan điểm, vì những từ, cụm từ này là những chìa khóa
cho công việc nhận biết và phân loại tài liệu sau đó.
Ứng dụng dựa trên hệ thống đánh giá quan điểm hiện nay tập trung vào các từ
chỉ nội dung câu: danh từ, động từ, tính từ và phó từ. Phần lớn công việc sử dụng từ
loại để rút chúng ra (Hu và Liu, 2004a [12]; Turney, 2002 [22]). Việc gán nhãn từ loại
cũng được sử dụng trong công việc này, điều này có thể giúp cho việc nhận biết xu
hướng quan điểm trong giai đoạn tiếp theo. Những kĩ thuật phân tích ngôn ngữ tự
nhiên khác như xóa stopwords, stemming cũng được sử dụng trong giai đoạn tiền xử
lý để rút ra từ, cụm từ chỉ quan điểm.
2.1.2 Xác định chiều hướng từ, cụm từ quan điểm
Trong phân tích quan điểm, xu hướng của những từ, cụm từ trực tiếp thể hiện
quan điểm, cảm xúc của người viết bài. Phương pháp chính để nhận biết xu hướng
quan điểm của những từ, cụm từ chỉ cảm nghĩ là dựa trên thống kê hoặc dựa trên từ
vựng. Hệ thống của chúng tôi dùng luật để xác định chiều hướng và từ quan điểm cũng
chính là phương pháp dựa trên từ vựng.
Chương 2. Hướng tiếp cận cho bài toán đánh giá quan điểm Kiều Thanh Bình
5
2.1.2.1 Sử dụng tính từ và phó từ
Những hệ thống hiện tại dùng để nhận biết những từ chỉ quan điểm hay xu
hướng quan điểm tập trung chủ yếu vào các tính từ và phó từ vì chúng được xem là sự
biểu lộ rõ ràng nhất của tính chủ quan (Hatzivassiloglou and McKeown, 1997 [11];
Wiebe and Bruce, 1999 [2]).
Hu và Liu (2004a) [12] áp dụng việc gán nhãn từ loại và kĩ thuật xử lý ngôn
ngữ tự nhiên nhằm rút ra những tính từ cũng như những từ chỉ quan điểm (đã được nói
đến ở mục 2.1.1). Sau đó họ xác định những dấu hiệu ở quan điểm về sản phẩm vì
phương pháp của họ tập trung vào việc phân loại quan điểm dựa trên những dấu hiệu.
Họ định nghĩa một câu mà chứa một hay nhiều dấu hiệu sản phẩm và từ chỉ quan điểm
được xem là một câu chỉ quan điểm.
Sau đó với mỗi một câu trong dữ liệu chỉ quan điểm, họ rút ra tất cả những tính
từ được coi là những từ chỉ quan điểm. Kết quả thực nghiệm việc rút ra những câu
đánh giá quan điểm có độ chính xác (precision) khoảng 64.2% và recall là 69.3%.
Họ sử dụng WordNet (Fellbaum, 1998 [10]) để xác định các tính từ được rút ra
mang chiều hướng tích cực (positive) hay tiêu cực (negativ