Tóm tắt. Ngày nay con người phải đối mặt với lượng thông tin khổng lồ đến từ rất nhiều
nguồn khác nhau nhưng những thông tin hữu ích, dữ liệu đáng tin cậy lại chiếm tỉ lệ rất
nhỏ. Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có
số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc
tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số.
Việc phân lớp càng trở nên khó khăn hơn khi gặp phải những bộ dữ liệu có tỉ lệ mất cân
bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Từ thực tế đó, chúng tôi
xin đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình
phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương
pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó
là: leukemia, breast-p, coil, colon-cancer. Qua những kết quả thu được chúng tôi thấy rằng
phương pháp mới giúp nâng cao hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa có
tỉ lệ mất cân bằng cao.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 497 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0056
Educational Sci., 2015, Vol. 60, No. 7A, pp. 94-102
This paper is available online at
NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG CÁCH
KẾT HỢP SINH THÊM PHẦN TỬ VỚI GIẢM SỐ CHIỀU THUỘC TÍNH
DỰA TRÊN BÌNH PHƯƠNG TỐI THIỂU TỪNG PHẦN
Nguyễn Thái Bình, Nguyễn Thị Anh Nga, Nguyễn Thị Hồng và Đặng Xuân Thọ
Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt. Ngày nay con người phải đối mặt với lượng thông tin khổng lồ đến từ rất nhiều
nguồn khác nhau nhưng những thông tin hữu ích, dữ liệu đáng tin cậy lại chiếm tỉ lệ rất
nhỏ. Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có
số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc
tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số.
Việc phân lớp càng trở nên khó khăn hơn khi gặp phải những bộ dữ liệu có tỉ lệ mất cân
bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Từ thực tế đó, chúng tôi
xin đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình
phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương
pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó
là: leukemia, breast-p, coil, colon-cancer. Qua những kết quả thu được chúng tôi thấy rằng
phương pháp mới giúp nâng cao hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa có
tỉ lệ mất cân bằng cao.
Từ khóa: Phân lớp; dữ liệu mất cân bằng; dữ liệu có số chiều cao; Bình phương tối thiểu
từng phần; sinh thêm phần tử nhân tạo.
1. Mở đầu
Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số
thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại
có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Vì vậy, trong thời
gian qua đã có rất nhiều hướng tiếp cận khác nhau nhằm làm giảm số thuộc tính dư thừa nhưng
không làm mất mát thông tin mà vẫn đảm bảo độ tin cậy cao đó là lựa chọn thuộc tính và trích
chọn thuộc tính. Vì thế đã có nhiều thuật toán được đưa ra để giải quyết bài toán giảm số chiều
dữ liệu thuộc nhóm lựa chọn thuộc tính như: thuật toán RELIEF, FOCUS, LVF [3]. Tuy nhiên với
những tập dữ liệu có số chiều rất cao hoặc các thuộc tính có mối tương quan cao với nhau thì các
phương pháp theo hướng lựa chọn thuộc tính tỏ ra kém hiệu quả, bởi khi bỏ bớt thuộc tính sẽ dẫn
đến mất mát thông tin và làm thay đổi bản chất của dữ lệu, các thuộc tính trong bảng không còn
giữ lại được mối tương quan với nhau, do đó thường cho kết quả có độ tin cậy thấp.
Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015
Liên hệ: Nguyễn Thái Bình, e-mail: nguyenthaibinh020906@gmail.com
94
Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều...
Trích chọn thuộc tính là một hướng nghiên cứu mới trong các phương pháp giảm số chiều
dữ liệu. Ý tưởng chính của nhóm phương pháp này là tạo ra một tập thuộc tính mới đại diện cho
tập thuộc tính cũ. Tập thuộc tính mới này mang đầy đủ đặc tính của thuộc tính cũ nhưng nhỏ hơn
rất nhiều lần số lượng thuộc tính cũ. Việc giảm chiều này hạn chế tối đa mất mát thông tin và đặc
biệt là không làm thay đổi bản chất của dữ liệu ban đầu.
Đại diện cho hướng tiếp cận này là nhóm phương pháp: phân tích thành phần chính
PCA [10], phân tích tương quan kinh điển CCA [10] và phương pháp bình phương tối thiểu từng
phần PLS [10]. Đặc biệt là phương pháp PLS việc giảm số chiều (thuộc tính) của tập dữ liệu dựa
vào cả tập thuộc tính X và tập nhãn Y. Phương pháp PLS sử dụng tập nhãn để xây dựng từng trục
tọa độ trong không gian dữ liệu mới. Để tìm hệ trục tọa độ trong không gian mới, PLS sử dụng
cách giải bài toán cực đại hiệp phương sai, nhờ đó phạm vi áp dụng rộng hơn và độ tin cậy của mô
hình cũng cao hơn.
Tuy nhiên trong thực tế cho thấy, không chỉ xuất hiện những bộ dữ liệu có số thuộc tính lớn
mà còn xuất hiện nhiều bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần
tử giữa các lớp. Vấn đề không cân bằng lớp thường được quy về bài toán phân lớp nhị phân mà
ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại. Trong nhiều ứng dụng
thực tế, chẳng hạn như phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng trái phép, phát
hiện tràn dầu từ hình ảnh Radar vệ tinh, sự rủi ro trong quản lí, phân loại văn bản hay trong chẩn
đoán y học [1, 2]. Việc mất cân bằng lớp ảnh hưởng rất lớn đến hiệu quả của các mô hình phân
lớp. Chẳng hạn trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất ít trên tổng
số người bình thường. Việc chuẩn đoán sai người bị bệnh thành không bị bệnh ảnh hưởng nghiêm
trọng đến sức khỏe và tính mạng con người.
Vì vậy, trong thời gian qua đã có những nghiên cứu về khai phá dữ liệu mất cân bằng với
các hướng tiếp cận khác nhau nhưng phương pháp sinh thêm phần tử là một trong những hướng
đơn giản mà hiệu quả, chẳng hạn như: SMOTE [2], ADD-BODER-SMOTE [6].
Thuật toán SMOTE giúp cải thiện mật độ của lớp thiểu số, đồng thời không làm thay đổi
lớp đa số. Trong thuật toán SMOTE mỗi dữ liệu được tạo ra bằng cách thực hiện tính khoảng cách
của mỗi phần tử lớp thiểu số đến các phần tử còn lại trong bộ dữ liệu. Sau đó đưa ra k hàng xóm
gần nó nhất và chọn ngẫu nhiên một giá trị bất kì trong k hàng xóm đó để sinh thêm các phần tử
nhân tạo.
Tuy nhiên, vấn đề càng trở nên khó khăn hơn khi xuất hiện những bộ dữ liệu vừa có tỉ lệ
mất cân bằng cao vừa có số thuộc tính rất lớn. Do đó, để giải quyết cùng lúc hai vấn đề trên, chúng
tôi đã đề xuất một phương pháp mới, phương pháp kết hợp sinh thêm phần tử với giảm số chiều
dựa trên bình phương tối thiểu từng phần (PLS_SMOTE) trong lớp thiểu số.
2. Nội dung nghiên cứu
2.1. Phương pháp bình phương tối thiểu từng phần (PLS)
Phương pháp bình phương tối thiểu từng phần (Partial Least Square) do Herman Wold đưa
ra vào năm 1966 [9]. PLS là một nhóm các kĩ thuật nhằm xây dựng mô hình quan hệ giữa hai bộ
biến đa chiều (là tập dữ liệu học và tập nhãn), tức là xây dựng hàm hồi quy giữa biến phụ thuộc và
biến độc lập trong bài toán hồi quy hoặc xây dựng một hàm rời rạc nhằm xác định lớp giá trị nhận
được của biến.
95
Nguyễn Thái Bình
PLS là một phương pháp học có giám sát như CCA, có nghĩa là khi thực hiện giảm số chiều
dữ liệu, PLS dựa vào cả thông tin của tập dữ liệu học và thông tin trong tập dữ liệu nhãn. Điều này
đảm bảo tính “định hướng” theo những thông tin có sẵn thu được từ kinh nghiệm thực tiễn hoặc
thông qua các thí nghiệm.
Ý tưởng của PLS là biểu diễn biến được giải thích Y và biến giải thích X thông qua giá trị
biến trung gian (biến ẩn). Biến ẩn được xác định bằng cách tổ hợp tuyến tính các biến ban đầu có
mối quan hệ với nhau. Nhờ vậy, số lượng biến giảm đi rất nhiều so với số lượng biến ban đầu. Điều
này loại bỏ được sai sót chủ quan khi lựa chọn biến tham gia vào bài toán. Việc lựa chọn số lượng
biến ẩn phụ thuộc vào mục đích của người sử dụng về số chiều thể hiện của đối tượng cần quan
sát. Vì vậy, PLS chủ yếu được sử dụng nhằm giảm số chiều dữ liệu cho tập biến.
PLS xây dựng không gian mới có số chiều nhỏ hơn số chiều của không gian ban đầu rất
nhiều lần, hệ tọa độ không gian là hệ trực chuẩn (các trục tọa độ trực giao nhau). PLS tìm các
vector điểm của không gian mới bằng cách giải bài toán cực đại hiệp phương sai giữa các bộ biến.
Nghĩa là bài toán trở về giải bài toán trị riêng, từ đó xác định vector riêng (được trình bày cụ thể
trong giải thuật NIPALS). Số lượng vector riêng chính là số chiều cần sử dụng, được lựa chọn theo
độ lớn của trị riêng đó.
Hàm thực hiện hồi quy mô hình dữ liệu tổng quát, tùy theo cách lựa chọn phương thức, có
thể biến đổi thành hồi quy PLS, PCA, hay CPPLS (bình phương tối thiểu từng phần chính tắc)
tương ứng với các gói hồi quy khác nhau như gói PLS, PCR, CPPLS.
2.2. SMOTE
Trong thực tế ngày càng xuất hiện nhiều bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có
sự chênh lệch về số phần tử giữa các lớp. Vấn đề không cân bằng lớp thường được quy về bài toán
phân lớp nhị phân mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại.
Trong nhiều ứng dụng thực tế, chẳng hạn như tỉ lệ mất cân bằng trong phát hiện các giao dịch gian
lận là 100:1 hay 100 000:1 (Provost & Fawcett, 2001), các bộ dữ liệu mất cân bằng trong các lĩnh
vực như cuộc gọi điện thoại lừa đảo (Fawcett & Provost, 1996), quản lí viễn thông (Ezawa, Singh,
& Norton, 1996), phân loại văn bản (Lewis & Catlett, 1994; Dumais, Platt, Heckerman, & Sahami,
năm 1998; Mladeni’c & Grobelnik, 1999; Lewis & Ringuette, 1994; Cohen, 1995) và phát hiện
của sự cố tràn dầu trong hình ảnh vệ tinh (Kubat, Holte, & Matwin, 1998) [1, 2].
Việc mất cân bằng lớp ảnh hưởng rất lớn đến hiệu quả của các mô hình phân lớp. Vì vậy
trong thời gian qua đã có một số hướng tiếp cận khác nhau để giải quyết vấn đề mất cân bằng lớp.
Một trong số đó là hướng tiếp cận dựa trên cấp độ dữ liệu. Thuật toán SMOTE giúp cải thiện mật
độ của lớp thiểu số, đồng thời không làm thay đổi lớp đa số.
SMOTE là một phương pháp lấy mẫu trong đó lớp thiểu số được lấy mẫu bằng cách lấy mỗi
phần tử ở lớp thiểu số và chọn k láng giềng gần nó nhất trong lớp thiểu số. Tùy thuộc vào số lượng
lấy mẫu được yêu cầu, hàng xóm từ k láng giềng gần nhất được chọn ngẫu nhiên. Các mẫu nhân
tạo được tạo ra bằng cách: Lấy sự khác biệt giữa các vector đặc trưng (mẫu) được xem xét và hàng
xóm gần nhất của nó [2]. Nhân sự khác biệt này với một số ngẫu nhiên giữa 0 và 1, và thêm vào nó
các vector đặc trưng được xem xét. Điều này làm chọn được một điểm ngẫu nhiên dọc theo đoạn
giữa hai thuộc tính cụ thể. Phương pháp này quyết định các phần tử thiểu số để lớp thiểu số trở
thành lớp phổ biến hơn.
96
Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều...
2.3. Phương pháp kết hợp PLS và SMOTE
Thuật toán sinh thêm phần tử lớp thiểu số, mà trong đó thuật toán SMOTE là một trong
những thuật toán tiêu biểu làm tăng tình hiệu quả của việc phân lớp nhờ tăng lượng phần tử nhân
tạo của lớp thiểu số. Nhưng cũng vì thế mà tăng dung lượng của bộ dữ liệu lên theo lượng phần
tử nhân tạo thêm vào. Mặt khác hiện nay trong các ứng dụng thực tế thì các bộ dữ liệu thường có
số thuộc tính rất lớn, có thể lên đến hàng nghìn thuộc tính. Điều đó dẫn đến quá trình phân lớp sẽ
mất rất nhiều thời gian cùng với đó là việc phân lớp những bộ dữ liệu đó sẽ không còn chính xác,
hoặc là độ chính xác phân lớp dữ liệu sẽ không cao. Để khắc phục việc tăng dung lượng bộ dữ liệu,
giảm số thuộc tính dư thừa đó chúng tôi đã đưa ra ý tưởng kết hợp giữa hai thuật toán đó là sinh
thêm phần tử (SMOTE) và giảm số chiều dữ liệu (PLS). Ý tưởng kết hợp này mang lại lợi ích đó
là dung lượng bộ dữ liệu không tăng cao hơn, hoặc chỉ bằng dung lượng bộ dữ liệu gốc, giảm được
thời gian chạy phân lớp xuống rất nhiều, và quan trọng hơn đó là việc kết hợp giữa sinh thêm phần
tử và giảm số chiều dữ liệu do đó cho kết quả phân lớp cao hơn so với các phương pháp riêng biệt.
Thuật toán SMOTE chỉ lấy ngẫu nhiên một trong số k phần tử lân cận thuộc lớp thiểu số để
sinh ra phẩn tử mới, và giữ nguyên lớp đa số. Do đó đã làm tăng đáng kể mật độ của lớp thiểu số
một cách khoa học và tạo ra sự cân bằng dữ liệu. Còn phương pháp PLS lại không tác động đến
các phần tử dữ liệu mà lại tác động đến số chiều (thuộc tính) của dữ liệu, chuyển sang một không
gian mới. Sự kết hợp giữa hai giải thuật SMOTE và PLS là sự kết hợp giữa hai ưu điểm của hai
thuật toán SMOTE và PLS. Làm tăng phần tử của lớp thiểu số, vừa giảm số chiều dữ liệu. Càng
làm tăng sự chính xác để phân lớp tốt dữ liệu trong phân lớp dữ liệu mất cân bằng, lại rút ngắn thời
gian chạy các bộ dữ liệu.
2.4. Thực nghiệm
2.4.1. Các tiêu chí đánh giá
Đối với phân lớp dữ liệu có hai lớp, một lớp với rất ít mẫu huấn luyện nhưng tầm quan trọng
cao hơn được gọi là lớp tích cực (positive); khác với lớp phổ biến nhưng không có nhiều ý nghĩa
cũng như tầm quan trọng được gọi là lớp tiêu cực (negative). Mẫu có thể được phân loại thành bốn
nhóm trong quá trình phân loại như kí hiệu trong ma trận nhầm lẫn sau:
Bảng 1. Ma trận nhầm lẫn
Nhãn dự đoán Nhãn Thực tế
Lớp Postive Lớp Negative
Lớp Positive True Positive (TP) False Positive (FP)
Lớp Negative False Negative (FN) True Negative (TN)
Các tiêu chí đánh giá dựa trên bảng ma trận nhầm lẫn:
TPrate= TP/ (TP+FN) (1)
TNrate= TN/ (TN+FP) (2)
G-mean=
√
TPrate.TNrate (3)
G-mean là một độ đo dùng để đánh giá hiệu quả phân lớp dữ liệu mất cân bằng giữa hai
lớp [2, 4].
97
Nguyễn Thái Bình
2.4.2. Dữ liệu
Chúng tôi đã tiến hành cài đặt và chạy chương trình bằng ngôn ngữ R và Perl được thực
nghiệm trên 4 bộ dữ liệu mất cân bằng từ nguồn UCI (University of California, Irvine) là: breast-p,
coi2000, leukemia và colon-cancer.
Bảng 2. Các bộ dữ liệu từ UCI
Tên dữ liệu Số phần tử Số thuộc tính Tỉ lệ mất cân bằng
Breast-p 198 32 1:4
Coil2000 5822 86 1:16
Leukemia 72 7128 1:3
Colon - cancer 62 2000 1:2
2.4.3. Thực nghiệm
Để chuẩn bị dữ liệu thực nghiệm chúng tôi đã thực hiện so sánh 8 phương pháp sau: Dữ
liệu gốc (original), dữ liệu giảm số chiều bằng phương pháp PLS ở cả 3 mô hình điều chỉnh (PLS,
CPPLS, PCR), dữ liệu với các phương pháp kết hợp của 3 mô hình điều chỉnh với thuật toán
SMOTE ta có (PLS_SMOTE, CPPLS_SMOTE, PCR_SMOTE).
Với mỗi cách chạy khác nhau thì sẽ có tham số đầu vào cho phương pháp PLS và SMOTE
khác nhau. Chẳng hạn với phương pháp PLS thì tham số đầu vào (số biến ẩn) phụ thuộc vào giá trị
căn bậc hai bình phương trung bình lỗi dự báo (RMSEP) [7, 8], ví dụ như tại số biến ẩn là 5 trị số
RMSEP không có mức giảm đáng kể vậy thì số biến ẩn bằng 5 chính là số lượng biến ẩn đủ dùng
cho các mô hình điều chỉnh PLS, CPPLS và PCR. Đối với phương pháp SMOTE tham số đầu vào
là N, ứng với mỗi giá trị của N thay đổi sẽ sinh ra một số lượng phần tử nhân tạo là khác nhau để
cố gắng cân bằng dữ liệu giữa tỉ lệ lớp thiểu số và lớp đa số.
Sau khi thực hiện các phương pháp PLS và SMOTE để tác động lên số phần tử cũng như
thuộc tính của dữ liệu chúng tôi sử dụng thuật toán phân lớp SVM (Support Vector Machine) cuối
cùng để đánh giá độ chính xác phân lớp của phương pháp kết hợp chúng tôi dựa trên giá trị trung
bình G-mean của 20 lần 10 fold cross-validation.
2.5. Kết quả thảo luận
Với mỗi hình bên dưới là đồ thị biểu diễn giá trị G-mean của 8 phương pháp chạy. Khi thực
nghiệm các phương pháp chạy dữ liệu chúng tôi đưa ra kết quả thu được theo giá trị G-mean tốt
nhất.
Trong Hình 1 đối với dữ liệu breast-p thì giá trị G-mean của phương pháp kết hợp
PLS_SMOTE là 68,45% cao hơn hẳn so với các phương pháp khác. Trong Hình 2 Đối với dữ
liệu coil2000 với tỉ lệ mất cân bằng lớn 1:16 ta thấy rằng giá trị G-mean của phương pháp kết hợp
PLS_SMOTE là 29,72% cao hơn hẳn so với hai phương pháp kết hợp khác là PCR_SMOTE và
CPPLS_SMOTE lần lượt là 29,72% và 7,1%.
Trong Hình 3 đối với dữ liệu leukemia ta cũng thấy được rằng giá trị G-mean của phương
pháp PLS_SMOTE cao hơn so với các phương pháp còn lại (CPPLS_SMOTE, PCR_SMOTE,
SMOTE, PLS, CPPPLS, SMOTE, original) là 94,76%. Tương tự trong Hình 4 đối với dữ liệu
colon-cancer thì dựa vào đồ thị ta thấy rằng G-mean của phương pháp kết hợp PLS_SMOTE là
87,12% cao hơn so với origional là 86,46% và SMOTE là 85,44%.
98
Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều...
Hình 1. Đồ thị so sánh giá trị G-mean của bộ dữ liệu breast-p
Hình 2. Đồ thị so sánh giá trị G-mean của bộ dữ liệu coil2000
Hình 3. Đồ thị so sánh giá trị G-mean của bộ dữ liệu leukemia
99
Nguyễn Thái Bình
Hình 4. Đồ thị so sánh giá trị G-mean của bộ dữ liệu colon-cancer
Do đó, để đánh giá phương pháp kết hợp trên có ý nghĩa thống kê hay không, chúng tôi áp
dụng kiểm định T-test. Nếu p-value của kiểm định này nhỏ hơn hoặc bằng 0.05 thì ta nói hai giá trị
trung bình khác biệt và có ý nghĩa thống kê. Trong bài báo này, chúng tôi sử dụng hàm t.test trong
gói stats của R để tính giá trị p-value. Dựa vào kết quả G-mean của thuật toán phân lớp Ksvm đối
với từng cách chạy của mỗi bộ dữ liệu, chúng tôi đã tiến hành tính giá trị p-value cụ thể như sau:
Bảng 3. Giá trị p-value
Datasets p-value Original SMOTE PLS PLS_ CPPLS CPPLS_
SMOTE SMOTE
Breast-p Original x
SMOTE <2.20E-16 x
PLS 5.02E-05 3.48E-13 x
PLS_SMOTE <2.20E-16 2.06E-04 6.68E-16 x
CPPLS 5.70E-03 1.00E+00 x x x
CPPLS_SMOTE <2.20E-16 9.80E-04 x x 2.20E-16 x
Coil2000 Original x
SMOTE 1.05E-12 x
PLS 0.1649 1.18E-13 x
PLS_SMOTE 8.32E-15 3.92E-12 3.18E-15 x
CPPLS 0.1649 1 x x x
CPPLS_SMOTE 2.158E-11 2.089E-07 x x 2.202E-11 x
Leukemia Original x
SMOTE 2.09E-12 x
PLS <2.20E-16 3.96E-08 x
PLS_SMOTE <2.20E-16 1.38E-11 4.77E-03 x
CPPLS <2.20E-16 4.97E-07 x x x
CPPLS_SMOTE <2.20E-16 1.42E-11 x x 9.87E-03 x
Colon- Original x
cancer SMOTE 0.98 x
PLS 0.357 0.0928 x
PLS_SMOTE 0.295 0.0904 0.4261 x
CPPLS 0.1649 0.0968 x x x
CPPLS_SMOTE 0.395 0.158 x x 0.507 x
100
Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều...
Chúng tôi thấy rằng khi kết hợp cả hai phương pháp PLS và CPPLS trong gói PLS với
thuật toán SMOTE thì đều có ý nghĩa thống kê và đặc biệt khi sử dụng phương pháp kết hợp
PLS_SMOTE thì kết quả phân lớp cao hơn.
Các kết quả từ thực nghiệm củng chỉ ra rằng phương pháp PLS_SMOTE của chúng tôi là
đặc biệt hiệu quả đối với các bộ dữ liệu có tỉ lệ mất cân bằng cao, có số thuộc tính lớn và sự phân
bố các phần tử giữa các lớp là xen kẽ nhau, chẳng hạn như: breast-p, coil2000, leukemia đều có
giá trị G-mean cao hơn hẳn so với các phương pháp khác và có p-value nhỏ hơn 0.05. Ngược lại,
đối với các bộ dữ liệu có tỉ lệ mất cân bằng thấp và có sự phân tách các phần tử giữa hai lớp riêng
biệt thì kết quả phân lớp theo phương pháp PLS_SMOTE của chúng tôi không được tốt, chẳng
hạn như: Bộ dữ liệu colon-cancer có giá trị G-mean cao hơn các phương pháp khác không đáng
kể và p-value lớn hơn 0.05. Có nghĩa là khi sử dụng phương pháp của chúng tôi trong bộ dữ liệu
colon-cancer thì kết quả phân lớp không được cải thiện và không có ý nghĩa thống kê.
3. Kết luận
Trong bài báo này, chúng tôi đã trình bày một số vấn đề khó khăn khi phân lớp dữ liệu mất
cân bằng, đặc biệt là đối với những bộ dữ liệu vừa mất cân bằng về số lượng phần tử vừa có số thuộc
tính rất lớn. Một số khó khăn trong các hướng tiếp cận hiện nay. Từ kết quả thực nghiệm chỉ ra
rằng, khi sử dụng phương pháp kết hợp PLS_SMOTE của chúng tôi thì hiệu quả phân lớp cao hơn
hẳn các phương pháp: original, SMOTE, PCR, PLS, CPPLS, PCR_SMOTE, CPPLS_SMOTE.
Trong thời gian tới, chúng tôi sẽ tìm hiểu và nghiên cứu thêm các phương pháp kết hợp khác nhằm
cải thiện hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa mất cân bằng.
TÀI LIỆU THAM KHẢO
[1] Sun, Wong, Kamel, 2009. Classification of Imbalanced Data A Review. International Journal
of Pattern Recognition and Artificial Intelligence Vol. 23, No. 4, pp.687–719. World Scientific
Publishing Company.
[2] Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, W. Philip Kegelmeyer, 2002. SMOTE:
Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research 16
(321–357). Department of Computer Science and Engineering, ENB 118 University of South
Florida.
[3] Trịnh Văn Hà, 2008. Lựa chọn thuộc tính trong khai phá dữ liệu. Luận văn Thạc sĩ, Trường
Đại học Thái Nguyên.
[4] Xinjian Guo, Yilong Yin, Cailing Dong, Gongping Yang, Guangtong Zhou, 2001. On the
Class Imbalance Problem. School of Computer Science and Technology, Shandong University,
Jinan, 250101, China.
[5] Rukshan Batuwita and Vasile Palade, 2012. Class Imbalance Learning Methods For Support
Vector Machines. Chapter 6. Singapore-MIT Alliance for Research and Technology Centre;
University of Oxford.
[6] Nguyễn Thị Hồng, Nguyễn Mạnh Cường, Đặng Xuân Thọ, 2014. Add-bor