Sựbùngnổthông tin hiệnnaydotác độngcủacácsiêu
phươngtiệnvàWWW
Cáchệthống truy vấn thông tin dựatrên việc phân
nhóm,gomcụm(clustering) ra đờiđểlàm tăng tốc độ
tìmkiếmthôngtin.
Dosựbiếnđộngthường xuyêncủathông tin nêncác
thuật toán clusteringđangtồn tại khôngthể duytrì tốt
cácnhóm,cụm(cluster)trongmộtmôitrườngnhưthế
Vấnđềđặtra là làm thế nàođểcậpnhậtcáccluster
trong hệthống mỗikhithông tin đượccậpnhậtthay vì
phảithườngxuyênclusteringlạitoàn bộdữliệu?
22 trang |
Chia sẻ: mamamia | Lượt xem: 2307 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Gom cụm (clustering), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Gom cụm (Clustering)
Chương 5
Bài tập lý thuyết4
Giới thiệu1
Các độ đo khoảng cách2
Phương pháp K-means3
Nội dung
7/12/2014 www.lhu.edu.vn
Chương 5 Gom cụm
Sự bùng nổ thông tin hiện nay do tác động của các siêu
phương tiện và WWW
Các hệ thống truy vấn thông tin dựa trên việc phân
nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ
tìm kiếm thông tin.
Do sự biến động thường xuyên của thông tin nên các
thuật toán clustering đang tồn tại không thể duy trì tốt
các nhóm, cụm (cluster) trong một môi trường như thế
Vấn đề đặt ra là làm thế nào để cập nhật các cluster
trong hệ thống mỗi khi thông tin được cập nhật thay vì
phải thường xuyên clustering lại toàn bộ dữ liệu?
Giới thiệu
7/12/2014 www.lhu.edu.vn
Chương 5 Gom cụm
Gom cụm (clustering) là quá trình nhóm tập đối
tượng thành các cụm (cluster) có các đối tượng
giống nhau.
Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom
cụm là bài toán xác định ánh xạ f : Dg{1,…,k}
sao cho mỗi ti được gán vào một cụm (lớp) Kj,
1 <= j <= k .
Không giống bài toán phân lớp, các cụm không
được biết trước.
Giới thiệu
4Dựa trên kích thướcDựa trên khoảng cách điạ lý
Ví dụ gom cụm các ngôi nhà
Chương 5 Gom cụm
5Cách biểu diễn các cụm
Phân chia bằng các
đường ranh giới
Các khối cầu
Theo xác suất
Hình cây
…
1 2 3
I1
I2
…
In
0.5 0.2 0.3
Giới thiệu
Chương 5 Gom cụm
6 Phương pháp gom cụm tốt là phương pháp sẽ
tạo các cụm có chất lượng :
Sự giống nhau giữa đối tượng trong cùng một cụm cao.
Giữa các cụm thì sự giống nhau thấp.
Chất lượng của kết quả gom cụm dựa trên 2
yếu tố
Độ đo sự giống nhau dùng trong phương pháp gom cụm
và
Sự thi hành nó.
Chất lượng của phương pháp gom cụm còn
được đo bằng khả năng phát hiện một số hay
tất cả các mẫu bị ẩn, bị dấu.
Tiêu chuẩn gom cụm
Chương 5 Gom cụm
7 Tiếp thị: khám phá các nhóm khách hàng phân biệt
trong CSDL mua hàng
Sử dụng đất: nhận dạng các vùng đất sử dụng giống
nhau khi khảo sát CSDL quả đất
Bảo hiểm: nhận dạng các nhóm công ty có chính
sách bảo hiểm mô tô với chi phí đền bù trung bình cao
Hoạch định thành phố: nhận dạng các nhóm nhà
cửa theo loại nhà, giá trị và vị trí địa lý.
Dự báo động đất: dựa trên các kết quả gom cụm các
vết đứt gãy của địa tầng
…
Ứng dụng của gom cụm
Chương 5 Gom cụm
8 Độ đo khoảng cách thường dùng để xác định sự
khác nhau hay giống nhau giữa hai đối tượng.
Khoảng cách Minkowski :
q
q
pp
qq
j
x
i
x
j
x
i
x
j
x
i
xjid )||...|||(|),(
2211
với i =(xi1, xi2, …, xip) và j =(xj1, xj2, …, xjp):
hai đối tượng p-chiều và q là số nguyên dương
Nếu q=1, d là khoảng cách Manhattan :
||...||||),(
2211 pp j
x
i
x
j
x
i
x
j
x
i
xjid
Độ đo khoảng cách
Chương 5 Gom cụm
9 Nếu q=2, d là khoảng cách Euclid :
)||...|||(|),( 22
22
2
11 pp j
x
i
x
j
x
i
x
j
x
i
xjid
Tính chất của độ đo khoảng cách
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
Độ đo khoảng cách
Chương 5 Gom cụm
Không gian dữ liệu có n
điểm (đối tượng)
Đã có độ đo khoảng cách
giữa các điểm
k là số cụm cần phân hoạch
1 <= k <= n
Thuật toán gom cụm K-Means
Chương 5 Gom cụm
1. Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của
k cụm
2. Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm
gần điểm đang xét nhất
Nếu không có phép gán lại nào thì dừng.
• Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và
thuật toán không thể cải thiện làm giảm độ phân biệt hơn được
nữa.
3. Tính lại trọng tâm cho từng cụm
4. Quay lại bước 2
Thuật toán gom cụm K-Means (1)
Chương 5 Gom cụm
Đầu vào của thuật toán: số cụm k, và CSDL có n
đối tượng
Thuật toán gồm 4 bước:
1. Phân hoạch đối tượng thành k tập con/cụm khác
rỗng
2. Tính các điểm hạt giống làm centroid (trung bình
của các đối tượng của cụm) cho từng cụm trong
cụm hiện hành
3. Gán từng đối tượng vào cụm có centroid gần nhất
4. Quay về bước 2, chất dứt khi không còn phép
gán mới
Thuật toán gom cụm K-Means (2)
Chương 5 Gom cụm
Thuật toán gom cụm K-Means
Chương 5 Gom cụm
Order ID Total
10248 440.00
10249 1863.40
10250 1552.60
10251 654.06
10252 3597.90
10253 1444.80
10254 556.62
10255 2490.50
10256 517.80
10257 1119.90
10258 1614.88
10259 100.80
10260 1504.65
10261 448.00
10262 584.00
Order ID Total
10263 1873.80
10264 695.62
10265 1176.00
10266 346.56
10267 3536.60
10268 1101.20
10269 642.20
10270 1376.00
10271 48.00
10272 1456.00
10273 2037.28
10274 538.60
10275 291.84
10276 420.00
10277 1200.80
Dữ liệu
minh hoạ
Thuật toán gom cụm K-Means
Chương 5 Gom cụm
Kết quả chạy
thử nghiệm
k-means
Cluster Order ID Total ($) Mean Distance To M1 Distance To M2 Distance To M3
C1 10252 3597.90 3208.33 389.57 2111.65 3149.04
C1 10267 3536.60 328.27 2050.35 3087.74
C1 10255 2490.50 717.83 1004.25 2041.64
C2 10273 2037.28 1486.25 1171.05 551.03 1588.42
C2 10263 1873.80 1334.53 387.55 1424.94
C2 10249 1863.40 1344.93 377.15 1414.54
C2 10258 1614.88 1593.45 128.63 1166.02
C2 10250 1552.60 1655.73 66.35 1103.74
C2 10260 1504.65 1703.68 18.40 1055.79
C2 10272 1456.00 1752.33 30.25 1007.14
C2 10253 1444.80 1763.53 41.45 995.94
C2 10270 1376.00 1832.33 110.25 927.14
C2 10277 1200.80 2007.53 285.45 751.94
C2 10265 1176.00 2032.33 310.25 727.14
C2 10257 1119.90 2088.43 366.35 671.04
C2 10268 1101.20 2107.13 385.05 652.34
C3 10264 695.62 448.86 2512.71 790.63 246.76
C3 10251 654.06 2554.27 832.19 205.20
C3 10269 642.20 2566.13 844.05 193.34
C3 10262 584.00 2624.33 902.25 135.14
C3 10254 556.62 2651.71 929.63 107.76
C3 10274 538.60 2669.73 947.65 89.74
C3 10256 517.80 2690.53 968.45 68.94
C3 10261 448.00 2760.33 1038.25 0.86
C3 10248 440.00 2768.33 1046.25 8.86
C3 10276 420.00 2788.33 1066.25 28.86
C3 10266 346.56 2861.77 1139.69 102.30
C3 10275 291.84 2916.49 1194.41 157.02
C3 10259 100.80 3107.53 1385.45 348.06
C3 10271 48.00 3160.33 1438.25 400.86
Chương 5 Gom cụm
Ví dụ về K-Means
Cho dữ liệu 1 chiều sau và k = 2 :
{2,4,10,12,3,20,30,11,25}
Gán ngẫu nhiên : m1=3, m2=4
K1={2,3}, K2={4,10,12,20,30,11,25},
m1=2.5, m2=16
K1={2,3,4},K2={10,12,20,30,11,25},
m1=3, m2=18
K1={2,3,4,10},K2={12,20,30,11,25},
m1=4.75, m2=19.6
K1={2,3,4,10,11,12},K2={20,30,25},
m1=7, m2=25
Dừng khi trung tâm cụm không thay đổi
Chương 5 Gom cụm
17
x x
x x x x
x x x x
x x x
x x
x
xx x
x x
x x x
x
x x x
x
x x
x x x x
x x x
x
x
x
Nếu k quá nhỏ,
Khoảng cách
đến
trung tâm xa
Vấn đề chọn số cụm k
Chương 5 Gom cụm
18
x x
x x x x
x x x x
x x x
x x
x
xx x
x x
x x x
x
x x x
x
x x
x x x x
x x x
x
x
x
Nếu k vừa đúng,
Khoảng cách đủ
ngắn
Vấn đề chọn số cụm k
Chương 5 Gom cụm
19
x x
x x x x
x x x x
x x x
x x
x
xx x
x x
x x x
x
x x x
x
x x
x x x x
x x x
x
x
x
Nếu k quá lớn;
Khoảng cách
trung bình cải
thiện ít
Vấn đề chọn số cụm k
Chương 5 Gom cụm
Ví dụ về K-Means
Ví dụ 1: Cho tập điểm
x1={1,3} ={x11,x12}; x2={1.5 , 3.2 }={x21,x22}
x3 ={1.3 ,2.8}={x31,x32}; x4={3, 1}={x41,x42}
Dùng K-Mean để gom nhóm (K=2)
Ví dụ 2: Cho tập điểm
X1(4,1) ; X2(5,1) ; X3(5,2) ; X4(1,4) ;
X5(1,5) ; X6(2,4) ; X7(2,5)
Dùng K-Mean để gom nhóm (K=2)
Chương 5 Gom cụm
Tương đối nhanh
Độ phức tạp của thuật toán là O(tkn)
• n: số điểm trong không gian dữ liệu
• k: số cụm cần phân hoạch
• t: số lần lặp (t << n)
K-Means phù hợp với các cụm có dạng hình cầu
Ưu điểm của K-means
Chương 5 Gom cụm
Không đảm bảo đạt được tối ưu toàn cục
kết quả đầu ra phụ thuộc vào việc chọn k điểm khởi đầu
Cần phải xác định trước số cụm k
Khó xác định số cụm thực sự mà không gian dữ liệu
có thể có
Khó phát hiện các loại cụm có hình dạng phức tạp và
nhất là các dạng cụm không lồi
Không thể xử lý nhiễu và biệt lệ
Chỉ có thể áp dụng khi tính được trọng tâm
Nhược điểm của K-means
Chương 5 Gom cụm