Tóm tắt. Tóm tắt dữ liệu bằng ngôn ngữ (linguistic database summarization) là một trong những
khả năng mà các hệ thống thông tin hướng đến. Kacprzyk và các cộng sự đã đạt được nhiều kết
quả khi nghiên cứu bài toán tóm tắt dữ liệu do Yager đề ra (1982) dựa trên lí thuyết mờ của
Zadeh. Trong bài báo này, chúng tôi trình bày một phương pháp mới để sinh ra các tóm tắt bằng
ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ,
cách tiếp cận dựa trên Đại số gia tử của chúng tôi hạn chế được sự mất thông tin và làm giảm độ
sai lệch trong tóm tắt dữ liệu.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 660 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1059.2015-00010
Natural Sci. 2015, Vol. 60, No. 4, pp. 71-79
This paper is available online at
Ngày nhận bài: 13/4/2015. Ngày nhận đăng: 22/5/2015.
Tác giả liên lạc: Phạm Thị Lan, địa chỉ e-mail: ptlan@hnue.edu.vn
71
ỨNG DỤNG ĐẠI SỐ GIA TỬ
TRONG TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ
Phạm Thị Lan và Hồ Cẩm Hà
Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt. Tóm tắt dữ liệu bằng ngôn ngữ (linguistic database summarization) là một trong những
khả năng mà các hệ thống thông tin hướng đến. Kacprzyk và các cộng sự đã đạt được nhiều kết
quả khi nghiên cứu bài toán tóm tắt dữ liệu do Yager đề ra (1982) dựa trên lí thuyết mờ của
Zadeh. Trong bài báo này, chúng tôi trình bày một phương pháp mới để sinh ra các tóm tắt bằng
ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ,
cách tiếp cận dựa trên Đại số gia tử của chúng tôi hạn chế được sự mất thông tin và làm giảm độ
sai lệch trong tóm tắt dữ liệu.
Từ khóa: Tóm tắt dữ liệu, đại số gia tử, định lượng ngôn ngữ.
1. Mở đầu
Dữ liệu con người thu thập được ở nhiều dạng: dạng số, dạng phi số (từ ngữ, hình ảnh, âm
thanh...). Tuy nhiên, trong hầu hết các tình huống, chúng ta đưa ra quyết định dựa trên các thông tin
diễn đạt bằng ngôn ngữ. Các câu tóm tắt dữ liệu bằng ngôn ngữ được rút ra từ những cơ sở dữ liệu là
một dạng của tri thức. Do đó, tóm tắt dữ liệu bằng ngôn ngữ là cơ sở quan trọng trong các hệ thống hỗ
trợ ra quyết định, điều khiển tự động.
Một tóm tắt dữ liệu theo Yager (1982) định nghĩa trong [1] gồm có 3 thành phần: tóm tắt S, định
lượng thỏa đáng Q, độ tin cậy T. Dựa trên khái niệm protoform của Zadeh, các tác giả Kacprzyk,
Zadrozny [2] đã đưa ra hai dạng tổng quát cho một tóm tắt như sau:
Dạng 1: Q y are S. Ví dụ: Hầu hết (Q) công nhân (y) lương cao (S).
Dạng 2: Q B y are S. Ví dụ: Hầu hết (Q) công nhân (y) trẻ (B) lương cao (S).
Với y có nghĩa là bản ghi, B là điều kiện lọc.
Các nghiên cứu về tóm tắt dữ liệu [1-4] đều dựa trên lí thuyết tập mờ. Khi đó, ngữ nghĩa của các
hạng từ trong S, B, Q được diễn đạt bằng các tập mờ, độ tin cậy T được tính toán dựa trên giá trị của
các hàm thuộc như công thức (1) và (2) [5]. Công thức (3) tính độ thỏa mãn (matching degree) của bản
ghi R trên điều kiện AT = F V (AT là một thuộc tính, FV là hạng từ, ví dụ Tuổi = trẻ ). Công thức (4)
tính độ phù hợp (matching degree) của bản ghi R với truy vấn “Q trong số N điều kiện thỏa mãn” [3].
1
1( y are )
n
Q S i
i
truth Q S y
n
(1)
1
1
( y are )
n
B i S i
i
Q n
B i
i
y y
truth Q B S
y
(2)
, FVmd AT FV R R AT (3)
1,...,
1
1, ,
N
i N Q i
i
md Q Cl R md Cl R
n
(4)
Phạm Thị Lan và Hồ Cẩm Hà
72
Trước hết, hạng từ được xác định theo công thức (1) và (2) (hạng từ có độ tin cậy cao nhất sẽ
được chọn đưa vào câu tóm tắt) chưa chắc đã diễn đạt đúng ngữ nghĩa tóm tắt dữ liệu so với thực tế.
Xét ví dụ sau đây.
Ví dụ 1.1. Cơ sở dữ liệu gồm có 20 bản ghi, số người và độ thuộc của tuổi vào hạng từ trẻ như
trong Bảng 1. Ta cần đánh giá về tỉ lệ người trẻ so với tổng số người trong cơ sở dữ liệu. Đây là một
dạng tóm tắt theo kiểu biết S, cần xác định Q. Giả sử các hạng từ biểu diễn giá trị cho thuộc tính Tuổi
là trẻ, trung niên, già, 3 hạng từ biểu diễn cho Q là một ít, khoảng một nửa, hầu hết với các tập mờ
biểu diễn cho chúng như trong Hình 1.
Bảng 1. Thống kê số lượng công nhân theo tuổi
Số người 5 5 5 5
Tuổi 20 22 29 45
Độ thuộc 0.9 0.8 0.5 0
0 10 20 30 40 50 60 70 80 90
0
0.2
0.4
0.6
0.8
1.0
1.2 Tre Trung nien Gia
(a) (b)
Hình 1. (a) Hàm thuộc biểu diễn ngữ nghĩa của hạng từ một ít, khoảng một nửa, hầu hết
(b) Hàm thuộc biểu diễn ngữ nghĩa của hạng từ trẻ, trung niên, già
Đặt
1
1 n
iS
i
TBC y
n
, công thức (1) trở thành y are QT truth Q S TBC
Áp dụng cho dữ liệu trong Bảng I, ta có:
20
1
1 0.9 5 0.8 5 0.5 5 0 5 0.55
20 20ii
TBC y
trÎ
Dựa vào Error! Reference source not found.(b), ta có ước lượng như sau: 1 0.55 0mét ÝtT ,
2 0.55 0.8T kho¶ng mét nöa , 3 0.55 0.1T hÇu hÕt . Như vậy với cách tiếp cận của Kacprzyk
[2] dựa trên lý thuyết mờ, câu tóm tắt được chọn là “Khoảng một nửa số người có tuổi trẻ” có độ tin
cậy T = 0.8 cao nhất. Nhưng nhìn vào Bảng 1, ta có thể thấy câu tóm tắt đó không phù hợp, mà “Hầu
hết số người có tuổi trẻ” là kết luận đúng hơn mặc dù độ tin cậy của câu này thấp hơn (T = 0.1).
Trong trường hợp khác, nếu giá trị của biểu thức bằng với hoành độ giao điểm G của hai
hàm thuộc của hầu hết và khoảng một nửa thì khi đó sẽ có hai hạng từ định lượng khác nhau với độ tin
cậy như nhau và độ tin cậy rất thấp. Theo quan điểm của logic mờ, để khắc phục điều này cần thêm
vào một hạng từ khá nhiều với thứ tự về mặt ngữ nghĩa là khoảng một nửa ≤ khá nhiều ≤ hầu hết
(hàm thuộc biểu diễn bằng nét đứt trong Hình 2). Khi đó, hạng từ được chọn cho câu kết luận là Q =
khá nhiều với độ tin cậy cao T = 0.95. Tuy nhiên, cách làm này không tránh được có nhiều hạng từ
cùng độ tin cậy trong khi ngữ nghĩa định lượng của chúng là khác nhau (phát sinh giao điểm H trong
Hình 2 mà "Khá nhiều" (trẻ) khác với "khoảng một nửa" (trẻ)). Như vậy, công thức (1), (2) có thể đưa ra
những hạng từ Q không hợp lí.
Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ
73
Hình 2. Bổ sung thêm hạng từ “khá nhiều”
Mặt khác, còn có những điểm không hợp lí trong truy vấn khi sử dụng công thức (4), (5). Trong
trích rút câu tóm tắt, truy vấn dữ liệu là một giai đoạn có vai trò quyết định đến độ tin cậy. Theo [2, 4]
nếu độ phù hợp của bản ghi R lớn hơn một giá trị ngưỡng thì R được đưa vào kết quả truy vấn. Trong
công thức (4), giá trị
1
1 ,
N
i
i
md Cl R
N
(trung bình cộng độ phù hợp của N điều kiện) có thể dẫn đến
kết quả sai lệch. Cho dữ liệu trong Bảng 2, hai điều kiện truy vấn được xem xét là “Tuổi = trẻ ”;
"Lương = cao". Nếu truy vấn trên hai điều kiện đó với định lượng Q = tất cả (nghĩa là truy vấn những
bản ghi thỏa đồng thời cả hai điều kiện) thì hai bản ghi có cùng độ phù hợp (0.4) với câu truy vấn. Rõ
ràng điều này không hợp lí vì bản ghi thứ nhất không thỏa điều kiện "Lương = cao". Việc lấy trung
bình cộng độ phù hợp của bản ghi với các điều kiện đã che giấu sự không phù hợp với một điều kiện
nào đó.
Bảng 2. Độ thuộc của thuộc tính Tuổi và Lương của hai bản ghi R1 và R2
vào 2 hạng từ tương ứng trẻ và cao
trẻ(tuổi) cao(lương)
R1 0.8 0
R2 0.4 0.4
Nhằm khắc phục những hạn chế đã được chỉ ra ở trên trong tóm tắt dữ liệu, chúng tôi chọn cách
tiếp cận ứng dụng Đại số gia tử trong cả hai giai đoạn truy vấn và chọn hạng từ Q cho bài toán này.
Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W.Wechler đề xuất năm 1990. Đây là một cấu trúc đại số
cho miền giá trị của các hạng từ mà ngữ nghĩa được xác định dựa trên thứ tự của nó trong miền hạng
từ [6]. ĐSGT được trang bị các công thức để dễ dàng tính toán các định lượng mờ như độ đo mờ,
khoảng mờ, ánh xạ định lượng ngữ nghĩa dựa trên bộ tham số với số lượng nhỏ hơn hoặc bằng 5 và dễ
dàng được xác định dựa trên tri thức thông thường của con người. Ưu điểm nổi bật của ĐSGT là các
tính toán, ánh xạ luôn luôn bảo toàn quan hệ thứ tự ngữ nghĩa.
Trong bài báo này, thuật ngữ "tóm tắt dữ liệu bằng ngôn ngữ" được viết tắt bằng LDS (Linguistic
database summarization).
2. Nội dung nghiên cứu
2.1. Đại số gia tử
Trong phần này, khái niệm cơ bản về đại số gia tử và định lượng ngữ nghĩa trong đại số gia tử
được tóm tắt theo [6].
2.1.1. Các khái niệm cơ bản
Cho X là một biến ngôn ngữ và Dom(X ) là tập chứa tất cả các hạng từ trong tập giá trị của biến
X. Tập X = Dom(X ) có thể được coi như là một cấu trúc đại số AX = (X, G, C, H, ), trong đó:
Phạm Thị Lan và Hồ Cẩm Hà
74
- (X, ) là cấu trúc dựa trên thứ tự, là quan hệ thứ tự sinh ra từ ngữ nghĩa vốn có của các hạng từ
của biến X.
- G = {c, c+} là tập các phần tử sinh, c+ được coi là hạng từ nguyên thủy dương, c- là hạng từ
nguyên thủy âm. Ta có c- c+. Ví dụ: chậm nhanh, ít nhiều.
- C = {0, W, 1} tập các phần tử hằng thỏa mãn 0 c- W c+ 1, hai phần tử 0 và 1 được coi là
hạng từ nhỏ nhất, lớn nhất trong cấu trúc (X, ), W là phần tử trung bình. Ví dụ: 0 có nghĩa là cực
kì chậm, W có nghĩa là trung bình, 1 có nghĩa là cực kì nhanh.
- HI = H {I} với H là tập các gia tử của biến X. I là một gia tử nhân tạo mang nghĩa của phần tử
đơn vị, tức là Ix = x.
Tập H gồm các gia tử dương H+ và các gia tử âm H-. Các gia tử dương làm tăng ngữ nghĩa của
các hạng từ mà nó tác động, còn các gia tử âm làm giảm ngữ nghĩa của các hạng từ.
Giả sử rằng H = {h0, h-1, ..., h-q} và H+ = {h0, h1,..., hp}, với h-1<h-2< ...<h-q, h1< ...<hp, và h0 = I.
Giả sử rằng X\C = H(G), với H(G) là tập các hạng từ sinh ra từ các phần tử sinh trong G sử dụng
các gia tử trong H. Tương tự H(x) gồm các hạng từ sinh ra từ x sử dụng các gia tử trong H.
Dạng biểu diễn chính tắc của mỗi hạng từ x Dom(X) là hm h1c, độ dài của hạng từ là |x| =
m+1. Kí hiệu Xk là tập các hạng từ độ dài k, X(k) là tập các hạng từ có độ dài không quá k.
2.1.2. Định lượng ngữ nghĩa trong đại số gia tử
Định lượng trong đại số gia tử là quá trình ánh xạ từ miền hạng từ vào miền tham chiếu tương
ứng của biến ngôn ngữ. Tuy nhiên trong phương pháp đại số đối với ngữ nghĩa của các hạng từ mờ,
các ánh xạ định lượng sẽ được định nghĩa một cách hệ thống, lợi dụng khái niệm mờ của các hạng từ.
Chúng ta xem xét một đại số gia tử tự do AX = (X, G, C, H, ), tức là mọi gia tử h tác động lên
một hạng từ x H(G) luôn luôn tạo ra một ngữ nghĩa mới (tức là hx x). Từ đây, ta có dạng biểu diễn
chính tắc cho mỗi hạng từ là duy nhất.
Định nghĩa 2.1 [6]. Một định lượng để xác định ngữ nghĩa định lượng của các hạng từ trong
miền hạng từ X của một biến ngôn ngữ X là một ánh xạ f : X [0,1], thỏa mãn hai điều kiện sau:
(i) Ánh xạ một-một và trù mật trong đoạn [0,1], với [0,1] là miền tham chiếu thông thường của X;
(ii) Duy trì thứ tự trong X.
Ánh xạ f được gọi là ánh xạ định lượng ngữ nghĩa (semantically quantifying mapping - SQM).
Ánh xạ này phụ thuộc mạnh mẽ vào ngữ nghĩa của các hạng từ mờ.
Định nghĩa 2.2 [6]. Cho f : X [0,1] là một SQM của AX. Đường kính của tập f(H(x)) [0,1]
là độ đo tính mờ của x, k hiệu bởi fm(x).
fm(x) = d(f(H(x))) [0,1]
Độ đo mờ là một ánh xạ fm: X [0,1] thỏa các điều kiện sau đây:
(fm1) fm(c) + fm(c+) = 1. Từ đó suy ra fm(0) = fm(W) = fm(1) = 0.
(fm2) i ih H fm h x fm x , x X, và 1 kx X fm x .
(fm3) fm(hx) = (h)fm(x), với hx x, x X, (h) là độ đo mờ của gia tử h.
(fm4) i ih H h và i ih H h , với , > 0 và + = 1
Trong [7], tác giả đã mở rộng điều kiện (fm1) thành fm(c) + fm(c+) + fm(0) + fm(W) + fm(1) = 1.
Tức là các độ đo mờ của các hằng 0, 1, W có thể dương để phù hợp với nhiều bài toán phức tạp trong
thực tế.
Mỗi hạng từ x được gắn với một khoảng I(x), được gọi là khoảng tính mờ của hạng từ x, chiều dài
của nó là độ đo mờ của x. Tức là |I(x)| = fm(x).
Tính chất của khoảng tính mờ:
- Mỗi giá trị số trong khoảng tính mờ I(x) được coi là tương tự với những giá trị số khác trong
đoạn và được so sánh với ngữ nghĩa của x ở mức độ |x|.
- Tập {I(hjx) | j [-q^p]} là một phân hoạch của I(x). Do đó, tập Ik = {I(x): x Xk} là một phân
hoạch của [0,1] = I(c)I(c+) và, với k 2, nó mịn hơn Ik’ = {I(x): x Xk’}, với k’ < k.
- Việc gán các khoảng tính mờ cho các hạng từ là tương ứng một-một và duy trì quan hệ thứ tự
ngữ nghĩa trên Xk, tức là từ x ≤ y ta suy ra rằng I(x) ≤ I(y), x, y Xk.
Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ
75
2.2. Tóm tắt dữ liệu bằng ngôn ngữ
Theo Yager (1982) bài toán LDS được phát biểu như sau [1]:
- V là tập các thuộc tính cần quan tâm. Ví dụ: thuộc tính Tuổi trong CSDL công nhân;
- Một tập các bản ghi có các thuộc tính trong V. Ví dụ: tập các công nhân với V(yi) là tuổi của
công nhân yi;
- D = {V(y1), ., V(yn)} là tập dữ liệu;
Một LDS của tập dữ liệu trên gồm có:
- Một tóm tắt S (ví dụ: trẻ) (a summerizer);
- Một định lượng thỏa đáng Q (ví dụ: hầu hết) (a quantity in agreement);
- Độ đúng đắn T (ví dụ: 0,7) (truth degree);
Ví dụ: Hầu hết công nhân là trẻ (Truth = 0,7).
Tóm tắt S là một diễn đạt bằng ngôn ngữ tự nhiên, một phương tiện giao tiếp phù hợp nhất của
con người. Một tóm tắt đơn giản chỉ đưa ra đánh giá cho một thuộc tính. Có thể mở rộng tóm tắt trên
nhiều thuộc tính như là “trẻ và lương cao”. Sau đó có thể là các tổ hợp phức tạp hơn nữa. Các điều
kiện trên các thuộc tính có thể là AND hoặc/và OR, k trong số n, hầu hết...
Định lượng thỏa đáng Q là chỉ số thể hiện số lượng dữ liệu thỏa tóm tắt và được diễn đạt bằng
một hạng từ. Cơ bản có hai loại định lượng bằng ngôn ngữ là: 1) Tuyệt đối: khoảng 5, một vài, không
nhỏ hơn 20, . . . 2) Tương đối: một ít, hầu hết, gần như tất cả... Định lượng tương đối chính là định
lượng mờ.
Độ đúng đắn T là một giá trị nằm trong khoảng [0, 1]. Ngữ nghĩa của T thể hiện chất lượng hoặc
độ tốt của tóm tắt. Giá trị T đã từng được tính theo 2 phương pháp hoặc bằng công thức tính toán của
Zadeh (1983) đối với một câu có định lượng bằng ngôn ngữ hoặc là dùng phép toán tính trung bình có
trọng số (OWA) của Yager (1988) [2]. Các công thức tính toán trong cả hai phương pháp nói trên đều
dựa vào giá trị hàm thuộc tóm tắt S và định lượng thỏa đáng Q khi S và Q được biểu diễn bằng các
tập mờ.
Ở đây không xét đến các LDS định lượng tuyệt đối như “Hơn 70% số công nhân có tuổi dưới 35”
mà thay vào đó là LDS có nghĩa tương tự nhưng sử dụng ngôn ngữ tự nhiên như “Hầu hết công nhân
là trẻ”. Tức là, ba thành phần trong dạng tiền định Q, B, S là các hạng từ trong ngôn ngữ tự nhiên.
Trong khi đó, giá trị thuộc tính trong cơ sở dữ liệu là các con số [2]. Đã có một số tiêu chuẩn định tính
khác T được đề xuất để đánh giá một LDS như độ đo thông tin [1], độ đúng đắn (truth), độ mờ
(imprecision), độ bao quát (covering), độ thích hợp (appropriateness), độ dài (length) [2]. Kacprzyk và
Zadrozny [2] đã đưa ra 5 kiểu tóm tắt bằng ngôn ngữ theo mức độ khái quát tăng dần như trong Bảng 3.
Trong đó: Scấu trúc – các thuộc tính và liên kết của chúng, Sgiá trị– các giá trị của thuộc tính cần xác định.
Bảng 3. Các kiểu tóm tắt dữ kiệu bằng ngôn ngữ
Kiểu Cho trước Yêu cầu Ghi chú
1 S Q Tóm tắt đơn giản thông qua truy vấn
2 S B Q Tóm tắt có điều kiện thông qua truy vấn
3 Q Scấu trúc Sgiá trị Tóm tắt đơn giản hướng đến giá trị
4 Q Scấu trúc B Sgiá trị Tóm tắt có điều kiện hướng đến giá trị
5 Rỗng S B Q Các luật mờ thông thường
2.3. Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ
Đã có những nghiên cứu ứng dụng ĐSGT trong truy vấn mờ và hạng từ định lượng cũng được đưa vào
truy vấn [8,9]. Các nghiên cứu trước đây, xây dựng ĐSGT cho các thuộc tính luôn giả thiết fm(W) = 0
và hạng từ định lượng được xác định trước. Trong bài toán LDS, hạng từ định lượng Q là một thành
phần trong đầu vào (kiểu 3, 4), cũng có thể là thành phần trong đầu ra (kiểu 1, 2, 5). Dưới đây, chúng
tôi trình bày phương pháp sử dụng ĐSGT mở rộng với fm(W) ≠ 0 để phù hợp hơn thực tế. Tập gia tử
là 1H h và 1H h [7].
Phạm Thị Lan và Hồ Cẩm Hà
76
2.3.1. Sử dụng đại số gia tử trong truy vấn mờ
Với mỗi thuộc tính tham gia trong truy vấn theo điều kiện S hoặc điều kiện lọc B, ta xây dựng
một ĐSGT cho miền giá trị của chúng. Không mất tính tổng quát, giả sử rằng điều kiện lọc B và điều
kiện truy vấn S là điều kiện đơn dạng “AT = AF”, với AF là một hạng từ.
Thuật toán 2.1. Truy vấn CSDL theo điều kiện đơn “AT = AF”
Vào: Quan hệ r xác định trên tập thuộc tính U = {AT1, , ATn}
Câu truy vấn dạng Select from where AT = AF
Ra: Quan hệ rresult thỏa mãn với mọi bộ t rresult có AT = AF
Phương pháp:
(1) Xác định miền tham chiếu thực cho thuộc tính AT là DAT = [minAT, maxAT].
Xây dựng ĐSGT cho thuộc tính AT
(2) Chọn G = {c+, c-}, C = {0, W, 1}, H- = {h-1}, H+ = {h1}.
(3) Xác định khoảng giá trị tương ứng với W là [minW, maxW][minAT, maxAT]
(4) Tính độ đo mờ:
1
1
W W
AT AT
max min
fm W
max min
, 1 1
W
AT AT
min
fm c
max min
, 1fm c fm W fm c
(5) Chọn độ đo mờ cho h-1, tính độ đo mờ của h1 theo công thức
(6) Xác định tập hạng từ mức k là Xk {W}, k là độ dài hạng từ AF
(7) Tính các khoảng mờ cho tập các hạng từ trong Xk {W}: I(x1),I(x2), ., I(x
(8) Xác định khoảng tham chiếu tương ứng của AF là DAF
Thực hiện truy vấn
(9) rresult =
(10) Với mỗi bộ t r thỏa t(AT) DAF thì rresult = rresult t
(11) Trả về rresult
Việc sử dụng ĐSGT trong truy vấn mờ theo cách này là rất tự nhiên và đảm bảo sự hợp lí về ngữ
nghĩa. Vì khi giá trị của thuộc tính AT là t(AT)DAF thì AF chính là diễn đạt bằng ngôn ngữ của giá trị
đó. Hơn nữa, một bản ghi có được đưa vào kết quả truy vấn hay không chỉ phụ thuộc vào các giá trị
thuộc tính của nó mà không bị tác động bởi các bản ghi khác. Khi đã được đưa vào kết quả truy vấn
thì nó được tính một đơn vị bản ghi trong kết quả.
Ví dụ 2.1: Xét một truy vấn có điều kiện “Tuổi = trẻ”.
Xây dựng một ĐSGT như sau: G = {trẻ, già}, H- = {khá}, H+ = {rất}. Dựa vào biểu diễn tập mờ
của 3 hạng từ của thuộc tính tuổi trong Hình 1a, miền tham chiếu của tuổi là [0, 90], dưới 30 tuổi được
gọi là trẻ, tuổi từ 30 đến 59 được gọi là trung niên, từ 60 tuổi được gọi là già. Khi đó ta có fm(trẻ) =
30/90 = 1/3, fm(trung niên) = 1/3, fm(già) = 1/3. Giả sử fm(khá) = 0.4, fm(rất) = 0.6. Khoảng mờ:
I(trẻ)= [0, 1/3), I(trung niên) = [1/3, 2/3), I(già) = [2/3, 1). Miền tham chiếu tương ứng với trẻ là Dtrẻ
= [0, 30)
Kết quả truy vấn trên tập dữ liệu như trong Bảng 1, cho kết quả truy vấn có 15 bản ghi. Tỉ lệ bản
ghi thỏa truy vấn là: f = 15/20 = 0.75. Lúc này, sử dụng hạng từ hầu hết để diễn đạt cho giá trị 0.75 sẽ
có được độ tin cậy cao.
2.3.2. Xây dựng một đại số gia tử cho định lượng bằng ngôn ngữ
Coi tập các hạng từ dùng để diễn đạt định lượng là Xk{0, W, 1} với hằng 0 được hiểu là không
có bản ghi nào thỏa, hằng 1 là tất cả các bản ghi đều thỏa, hằng W được hiểu là khoảng một nửa. Nếu
cần tăng độ chính xác cho việc diễn đạt Q thì chỉ cần tăng giá trị của k. Thông thường k≤3.
Thuật toán 2.2: Áp dụng ĐSGT trong định lượng bằng ngôn ngữ
Vào: Một tập các hạng từ T, giá trị f.
Ra: Hạng từ yT diễn đạt cho f.
Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ
77
Phương pháp:
(1) Chọn G = {c-, c+}, C = {0, W, 1}, H- = {h-1}, H+ = {h1}.
(2) Chọn fm(c+), fm(c-) và fm(W) sao cho phù hợp với từng ngữ cảnh cụ thể
(3) Chọn fm(h-1), tính fm(h1).
(4) Chọn k sao cho Q cần tìm thuộc Xk{0, W, 1}
(5) Tính toán các khoảng mờ của tập các hạng từ Xk{W}
(6) Nếu giá trị fI(x) thì trả về x.
Ví dụ 2.2: Các hạng từ định lượng tương đối thường dùng là: rất ít, ít, nhiều, hầu hết, khoảng một
nửa. Thứ tự ngữ nghĩa của các hạng từ như sau: rất ít < ít < khoảng một nửa < nhiều < hầu hết.
Xây dựng một ĐSGT như sau: G = {ít, nhiều}, C = {0, W, 1}. Nếu tỉ lệ từ 45% đến 55% thì coi
là khoảng một nửa. Do đó khoảng mờ của W là [0.45, 0.55]. Từ đó, ta suy ra độ đo mờ là fm(W) = 0.1
và fm(0) = fm(1) = 0, fm(ít) = fm(nhiều) = 0.45.
Chọn tập gia tử H- = {khá}, H+ = {rất} với fm(khá) = 0.4, fm(rất) = 0.6
Ta sử dụng các hạng từ trong tập X2{0, W, 1} = {0, rất ít, khá ít, W, khá nhiều, rất nhiều, 1}.
Bảng 4 sau đưa ra cách ánh xạ tập các hạng từ cần dùng với tập các hạng từ trong X2{0, W, 1}.
Bảng 4. Ánh xạ giữa hai tập hạng từ T và X2{0, W, 1}
Hạng từ
cần dùng
Rất ít Ít Khoảng
một nửa
Nhiều Hầu hết