Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ

Tóm tắt. Tóm tắt dữ liệu bằng ngôn ngữ (linguistic database summarization) là một trong những khả năng mà các hệ thống thông tin hướng đến. Kacprzyk và các cộng sự đã đạt được nhiều kết quả khi nghiên cứu bài toán tóm tắt dữ liệu do Yager đề ra (1982) dựa trên lí thuyết mờ của Zadeh. Trong bài báo này, chúng tôi trình bày một phương pháp mới để sinh ra các tóm tắt bằng ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ, cách tiếp cận dựa trên Đại số gia tử của chúng tôi hạn chế được sự mất thông tin và làm giảm độ sai lệch trong tóm tắt dữ liệu.

9 trang | Chia sẻ: thanhle95 | Lượt xem: 788 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1059.2015-00010 Natural Sci. 2015, Vol. 60, No. 4, pp. 71-79 This paper is available online at Ngày nhận bài: 13/4/2015. Ngày nhận đăng: 22/5/2015. Tác giả liên lạc: Phạm Thị Lan, địa chỉ e-mail: ptlan@hnue.edu.vn 71 ỨNG DỤNG ĐẠI SỐ GIA TỬ TRONG TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ Phạm Thị Lan và Hồ Cẩm Hà Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Tóm tắt dữ liệu bằng ngôn ngữ (linguistic database summarization) là một trong những khả năng mà các hệ thống thông tin hướng đến. Kacprzyk và các cộng sự đã đạt được nhiều kết quả khi nghiên cứu bài toán tóm tắt dữ liệu do Yager đề ra (1982) dựa trên lí thuyết mờ của Zadeh. Trong bài báo này, chúng tôi trình bày một phương pháp mới để sinh ra các tóm tắt bằng ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ, cách tiếp cận dựa trên Đại số gia tử của chúng tôi hạn chế được sự mất thông tin và làm giảm độ sai lệch trong tóm tắt dữ liệu. Từ khóa: Tóm tắt dữ liệu, đại số gia tử, định lượng ngôn ngữ. 1. Mở đầu Dữ liệu con người thu thập được ở nhiều dạng: dạng số, dạng phi số (từ ngữ, hình ảnh, âm thanh...). Tuy nhiên, trong hầu hết các tình huống, chúng ta đưa ra quyết định dựa trên các thông tin diễn đạt bằng ngôn ngữ. Các câu tóm tắt dữ liệu bằng ngôn ngữ được rút ra từ những cơ sở dữ liệu là một dạng của tri thức. Do đó, tóm tắt dữ liệu bằng ngôn ngữ là cơ sở quan trọng trong các hệ thống hỗ trợ ra quyết định, điều khiển tự động. Một tóm tắt dữ liệu theo Yager (1982) định nghĩa trong [1] gồm có 3 thành phần: tóm tắt S, định lượng thỏa đáng Q, độ tin cậy T. Dựa trên khái niệm protoform của Zadeh, các tác giả Kacprzyk, Zadrozny [2] đã đưa ra hai dạng tổng quát cho một tóm tắt như sau: Dạng 1: Q y are S. Ví dụ: Hầu hết (Q) công nhân (y) lương cao (S). Dạng 2: Q B y are S. Ví dụ: Hầu hết (Q) công nhân (y) trẻ (B) lương cao (S). Với y có nghĩa là bản ghi, B là điều kiện lọc. Các nghiên cứu về tóm tắt dữ liệu [1-4] đều dựa trên lí thuyết tập mờ. Khi đó, ngữ nghĩa của các hạng từ trong S, B, Q được diễn đạt bằng các tập mờ, độ tin cậy T được tính toán dựa trên giá trị của các hàm thuộc như công thức (1) và (2) [5]. Công thức (3) tính độ thỏa mãn (matching degree) của bản ghi R trên điều kiện AT = F V (AT là một thuộc tính, FV là hạng từ, ví dụ Tuổi = trẻ ). Công thức (4) tính độ phù hợp (matching degree) của bản ghi R với truy vấn “Q trong số N điều kiện thỏa mãn” [3].   1 1( y are ) n Q S i i truth Q S y n            (1)        1 1 ( y are ) n B i S i i Q n B i i y y truth Q B S y                    (2)      , FVmd AT FV R R AT   (3)     1,..., 1 1, , N i N Q i i md Q Cl R md Cl R n               (4) Phạm Thị Lan và Hồ Cẩm Hà 72 Trước hết, hạng từ được xác định theo công thức (1) và (2) (hạng từ có độ tin cậy cao nhất sẽ được chọn đưa vào câu tóm tắt) chưa chắc đã diễn đạt đúng ngữ nghĩa tóm tắt dữ liệu so với thực tế. Xét ví dụ sau đây. Ví dụ 1.1. Cơ sở dữ liệu gồm có 20 bản ghi, số người và độ thuộc của tuổi vào hạng từ trẻ như trong Bảng 1. Ta cần đánh giá về tỉ lệ người trẻ so với tổng số người trong cơ sở dữ liệu. Đây là một dạng tóm tắt theo kiểu biết S, cần xác định Q. Giả sử các hạng từ biểu diễn giá trị cho thuộc tính Tuổi là trẻ, trung niên, già, 3 hạng từ biểu diễn cho Q là một ít, khoảng một nửa, hầu hết với các tập mờ biểu diễn cho chúng như trong Hình 1. Bảng 1. Thống kê số lượng công nhân theo tuổi Số người 5 5 5 5 Tuổi 20 22 29 45 Độ thuộc 0.9 0.8 0.5 0 0 10 20 30 40 50 60 70 80 90 0 0.2 0.4 0.6 0.8 1.0 1.2 Tre Trung nien Gia (a) (b) Hình 1. (a) Hàm thuộc biểu diễn ngữ nghĩa của hạng từ một ít, khoảng một nửa, hầu hết (b) Hàm thuộc biểu diễn ngữ nghĩa của hạng từ trẻ, trung niên, già Đặt   1 1 n iS i TBC y n     , công thức (1) trở thành     y are QT truth Q S TBC  Áp dụng cho dữ liệu trong Bảng I, ta có:   20 1 1 0.9 5 0.8 5 0.5 5 0 5 0.55 20 20ii TBC y            trÎ Dựa vào Error! Reference source not found.(b), ta có ước lượng như sau:   1 0.55 0mét ÝtT ,  2 0.55 0.8T  kho¶ng mét nöa ,  3 0.55 0.1T  hÇu hÕt . Như vậy với cách tiếp cận của Kacprzyk [2] dựa trên lý thuyết mờ, câu tóm tắt được chọn là “Khoảng một nửa số người có tuổi trẻ” có độ tin cậy T = 0.8 cao nhất. Nhưng nhìn vào Bảng 1, ta có thể thấy câu tóm tắt đó không phù hợp, mà “Hầu hết số người có tuổi trẻ” là kết luận đúng hơn mặc dù độ tin cậy của câu này thấp hơn (T = 0.1). Trong trường hợp khác, nếu giá trị của biểu thức bằng với hoành độ giao điểm G của hai hàm thuộc của hầu hết và khoảng một nửa thì khi đó sẽ có hai hạng từ định lượng khác nhau với độ tin cậy như nhau và độ tin cậy rất thấp. Theo quan điểm của logic mờ, để khắc phục điều này cần thêm vào một hạng từ khá nhiều với thứ tự về mặt ngữ nghĩa là khoảng một nửa ≤ khá nhiều ≤ hầu hết (hàm thuộc biểu diễn bằng nét đứt trong Hình 2). Khi đó, hạng từ được chọn cho câu kết luận là Q = khá nhiều với độ tin cậy cao T = 0.95. Tuy nhiên, cách làm này không tránh được có nhiều hạng từ cùng độ tin cậy trong khi ngữ nghĩa định lượng của chúng là khác nhau (phát sinh giao điểm H trong Hình 2 mà "Khá nhiều" (trẻ) khác với "khoảng một nửa" (trẻ)). Như vậy, công thức (1), (2) có thể đưa ra những hạng từ Q không hợp lí. Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ 73 Hình 2. Bổ sung thêm hạng từ “khá nhiều” Mặt khác, còn có những điểm không hợp lí trong truy vấn khi sử dụng công thức (4), (5). Trong trích rút câu tóm tắt, truy vấn dữ liệu là một giai đoạn có vai trò quyết định đến độ tin cậy. Theo [2, 4] nếu độ phù hợp của bản ghi R lớn hơn một giá trị ngưỡng thì R được đưa vào kết quả truy vấn. Trong công thức (4), giá trị   1 1 , N i i md Cl R N   (trung bình cộng độ phù hợp của N điều kiện) có thể dẫn đến kết quả sai lệch. Cho dữ liệu trong Bảng 2, hai điều kiện truy vấn được xem xét là “Tuổi = trẻ ”; "Lương = cao". Nếu truy vấn trên hai điều kiện đó với định lượng Q = tất cả (nghĩa là truy vấn những bản ghi thỏa đồng thời cả hai điều kiện) thì hai bản ghi có cùng độ phù hợp (0.4) với câu truy vấn. Rõ ràng điều này không hợp lí vì bản ghi thứ nhất không thỏa điều kiện "Lương = cao". Việc lấy trung bình cộng độ phù hợp của bản ghi với các điều kiện đã che giấu sự không phù hợp với một điều kiện nào đó. Bảng 2. Độ thuộc của thuộc tính Tuổi và Lương của hai bản ghi R1 và R2 vào 2 hạng từ tương ứng trẻ và cao trẻ(tuổi) cao(lương) R1 0.8 0 R2 0.4 0.4 Nhằm khắc phục những hạn chế đã được chỉ ra ở trên trong tóm tắt dữ liệu, chúng tôi chọn cách tiếp cận ứng dụng Đại số gia tử trong cả hai giai đoạn truy vấn và chọn hạng từ Q cho bài toán này. Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W.Wechler đề xuất năm 1990. Đây là một cấu trúc đại số cho miền giá trị của các hạng từ mà ngữ nghĩa được xác định dựa trên thứ tự của nó trong miền hạng từ [6]. ĐSGT được trang bị các công thức để dễ dàng tính toán các định lượng mờ như độ đo mờ, khoảng mờ, ánh xạ định lượng ngữ nghĩa dựa trên bộ tham số với số lượng nhỏ hơn hoặc bằng 5 và dễ dàng được xác định dựa trên tri thức thông thường của con người. Ưu điểm nổi bật của ĐSGT là các tính toán, ánh xạ luôn luôn bảo toàn quan hệ thứ tự ngữ nghĩa. Trong bài báo này, thuật ngữ "tóm tắt dữ liệu bằng ngôn ngữ" được viết tắt bằng LDS (Linguistic database summarization). 2. Nội dung nghiên cứu 2.1. Đại số gia tử Trong phần này, khái niệm cơ bản về đại số gia tử và định lượng ngữ nghĩa trong đại số gia tử được tóm tắt theo [6]. 2.1.1. Các khái niệm cơ bản Cho X là một biến ngôn ngữ và Dom(X ) là tập chứa tất cả các hạng từ trong tập giá trị của biến X. Tập X = Dom(X ) có thể được coi như là một cấu trúc đại số AX = (X, G, C, H, ), trong đó: Phạm Thị Lan và Hồ Cẩm Hà 74 - (X, ) là cấu trúc dựa trên thứ tự,  là quan hệ thứ tự sinh ra từ ngữ nghĩa vốn có của các hạng từ của biến X. - G = {c, c+} là tập các phần tử sinh, c+ được coi là hạng từ nguyên thủy dương, c- là hạng từ nguyên thủy âm. Ta có c-  c+. Ví dụ: chậm  nhanh, ít  nhiều. - C = {0, W, 1} tập các phần tử hằng thỏa mãn 0  c-  W  c+  1, hai phần tử 0 và 1 được coi là hạng từ nhỏ nhất, lớn nhất trong cấu trúc (X, ), W là phần tử trung bình. Ví dụ: 0 có nghĩa là cực kì chậm, W có nghĩa là trung bình, 1 có nghĩa là cực kì nhanh. - HI = H  {I} với H là tập các gia tử của biến X. I là một gia tử nhân tạo mang nghĩa của phần tử đơn vị, tức là Ix = x. Tập H gồm các gia tử dương H+ và các gia tử âm H-. Các gia tử dương làm tăng ngữ nghĩa của các hạng từ mà nó tác động, còn các gia tử âm làm giảm ngữ nghĩa của các hạng từ. Giả sử rằng H = {h0, h-1, ..., h-q} và H+ = {h0, h1,..., hp}, với h-1<h-2< ...<h-q, h1< ...<hp, và h0 = I. Giả sử rằng X\C = H(G), với H(G) là tập các hạng từ sinh ra từ các phần tử sinh trong G sử dụng các gia tử trong H. Tương tự H(x) gồm các hạng từ sinh ra từ x sử dụng các gia tử trong H. Dạng biểu diễn chính tắc của mỗi hạng từ x  Dom(X) là hm h1c, độ dài của hạng từ là |x| = m+1. Kí hiệu Xk là tập các hạng từ độ dài k, X(k) là tập các hạng từ có độ dài không quá k. 2.1.2. Định lượng ngữ nghĩa trong đại số gia tử Định lượng trong đại số gia tử là quá trình ánh xạ từ miền hạng từ vào miền tham chiếu tương ứng của biến ngôn ngữ. Tuy nhiên trong phương pháp đại số đối với ngữ nghĩa của các hạng từ mờ, các ánh xạ định lượng sẽ được định nghĩa một cách hệ thống, lợi dụng khái niệm mờ của các hạng từ. Chúng ta xem xét một đại số gia tử tự do AX = (X, G, C, H, ), tức là mọi gia tử h tác động lên một hạng từ x  H(G) luôn luôn tạo ra một ngữ nghĩa mới (tức là hx  x). Từ đây, ta có dạng biểu diễn chính tắc cho mỗi hạng từ là duy nhất. Định nghĩa 2.1 [6]. Một định lượng để xác định ngữ nghĩa định lượng của các hạng từ trong miền hạng từ X của một biến ngôn ngữ X là một ánh xạ f : X  [0,1], thỏa mãn hai điều kiện sau: (i) Ánh xạ một-một và trù mật trong đoạn [0,1], với [0,1] là miền tham chiếu thông thường của X; (ii) Duy trì thứ tự trong X. Ánh xạ f được gọi là ánh xạ định lượng ngữ nghĩa (semantically quantifying mapping - SQM). Ánh xạ này phụ thuộc mạnh mẽ vào ngữ nghĩa của các hạng từ mờ. Định nghĩa 2.2 [6]. Cho f : X  [0,1] là một SQM của AX. Đường kính của tập f(H(x))  [0,1] là độ đo tính mờ của x, k hiệu bởi fm(x). fm(x) = d(f(H(x)))  [0,1] Độ đo mờ là một ánh xạ fm: X  [0,1] thỏa các điều kiện sau đây: (fm1) fm(c) + fm(c+) = 1. Từ đó suy ra fm(0) = fm(W) = fm(1) = 0. (fm2)      i ih H fm h x fm x , x  X, và   1  kx X fm x . (fm3) fm(hx) = (h)fm(x), với hx  x, x  X, (h) là độ đo mờ của gia tử h. (fm4)    i ih H h  và  i ih H h   , với ,  > 0 và  +  = 1 Trong [7], tác giả đã mở rộng điều kiện (fm1) thành fm(c) + fm(c+) + fm(0) + fm(W) + fm(1) = 1. Tức là các độ đo mờ của các hằng 0, 1, W có thể dương để phù hợp với nhiều bài toán phức tạp trong thực tế. Mỗi hạng từ x được gắn với một khoảng I(x), được gọi là khoảng tính mờ của hạng từ x, chiều dài của nó là độ đo mờ của x. Tức là |I(x)| = fm(x). Tính chất của khoảng tính mờ: - Mỗi giá trị số trong khoảng tính mờ I(x) được coi là tương tự với những giá trị số khác trong đoạn và được so sánh với ngữ nghĩa của x ở mức độ |x|. - Tập {I(hjx) | j  [-q^p]} là một phân hoạch của I(x). Do đó, tập Ik = {I(x): x  Xk} là một phân hoạch của [0,1] = I(c)I(c+) và, với k  2, nó mịn hơn Ik’ = {I(x): x  Xk’}, với k’ < k. - Việc gán các khoảng tính mờ cho các hạng từ là tương ứng một-một và duy trì quan hệ thứ tự ngữ nghĩa trên Xk, tức là từ x ≤ y ta suy ra rằng I(x) ≤ I(y), x, y  Xk. Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ 75 2.2. Tóm tắt dữ liệu bằng ngôn ngữ Theo Yager (1982) bài toán LDS được phát biểu như sau [1]: - V là tập các thuộc tính cần quan tâm. Ví dụ: thuộc tính Tuổi trong CSDL công nhân; - Một tập các bản ghi có các thuộc tính trong V. Ví dụ: tập các công nhân với V(yi) là tuổi của công nhân yi; - D = {V(y1), ., V(yn)} là tập dữ liệu; Một LDS của tập dữ liệu trên gồm có: - Một tóm tắt S (ví dụ: trẻ) (a summerizer); - Một định lượng thỏa đáng Q (ví dụ: hầu hết) (a quantity in agreement); - Độ đúng đắn T (ví dụ: 0,7) (truth degree); Ví dụ: Hầu hết công nhân là trẻ (Truth = 0,7). Tóm tắt S là một diễn đạt bằng ngôn ngữ tự nhiên, một phương tiện giao tiếp phù hợp nhất của con người. Một tóm tắt đơn giản chỉ đưa ra đánh giá cho một thuộc tính. Có thể mở rộng tóm tắt trên nhiều thuộc tính như là “trẻ và lương cao”. Sau đó có thể là các tổ hợp phức tạp hơn nữa. Các điều kiện trên các thuộc tính có thể là AND hoặc/và OR, k trong số n, hầu hết... Định lượng thỏa đáng Q là chỉ số thể hiện số lượng dữ liệu thỏa tóm tắt và được diễn đạt bằng một hạng từ. Cơ bản có hai loại định lượng bằng ngôn ngữ là: 1) Tuyệt đối: khoảng 5, một vài, không nhỏ hơn 20, . . . 2) Tương đối: một ít, hầu hết, gần như tất cả... Định lượng tương đối chính là định lượng mờ. Độ đúng đắn T là một giá trị nằm trong khoảng [0, 1]. Ngữ nghĩa của T thể hiện chất lượng hoặc độ tốt của tóm tắt. Giá trị T đã từng được tính theo 2 phương pháp hoặc bằng công thức tính toán của Zadeh (1983) đối với một câu có định lượng bằng ngôn ngữ hoặc là dùng phép toán tính trung bình có trọng số (OWA) của Yager (1988) [2]. Các công thức tính toán trong cả hai phương pháp nói trên đều dựa vào giá trị hàm thuộc tóm tắt S và định lượng thỏa đáng Q khi S và Q được biểu diễn bằng các tập mờ. Ở đây không xét đến các LDS định lượng tuyệt đối như “Hơn 70% số công nhân có tuổi dưới 35” mà thay vào đó là LDS có nghĩa tương tự nhưng sử dụng ngôn ngữ tự nhiên như “Hầu hết công nhân là trẻ”. Tức là, ba thành phần trong dạng tiền định Q, B, S là các hạng từ trong ngôn ngữ tự nhiên. Trong khi đó, giá trị thuộc tính trong cơ sở dữ liệu là các con số [2]. Đã có một số tiêu chuẩn định tính khác T được đề xuất để đánh giá một LDS như độ đo thông tin [1], độ đúng đắn (truth), độ mờ (imprecision), độ bao quát (covering), độ thích hợp (appropriateness), độ dài (length) [2]. Kacprzyk và Zadrozny [2] đã đưa ra 5 kiểu tóm tắt bằng ngôn ngữ theo mức độ khái quát tăng dần như trong Bảng 3. Trong đó: Scấu trúc – các thuộc tính và liên kết của chúng, Sgiá trị– các giá trị của thuộc tính cần xác định. Bảng 3. Các kiểu tóm tắt dữ kiệu bằng ngôn ngữ Kiểu Cho trước Yêu cầu Ghi chú 1 S Q Tóm tắt đơn giản thông qua truy vấn 2 S B Q Tóm tắt có điều kiện thông qua truy vấn 3 Q Scấu trúc Sgiá trị Tóm tắt đơn giản hướng đến giá trị 4 Q Scấu trúc B Sgiá trị Tóm tắt có điều kiện hướng đến giá trị 5 Rỗng S B Q Các luật mờ thông thường 2.3. Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ Đã có những nghiên cứu ứng dụng ĐSGT trong truy vấn mờ và hạng từ định lượng cũng được đưa vào truy vấn [8,9]. Các nghiên cứu trước đây, xây dựng ĐSGT cho các thuộc tính luôn giả thiết fm(W) = 0 và hạng từ định lượng được xác định trước. Trong bài toán LDS, hạng từ định lượng Q là một thành phần trong đầu vào (kiểu 3, 4), cũng có thể là thành phần trong đầu ra (kiểu 1, 2, 5). Dưới đây, chúng tôi trình bày phương pháp sử dụng ĐSGT mở rộng với fm(W) ≠ 0 để phù hợp hơn thực tế. Tập gia tử là  1H h  và  1H h  [7]. Phạm Thị Lan và Hồ Cẩm Hà 76 2.3.1. Sử dụng đại số gia tử trong truy vấn mờ Với mỗi thuộc tính tham gia trong truy vấn theo điều kiện S hoặc điều kiện lọc B, ta xây dựng một ĐSGT cho miền giá trị của chúng. Không mất tính tổng quát, giả sử rằng điều kiện lọc B và điều kiện truy vấn S là điều kiện đơn dạng “AT = AF”, với AF là một hạng từ. Thuật toán 2.1. Truy vấn CSDL theo điều kiện đơn “AT = AF” Vào: Quan hệ r xác định trên tập thuộc tính U = {AT1, , ATn} Câu truy vấn dạng Select from where AT = AF Ra: Quan hệ rresult thỏa mãn với mọi bộ t rresult có AT = AF Phương pháp: (1) Xác định miền tham chiếu thực cho thuộc tính AT là DAT = [minAT, maxAT]. Xây dựng ĐSGT cho thuộc tính AT (2) Chọn G = {c+, c-}, C = {0, W, 1}, H- = {h-1}, H+ = {h1}. (3) Xác định khoảng giá trị tương ứng với W là [minW, maxW][minAT, maxAT] (4) Tính độ đo mờ:   1 1 W W AT AT max min fm W max min      ,   1 1 W AT AT min fm c max min     ,      1fm c fm W fm c    (5) Chọn độ đo mờ cho h-1, tính độ đo mờ của h1 theo công thức (6) Xác định tập hạng từ mức k là Xk {W}, k là độ dài hạng từ AF (7) Tính các khoảng mờ cho tập các hạng từ trong Xk {W}: I(x1),I(x2), ., I(x (8) Xác định khoảng tham chiếu tương ứng của AF là DAF Thực hiện truy vấn (9) rresult =  (10) Với mỗi bộ t r thỏa t(AT) DAF thì rresult = rresult  t (11) Trả về rresult Việc sử dụng ĐSGT trong truy vấn mờ theo cách này là rất tự nhiên và đảm bảo sự hợp lí về ngữ nghĩa. Vì khi giá trị của thuộc tính AT là t(AT)DAF thì AF chính là diễn đạt bằng ngôn ngữ của giá trị đó. Hơn nữa, một bản ghi có được đưa vào kết quả truy vấn hay không chỉ phụ thuộc vào các giá trị thuộc tính của nó mà không bị tác động bởi các bản ghi khác. Khi đã được đưa vào kết quả truy vấn thì nó được tính một đơn vị bản ghi trong kết quả. Ví dụ 2.1: Xét một truy vấn có điều kiện “Tuổi = trẻ”. Xây dựng một ĐSGT như sau: G = {trẻ, già}, H- = {khá}, H+ = {rất}. Dựa vào biểu diễn tập mờ của 3 hạng từ của thuộc tính tuổi trong Hình 1a, miền tham chiếu của tuổi là [0, 90], dưới 30 tuổi được gọi là trẻ, tuổi từ 30 đến 59 được gọi là trung niên, từ 60 tuổi được gọi là già. Khi đó ta có fm(trẻ) = 30/90 = 1/3, fm(trung niên) = 1/3, fm(già) = 1/3. Giả sử fm(khá) = 0.4, fm(rất) = 0.6. Khoảng mờ: I(trẻ)= [0, 1/3), I(trung niên) = [1/3, 2/3), I(già) = [2/3, 1). Miền tham chiếu tương ứng với trẻ là Dtrẻ = [0, 30) Kết quả truy vấn trên tập dữ liệu như trong Bảng 1, cho kết quả truy vấn có 15 bản ghi. Tỉ lệ bản ghi thỏa truy vấn là: f = 15/20 = 0.75. Lúc này, sử dụng hạng từ hầu hết để diễn đạt cho giá trị 0.75 sẽ có được độ tin cậy cao. 2.3.2. Xây dựng một đại số gia tử cho định lượng bằng ngôn ngữ Coi tập các hạng từ dùng để diễn đạt định lượng là Xk{0, W, 1} với hằng 0 được hiểu là không có bản ghi nào thỏa, hằng 1 là tất cả các bản ghi đều thỏa, hằng W được hiểu là khoảng một nửa. Nếu cần tăng độ chính xác cho việc diễn đạt Q thì chỉ cần tăng giá trị của k. Thông thường k≤3. Thuật toán 2.2: Áp dụng ĐSGT trong định lượng bằng ngôn ngữ Vào: Một tập các hạng từ T, giá trị f. Ra: Hạng từ yT diễn đạt cho f. Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ 77 Phương pháp: (1) Chọn G = {c-, c+}, C = {0, W, 1}, H- = {h-1}, H+ = {h1}. (2) Chọn fm(c+), fm(c-) và fm(W) sao cho phù hợp với từng ngữ cảnh cụ thể (3) Chọn fm(h-1), tính fm(h1). (4) Chọn k sao cho Q cần tìm thuộc Xk{0, W, 1} (5) Tính toán các khoảng mờ của tập các hạng từ Xk{W} (6) Nếu giá trị fI(x) thì trả về x. Ví dụ 2.2: Các hạng từ định lượng tương đối thường dùng là: rất ít, ít, nhiều, hầu hết, khoảng một nửa. Thứ tự ngữ nghĩa của các hạng từ như sau: rất ít < ít < khoảng một nửa < nhiều < hầu hết. Xây dựng một ĐSGT như sau: G = {ít, nhiều}, C = {0, W, 1}. Nếu tỉ lệ từ 45% đến 55% thì coi là khoảng một nửa. Do đó khoảng mờ của W là [0.45, 0.55]. Từ đó, ta suy ra độ đo mờ là fm(W) = 0.1 và fm(0) = fm(1) = 0, fm(ít) = fm(nhiều) = 0.45. Chọn tập gia tử H- = {khá}, H+ = {rất} với fm(khá) = 0.4, fm(rất) = 0.6 Ta sử dụng các hạng từ trong tập X2{0, W, 1} = {0, rất ít, khá ít, W, khá nhiều, rất nhiều, 1}. Bảng 4 sau đưa ra cách ánh xạ tập các hạng từ cần dùng với tập các hạng từ trong X2{0, W, 1}. Bảng 4. Ánh xạ giữa hai tập hạng từ T và X2{0, W, 1} Hạng từ cần dùng Rất ít Ít Khoảng một nửa Nhiều Hầu hết