Tóm tắt - Mô hình mờ TSK và mô hình máy học véc-tơ hỗ trợ hồi
quy có sự tương đương nhau trong một số điều kiện nhất định.
Bằng cách thỏa mãn các điều kiện đề đồng nhất các hàm đầu ra
của mô hình mờ TSK và máy học véc-tơ hỗ trợ hồi quy, chúng ta
có thể xây dựng một thuật toán cho phép trích xuất mô hình mờ
TSK từ máy học véc-tơ hỗ trợ. Bài báo này không những đưa ra
thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc tơ
hỗ trợ mà còn đề xuất một giải pháp cho phép tối ưu hóa mô hình
mờ nhận được thông qua việc điều chỉnh tham số ε. Việc điều
chỉnh tham số ε sẽ cho phép trích xuất được mô hình vừa đảm bảo
tính chính xác trong dự đoán, đồng thời có thể giảm độ phức tạp
và tăng “tính diễn dịch” của mô hình. Hiệu quả của giải pháp đề
xuất được đánh giá thông qua các kết quả thực nghiệm và có sự
so sánh với kết quả của một số mô hình khác.
5 trang |
Chia sẻ: thanhle95 | Lượt xem: 312 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi quy với tham số ઽ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 15
TỐI ƯU HÓA MÔ HÌNH MỜ TSK TRÍCH XUẤT TỪ MÁY HỌC VÉC-TƠ
HỖ TRỢ HỒI QUY VỚI THAM SỐ ઽ
OPTIMAZING TSK FUZZY MODEL EXTRACTED FROM SUPPORT-VECTOR-MACHINES
FOR REGRESSION WITH ઽ PARAMETER
Nguyễn Đức Hiển1, Lê Mạnh Thạnh2
1Trường Đại học Khoa học, Đại học Huế; hiencit@gmail.com
2Đại học Huế; lmthanh@hueuni.edu.vn
Tóm tắt - Mô hình mờ TSK và mô hình máy học véc-tơ hỗ trợ hồi
quy có sự tương đương nhau trong một số điều kiện nhất định.
Bằng cách thỏa mãn các điều kiện đề đồng nhất các hàm đầu ra
của mô hình mờ TSK và máy học véc-tơ hỗ trợ hồi quy, chúng ta
có thể xây dựng một thuật toán cho phép trích xuất mô hình mờ
TSK từ máy học véc-tơ hỗ trợ. Bài báo này không những đưa ra
thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc tơ
hỗ trợ mà còn đề xuất một giải pháp cho phép tối ưu hóa mô hình
mờ nhận được thông qua việc điều chỉnh tham số ε. Việc điều
chỉnh tham số ε sẽ cho phép trích xuất được mô hình vừa đảm bảo
tính chính xác trong dự đoán, đồng thời có thể giảm độ phức tạp
và tăng “tính diễn dịch” của mô hình. Hiệu quả của giải pháp đề
xuất được đánh giá thông qua các kết quả thực nghiệm và có sự
so sánh với kết quả của một số mô hình khác.
Abstract - TSK fuzzy models and Support vector machines for
regression are similar under a certain number of conditions. By
uniformly satisfying these conditions between TSK fuzzy models
and Support vector machines for regression, we can construct an
algorithm to extract TSK fuzzy model from Support vector
machines. This paper not only constructs an algorithm that
facilitates the extraction of TSK fuzzy model from support vector
machine, but also proposes a solution that allows optimization of
extracted fuzzy model through the adjustment of εparameter. The
adjustment of ε parameter allows the extraction of a fuzzy model
that not only ensures accuracy in prediction but also reduces
complexity and increases interpretability. The effectiveness of the
proposed solution is evaluated through experimental results and a
comparison of these results with those of some other models.
Từ khóa - mô hình mờ; mô hình mờ TSK; luật mờ; máy học véc-
tơ hỗ trợ; máy học véc-tơ hỗ trợ hồi quy.
Key words - fuzzy model; TSKfuzzy model; fuzzy rules; support
vector machine; support vector machine for regeression.
1. Đặt vấn đề
Vấn đề trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ
(Support vector machines -SVM) được nhóm tác giả J.-H
Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên
trong [5]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên
cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ
từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu
cho các bài toán phân lớp [2], [6], [9], dự báo hồi quy [2],
[9], [11]. Theo [6] và [9], sự khác biệt chủ yếu giữa hệ
thống mờ dựa trên máy học véc-tơ hỗ trợ và mô hình máy
học véc-tơ hỗ trợ nguyên thủy chính là “tính diễn dịch”;
tính chất này cho phép hệ thống suy luận mờ dễ hiểu hơn
so với mô hình dự đoán dựa trên máy học véc-tơ hỗ trợ.
Một đặc điểm cơ bản của máy học véc-tơ hỗ trợ là tính
chính xác của mô hình thu được tỷ lệ thuận với số lượng
Support-vector sinh ra [2], [6], [9]. Nói cách khác là khi tăng
hiệu suất của mô hình thì đồng nghĩa với việc làm giảm “tính
diễn dịch” của mô hình. Như vậy vấn đề đặt ra là làm thế nào
có thể trích xuất được hệ thống mờ đảm bảo tính chính xác
trong dự đoán, đồng thời đảm bảo được đặc “tính diễn dịch”.
Trong bài báo này, nhóm tác giả đề xuất giải pháp điều chỉnh
giá trị tham số ε trong mô hình máy học SVM hồi quy (ε-
Support Vector Regression) để sao cho có thể đảm bảo tính
chính xác của mô hình dự báo, đồng thời tăng tính “diễn
dịch” của mô hình mờ trích xuất được.
Các phần tiếp theo của bài báo bao gồm: phần 2 trình
bày sơ lược về mô hình mờ TSK. Trong phần 3, chúng tôi
trình bày sơ lược về mô hình SVM hồi quy và đưa đến giải
pháp trích xuất mô hình mờ TSK từ máy học SVM. Phần 4
trình bày những phân tích về giải pháp tối ưu hóa mô hình
thông qua các tham số, và từ đó đề xuất thuật toán cho phép
trích xuất mô hình mờ tối ưu từ máy học SVM. Phần 5 trình
bày những kết quả thực nghiệm của mô hình đề xuất, trong
đó có kết hợp so sánh với một số kết quả của các mô hình
khác. Cuối cùng, trong phần 6 chúng tôi nêu lên một số kết
luận và định hướng nghiên cứu tiếp theo.
2. Mô hình mờ TSK
Mô hình mờ dạng TSK [4], [6], [11] còn được gọi là
mô hình Takagi-Sugeno, được đề xuất bởi Takagi, Sugeno,
và Kang nhằm phát triển cách tiếp cận mang tính hệ thống
đối với quá trình sinh luật mờ từ tập dữ liệu vào-ra cho
trước. Hệ thống mờ TSK bao gồm một tập các luật mờ “IF
– THEN”, với phần kết luận của mỗi luật này là một hàm
(không mờ) ánh xạ từ các tham số đầu vào tới tham số đầu
ra của mô hình. Tham số của các hàm ánh xạ này có thể
được đánh giá thông qua các giải thuật nhận dạng
(identification algorithms) như phương pháp bình phương
nhỏ nhất (least-squares methods) hay bộ lọc Kalman
(Kalman filter) [4], [9]. Hệ luật mờ dạng Tagaki-Sugeno
với hai phương pháp lập luận single-winner-rule và
weighted-vote khá trực quan [4], không phải khử mờ kết
quả lập luận, rất phù hợp trong việc xây dựng các mô hình
ứng dụng của một số bài toán trong khai phá dữ liệu.
Giả sử có một hệ thống mờ TSK với m luật mờ được
biểu diễn như sau:
R୨: IF xଵ is Aଵ୨ and xଶ is Aଶ୨ and and x୬ is A୬୨
THEN z ൌ g୨ሺxଵ, xଶ, , x୬ሻ , với j ൌ 1, 2, , m
Trong đó ݔሺ݅ ൌ 1, 2, , ݊ሻ là các biến điều kiện; z là các
biến quyết định của hệ thống mờ được xác định bởi hàm không
mờ g୨ሺ. ሻ; A୧୨ là những giá trị ngữ nghĩa được xác định bởi hàm
16 Nguyễn Đức Hiển, Lê Mạnh Thạnh
thành viên μౠሺx୧ሻ. Lưu ý, μౠሺx୧ሻ được định nghĩa như sau:
μౠ ሺx୧ሻ ൌ ෑ μౠሺx୧ሻ
୬
୧ୀଵ
ሺ1ሻ
Quá trình suy luận được thực hiện như sau:
1) Kích hoạt các giá trị thành viên.
ෑ μౠሺx୧ሻ
୬
୧ୀଵ
ሺ2ሻ
2) Kết quả đầu ra của suy luận được tính như sau:
fሺxሻ ൌ
∑ z୨ ൬∏ μౠሺx୧ሻ
୬୧ୀଵ ൰୫୨ୀଵ
∑ ∏ μౠሺx୧ሻ
୬୧ୀଵ୫୨ୀଵ
ሺ3ሻ
Trong đó, z୨là giá trị của hàm g୨ሺ. ሻ.
3. Trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ
trợ hồi quy
Máy học véc-tơ hỗ trợ SVM được Vapnik giới thiệu
năm 1995, đây là mô hình học dựa trên lý thuyết học thống
kê (Statistical Learning Theory) [1] và là một kỹ thuật được
đề nghị để giải quyết cho các bài toán phân lớp. Từ đó,
nhiều nghiên cứu đã đề xuất sử dụng SVM giải quyết bài
toán tối ưu hóa hồi quy [3], [6], [7]. Với vai trò giải quyết
vấn đề tối ưu hóa hồi quy, lý thuyết cơ bản của SVM có thể
được vắn tắt như sau [3], [7], [12]:
Cho một tập dữ liệu huấn luyện ሼሺݔଵ, ݕଵሻ, , ሺݔ, ݕሻሽ ⊂
ࣲ ൈ Թ, trong đó ࣲ xác định miền dữ liệu đầu vào. Mục
tiêu của ߝ-SVM hồi quy (ε-Support Vector Regression) là
tìm một hàm siêu phẳng ݂ሺݔሻ sao cho độ sai lệch trên tất
cả các y୧ của tập dữ liệu huấn luyện phải nhỏ hơn giá trị sai
số ߝ. Trong trường hợp hồi phi tuyến, hàm quyết định ݂ሺݔሻ
của ε-SVM hồi quy có dạng:
݂ሺݔሻ ൌ ݓ. ߔሺݔሻ ܾ ݒớ݅ ݓ ∈ ࣲ, ܾ ∈ Թ ሺ 4ሻ
trong đó ߔሺݔሻ thể hiện không gian thuộc tính nhiều chiều
được ánh xạ phi tuyến tính từ không gian đầu vào ݔ . Các hệ
số ݓ và ܾ được ước lượng bởi bài toán tối ưu hóa ràng buộc:
݉݅݊௪,,క,క∗
1
2 ‖ݓ‖
ଶ ܥሺߦ ߦ∗ሻ
ୀଵ
ሺ5ሻ
với tập ràng buộc: ቐ
ሺݓ. ߔሺݔሻ ܾሻ െ ݕ ߝ ߦ,
ݕ െ ሺݓ. ߔሺݔሻ ܾሻ ߝ ߦ∗,
ߦ, ߦ∗ 0, ݒà ݅ ൌ 1, 2, , ݈
trong đó C 0 là tham số chuẩn tắc, ε là sai số cho phép,
và ξ୧,ξ∗ là những biến lỏng.
Ý tưởng then chốt để giải quyết bài toán (5) là xây dựng
hàm Lagrange từ hàm mục tiêu và các ràng buộc tương
ứng, bằng cách đưa vào một tập kép các biến (nhân tử
Lagrange). Hàm Lagrange được xây dựng như sau:
L ≔ 12 ‖ݓ‖
ଶ ܥሺߦ ߦ∗ሻ
ୀଵ
െሺߟ. ߦ ߟ∗. ߦ∗ሻ
ୀଵ
ሺ6ሻ
െ α୧. ሺߝ ߦ െ ݕ ݓ. ߔሺݔሻ ܾሻ
ୀଵ
െ α୧∗. ሺߝ ߦ∗ ݕ െ ݓ. ߔሺݔሻ െ ܾሻ
ୀଵ
trong đó ߟ, ߟ∗, α୧, α୧∗ 0 là những nhân tử Lagrange.
Các đạo hàm riêng của L đối với các biến ݓ, ܾ, ߦ, ߦ∗
thỏa mãn các điều kiện sau:
߲ܮ ൌ ሺߙ∗ െ ߙሻ
ୀଵ
ൌ 0 ሺ7ሻ
߲௪ܮ ൌ ݓ െሺߙ∗ െ ߙሻ. ݔ
ୀଵ
ൌ 0 ሺ8ሻ
߲కܮ ൌ ܥ െ ߙ െ ߟ ൌ 0 ሺ9ሻ
߲క∗ܮ ൌ ܥ െ ߙ∗ െ ߟ∗ ൌ 0 ሺ10ሻ
Thế (7), (8), (9), và (10) vào (6) sẽ đưa đến bài toán
Quadratic Programming:
݉ܽݔఈ,ఈ∗ െ
1
2 ൫ߙ െ ߙ
∗ሻሺߙ െ ߙ∗൯ ሺߔሺݔሻ். ߔ൫ݔ൯ሻ
,ୀଵ
െ εሺα୧ α୧∗ሻ
୪
୧ୀଵ
െ y୧ሺα୧ α୧∗ሻ
୪
୧ୀଵ
ሺ11ሻ
Với tập ràng buộc:
∑ ሺߙ െ ߙ∗ሻୀଵ ൌ 0, và ܥ ߙ, ߙ∗ 0, ݅ ൌ 1, 2, , ݈
Công thức (8) có thể viết:
ݓ ൌ ሺߙ െ ߙ∗ሻ. ݔ
ୀଵ
ሺ12ሻ
Và như vậy hàm quyết định (4) được viết:
݂ሺݔሻ ൌ ሺߙ െ ߙ∗ሻ. ߔሺݔሻ். ߔሺݔሻ
ୀଵ
ܾ ሺ13ሻ
Gọi ܭሺݔ, ݔሻ ൌ ߔሺݔሻ். ߔሺݔሻ là hàm nhân của không
gian đầu vào. Hàm quyết định (13) được viết:
݂ሺݔሻ ൌ ሺߙ െ ߙ∗ሻ. ܭሺݔ, ݔሻ
ୀଵ
ܾ ሺ14ሻ
Những điểm đầu vào ݔvới ሺα୧ െ α୧∗ሻ ് 0 được gọi là
những véc-tơ hỗ trợ (SVs).
Xét hàm đầu ra của mô hình mờ TSK (3) và hàm quyết
định của mô hình máy học véc-tơ hồi quy (14). Để (3) và
(14) đồng nhất với nhau, trước tiên chúng ta phải đồng nhất
giữa hàm nhân trong (14) và hàm thành viên trong (3). Ở
đây, để thỏa mãn điều kiện Mercer [10] hàm thành viên
Gauss được chọn làm hàm nhân; đồng thời giá trị của b
trong (14) phải bằng 0.
Khi hàm Gauss được chọn làm hàm thành viên và hàm
nhân, đồng thời số luật mờ bằng với số véc-tơ hỗ trợ thì (3)
thành (15) và (14) thành (16):
݂ሺݔሻ ൌ
∑ ݖ݁ݔ ቆെ ଵଶ ൬
௫ೕି௫
ఙೕ ൰
ଶ
ቇୀଵ
∑ ݁ݔ ቆെ ଵଶ ൬
௫ೕି௫
ఙೕ ൰
ଶ
ቇୀଵ
ሺ15ሻ
݂ሺݔሻ ൌ ሺߙ െ ߙ∗ሻ݁ݔ ቆെ
1
2 ൬
ݔ െ ݔ
ߪ ൰
ଶ
ቇ
ୀଵ
ሺ16ሻ
Như cách biến đổi trong [5], hàm suy luận mờ (15)
có thể viết như sau:
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 17
݂ሺݔሻ ൌ ݖ݁ݔ ൭െ 12 ቆ
ݔ െ ݔ
ߪ ቇ
ଶ
൱
ୀଵ
ሺ17ሻ
Và chúng ta chọn:
ݖ ൌ ሺߙ െ ߙ∗ሻ ሺ18ሻ
Như vậy, trên cơ sở thỏa mãn các điều kiện để đồng
nhất hàm đầu ra của SVMs và hệ thống mờ TSK, chúng ta
có thể trích xuất được mô hình mờ TSK từ máy học véc-tơ
hỗ trợ theo kịch bản như sau:
Bước 1: Huấn luyện SVMs với tập dữ liệu huấn luyện
để trích xuất ra các véc-tơ hỗ trợ tương ứng với các giá trị
ݔ ൌ ݏݒ, phương sai ߪ, và ሺߙ െ ߙ∗ሻ ൌ ܤ
Bước 2: Thiết lập các ݏݒ là trung tâm của các hàm
thành viên Gauss, trích xuất ra các luật mờ TSK:
ܫܨ ݔ ݅ݏ ܩܽݑݏݏ݂݉ሺߪ, ݏݒሻ ܶܪܧܰ ݕ ݅ݏ ܤ
4. Tối ưu hóa mô hình
4.1. Tối ưu hóa các tham số của hàm thành viên
Các tham số của hàm thành viên có thể được tối ưu hóa
dùng những thuật toán gradient descent hoặc thuật toán di
truyền (GAs). Trong trường hợp này, để nhận được tập mờ tối
ưu, giá trị các tham số của hàm thành viên
Gaussμሺxሻ ൌ ݁ݔ ቀെ ሺݔെܿሻ22ߪ2 ቁ được cập nhật theo các hàm
thích nghi sau đây:
ߪሺݐ 1ሻ ൌ ߪሺݐሻ ߜߝ, ቈሺݔ െ ܿሻ
ଶ
ߪଷ ݁ݔ ቆെ
ሺݔ െ ܿሻଶ
2ߪଶ ቇ ሺ19ሻ
ܿሺݐ 1ሻ ൌ ܿሺݐሻ ߜߝ, ቈെ
ሺݔ െ ܿሻ
ߪଶ ݁ݔ ቆെ
ሺݔ െ ܿሻଶ
2ߪଶ ቇ ሺ20ሻ
4.2. Vai trò của tham số ࢿ
Một trong những đặc điểm của mô hình mờ là “tính diễn
dịch” (intepretability) [4]. Tuy nhiên, đối với mô hình máy
học véc-tơ hỗ trợ, nếu điều chỉnh các tham số để tăng độ
chính xác của mô hình, thì số lượng SVs cũng tăng lên,
đồng nghĩa với số lượng luật mờ cũng tăng lên. Điều này
làm cho tính phức tạp của hệ thống tăng lên và đặc biệt là
“tính diễn dịch” của hệ thống mờ giảm đi.
Hình 1. Mối quan hệ giữa số lượng SVs và tham số ߝ (giá trị
của ߝ tương ứng theo thứ tự các hình vẽ là 0.5, 0.2, 0.1 và 0.01)
Xét kết quả thực nghiệm mô hình máy học véc-tơ hồi
quy trên hàm hồi quy phi tuyến ܵ݅݊ܿሺݔሻ (giới thiệu chi tiết
ở mục 5.1). Theo kết quả ở Hình 1 chúng ta thấy: Khi giảm
giá trị của tham số ߝ thì số lượng SVs cũng tăng lên, đồng
thời độ chính xác của kết quả dự đoán cũng tăng lên (đường
đậm nét là đường dự đoán hồi quy, đường đánh dấu + là
đường biểu diễn giá trị dữ liệu đúng).
Từ những phân tích trên, nhóm tác giả đề xuất thuật toán
cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ
trợ như thể hiện ở Hình 2. Trong thuật toán này, ngoài việc
tối ưu hóa các tham số của hàm thành viên, chúng ta có thể
điều chỉnh giá trị tham số ߝ để nhận được mô hình tối ưu.
Hình 2. Sơ đồ khối thuật toán f-SVM
5. Kết quả thực nghiệm
Để chứng tỏ hiệu quả của việc tối ưu hóa mô hình mờ
TSK trích xuất từ máy học véc-tơ hồi quy dựa vào tham số
ε, chúng tôi tiến hành thực nghiệm giải quyết bài toán
thông dụng sau đây.
5.1. Hàm hồi quy phi tuyến tính
Chúng tôi tiến hành thực nghiệm giải quyết bài toán hồi
quy phi tuyến sau:
ܵ݅݊ܿሺݔሻ ൌ ൝
ݏ݅݊ ሺݔሻ
ݔ ݂݅ ݔ ് 0
1 ݂݅ ݔ ൌ 0 ሺ21ሻ
Tập dữ liệu huấn luyện được xác định trong phạm vi từ
െ3ߨđến 3ߨ.
Trong quá trình xác định cấu trúc SVM, chúng tôi sử
dụng tham số ε để điều chỉnh số lượng SVs. Chúng tôi cố
định tham số ܥ ൌ 10. Khi giá trị ߝ ൌ 0.0, sẽ có 50 SVs
nhận được từ mô hình, đồng nghĩa với việc chúng ta nhận
được 50 luật mờ (chú ý rằng, trong trường hợp này tất cả
các các mẫu dữ liệu huấn luyện được chọn làm SVs đầu
ra). Hình 3a thể hiện phân bố của 50 hàm thành viên mờ
tương ứng trong trường hợp này.
(a) (b)
Hình 3. Phân bố của 50 và 6 hàm thành viên mờ
Begin
Initialize parameters of SVMs
Centers : ܿ , ݅ ൌ 1. . ݉
Variances :ߪ , ݅ ൌ 1. . ݉
extract fuzzy rules from SVM
IF x is Gaussmf(ߪ, ݏݒ ) THEN y is B
Optimization
End
Optimization parameters: σ୧, c୧, ε
Input: Training data set
Output: TSK fuzzy model
18 Nguyễn Đức Hiển, Lê Mạnh Thạnh
Sau đó chúng tôi tăng giá trị tham số ߝ lên. Khi ߝ ൌ 0.1,
thì có 6 SVs nhận được tương ứng các giá trị của ݔ là -2.48,
-1.48, -0.02, 0.02, 1.32, và 2.48; tương ứng với các giá trị
của ሺߙ െ ߙ∗ሻ là 0.33, -0.36, 1.32, 1.32, -0.36, và 0.33. 6
luật mờ trích xuất được thể hiện ở Bảng 1. Hình 3b thể hiện
phân bố của 6 hàm thành viên mờ tương ứng. Như vậy
chúng ta có thể điều chỉnh giá trị tham số ε, tức điều chỉnh
số lượng SVs để tối ưu hóa vị trí của SVs, đồng nghĩa với
việc tối ưu hóa phân bố và số lượng luật mờ.
Bảng 1. Tập 6 luật trích xuất được
Luật Chi tiết
R1 IF x is Gaussmf(0.66,-2.48) THEN y is 0.33
R2 IF x is Gaussmf(0.71,-1.32) THEN y is -0.36
R3 IF x is Gaussmf(0.78,-0.02) THEN y is 1.32
R4 IF x is Gaussmf(0.78,0.02) THEN y is 1.32
R5 IF x is Gaussmf(0.71,1.32) THEN y is -0.36
R6 IF x is Gaussmf(0.66,2.48) THEN y is 0.33
5.2. Chuỗi thời gian hỗn loạn Mackey-Glass
Với thực nghiệm này chúng tôi muốn chứng tỏ rằng,
mô hình mờ TSK trích xuất từ máy học véc-tơ hồi quy được
tối ưu hóa dựa vào tham số ε, thật sự mang lại hiệu quả. Dữ
liệu được lựa chọn để thử nghiệm là dữ liệu chuỗi thời gian
Mackey-Glass (Mackey-Glass time series). Dữ liệu chuỗi
thời gian Mackey-Glass được sinh theo công thức sau [8]:
ݔሶ ൌ ܽݔሺݐ െ ߬ሻ1 ݔሺݐ െ ߬ሻ െ ܿݔሺݐሻ ሺ21ሻ
Trong đó ta chọn ߬ ൌ 30, ܽ ൌ 0.2, ܾ ൌ 10, và ܿ ൌ 0.1.
Thuộc tính đầu vào được lựa chọn là các giá trị ݔሺݐ െ 1ሻ,
ݔሺݐ െ 2ሻ; thuộc tính đầu ra cần dự đoán là giá trị ݔሺݐሻ. Với
1000 mẫu dữ liệu sinh ra từ hàm (21), 800 mẫu dữ liệu được
sử dụng để huấn luyện cho máy học véc-tơ hỗ trợ và sinh ra
các luật mờ, 200 mẫu dữ liệu còn lại được sử dụng để thử
nghiệm suy luận dựa trên tập luật mờ trích xuất được.
Tương tự với ví dụ trước, trong thực nghiệm này chúng
tôi cũng cố định tham số C và thiết lập giá trị cho tham số
ߝ ൌ 0.0 thì kết quả có 200 luật mờ nhận được. Hình 4a thể
hiện phân bố của các hàm thành viên mờ tương ứng với
biến ݔሺݐ െ 2ሻ.
(a) (b)
Hình 4. Phân bố 200 và 3 hàm thành viên mờ
Khi điều chỉnh tăng giá tri tham số ߝ ൌ 0.1, thì chúng
ta thu được một hệ thống mờ gồm có 9 luật như thể hiện ở
Bảng 2. Hình 4b thể hiện phân bố của các hàm thành viên
mờ tương ứng với biến ݔሺݐ െ 2ሻ.
Kết quả dự đoán của mô hình trích xuất đươc trên 200
mẫu dữ liệu thử nghiệm được thể hiện ở Bảng 3. Bên cạnh
việc thực nghiệm dự đoán với mô hình mờ trích xuất được,
chúng tôi cũng thử nghiệm dự đoán trên cùng bộ dữ liệu đó
với các mô hình được đề xuất bởi các tác giả khác, bao gồm
mô hình ANFIS, và SVM.
Bảng 2. Ví dụ 3 luật trong hệ thống mờ trích xuất được
Luật Chi tiết
R1 IF x(t-2) is Gaussmf(0.56,0.48) and x(t-1) is
Gaussmf (0.52, 0.51) THEN x(t) is 1.12
R2 IF x (t-2) is Gaussmf(0.65,1.07) and x(t-1) is
Gaussmf (0.66, 1.09) THEN x(t) is 0.94
R3 IF x (t-2) is Gaussmf(0.53,1.37) and x(t-1) is
Gaussmf(0.53, 1.39) THEN x(t) is 0.98
Bảng 3. Kết quả dự đoán trên 200 mẫu dữ liệu test
Số luật
mờ
Mô hình áp dụng
ANFIS SVM Mô hình f-SVM
170 <10
-10 0.0540 <10-10
36 0.0034 0.0509 0.0086
25 0.0041 0.0635 0.0092
16 0.0050 0.0748 0.0095
9 0.0074 0.1466 0.0098
4 0.0087 0.1955 0.0102
Hiệu quả của các mô hình được so sánh và đánh giá dựa
trên thông số RMSE (Root Mean Squared Error), thông số
này đo lường độ lệch giữa giá trị x(t) thực tế và giá trị dự
đoán được. So sánh các giá trị của RMSE trong Bảng 3, ta
có thể nhận thấy rằng mô hình ứng dụng thuật toán f-SVM
đề xuất cho kết quả dự đoán tương đương với mô hình
ANFIS và tốt hơn so với mô hình SVM. Ngoài ra ta cũng có
thể thấy rằng, khi điều chỉnh tăng giá trị của tham số ε để số
luật mờ giảm xuống thì thì hiệu quả dự đoán sẽ bị suy giảm.
6. Kết luận
Trong nghiên cứu này chúng tôi đề xuất thuật toán f-
SVM không những cho phép trích xuất mô hình mờ TSK
từ máy học véc-tơ hỗ trợ hồi quy, mà còn cho phép điều
chỉnh giá trị tham số ߝ để tối ưu hóa mô hình trích xuất
được. Với việc điều chỉnh giá trị tham số ߝ, chúng ta có thể
nhận đươc mô hình vừa đảm bảo tính chính xác khi dự
đoán, vừa đảm bảo giảm số luật mờ trong mô hình. Chính
việc giảm số luật mờ trong mô hình sẽ làm gia tăng “tính
diễn dịch” của mô hình.
Kết quả thực nghiệm trên các dữ liệu thử nghiệm cho
thấy giải pháp đề xuất thật sự mang lại hiệu quả dự đoán
tốt trong sự so sánh với các mô hình như ANFIS, SVM
nguyên thủy; thể hiện qua các giá trị của thông số NMSE.
Mặt khác, với tập luật có “tính diễn dịch” trích xuất được,
một trong những hiệu quả mang lại là chuyên gia con người
có thể hiểu và phân tích được tập luật này một cách dễ
dàng, từ đó có thể đánh giá tập tập luật mờ và qua đó có
giải pháp để tối ưu hóa tập luật.
Trong định hướng nghiên cứu tiếp theo, chúng tôi sẽ ứng
dụng thuật toán trích xuất luật mờ f-SVM để xây dựng các
mô hình mờ tích hợp giải quyết một số bài toán dự báo trong
thực tế. Các mô hình mờ tích hợp này có thể được xây dựng
dựa trên cơ sở phân tích ngữ nghĩa các luật mờ có “tính diễn
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 19
dịch” học được từ dữ liệu, để từ đó tối ưu hóa tập luật và lựa
chọn bổ sung một số luật thu thập được từ các chuyên gia.
TÀI LIỆU THAM KHẢO
[1] Corinna Cortes and Vladimir Vapnik, Support-Vector Networks.
Machine Learning, 20, 273-297, 1995.
[2] David Martens, Johan Huysmans, Rudy Setiono, Jan Vanthienen,
Bart Baesens, Rule Extraction from Support Vector Machines - An
Overview of issues and application in credit scoring, Studies in
Computational Intelligence (SCI) 80, 33–63, 2008.
[3] Francis Eng Hock Tay and Li Yuan Cao, Improved financial time
series forecasting by combining Support Vector Machines with self-
organizing feature map, Intelligent Data Analysis 5, 339-354, IOS
press (2001).
[4] John Yen, Reza Langari, Fuzzy logic: Intelligence, Control, and
Information, Prentice hall, Uper dadle river, New Jersey, 1999.
[5] J.-H Chiang and P.-Y Hao, Support vector learning mechanism for
fuzzy rule-based modeling: a new approach, IEEE Trans. On Fuzzy
Systems, vol. 12, pp. 1-12, 2004.
[6] J.L. Castro, L.D. Flores-Hidalgo, C.J. Mantas and J.M. Puche,
Extraction of fuzzy rules from support vector machines, Elsevier.
Fuzzy Sets and Systems, 158, 2057 – 2077, 2007.
[7] L.J.Cao and Francis E.H.Tay, Support vector machine with adaptive
parameters in Financial time series forecasting, IEEE trans. on
neural network, vol. 14, no. 6 (2003).
[8] M.C. MacKey and L