Tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi quy với tham số ઽ

Tóm tắt - Mô hình mờ TSK và mô hình máy học véc-tơ hỗ trợ hồi quy có sự tương đương nhau trong một số điều kiện nhất định. Bằng cách thỏa mãn các điều kiện đề đồng nhất các hàm đầu ra của mô hình mờ TSK và máy học véc-tơ hỗ trợ hồi quy, chúng ta có thể xây dựng một thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ. Bài báo này không những đưa ra thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc tơ hỗ trợ mà còn đề xuất một giải pháp cho phép tối ưu hóa mô hình mờ nhận được thông qua việc điều chỉnh tham số ε. Việc điều chỉnh tham số ε sẽ cho phép trích xuất được mô hình vừa đảm bảo tính chính xác trong dự đoán, đồng thời có thể giảm độ phức tạp và tăng “tính diễn dịch” của mô hình. Hiệu quả của giải pháp đề xuất được đánh giá thông qua các kết quả thực nghiệm và có sự so sánh với kết quả của một số mô hình khác.

pdf5 trang | Chia sẻ: thanhle95 | Lượt xem: 302 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi quy với tham số ઽ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 15 TỐI ƯU HÓA MÔ HÌNH MỜ TSK TRÍCH XUẤT TỪ MÁY HỌC VÉC-TƠ HỖ TRỢ HỒI QUY VỚI THAM SỐ ઽ OPTIMAZING TSK FUZZY MODEL EXTRACTED FROM SUPPORT-VECTOR-MACHINES FOR REGRESSION WITH ઽ PARAMETER Nguyễn Đức Hiển1, Lê Mạnh Thạnh2 1Trường Đại học Khoa học, Đại học Huế; hiencit@gmail.com 2Đại học Huế; lmthanh@hueuni.edu.vn Tóm tắt - Mô hình mờ TSK và mô hình máy học véc-tơ hỗ trợ hồi quy có sự tương đương nhau trong một số điều kiện nhất định. Bằng cách thỏa mãn các điều kiện đề đồng nhất các hàm đầu ra của mô hình mờ TSK và máy học véc-tơ hỗ trợ hồi quy, chúng ta có thể xây dựng một thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ. Bài báo này không những đưa ra thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc tơ hỗ trợ mà còn đề xuất một giải pháp cho phép tối ưu hóa mô hình mờ nhận được thông qua việc điều chỉnh tham số ε. Việc điều chỉnh tham số ε sẽ cho phép trích xuất được mô hình vừa đảm bảo tính chính xác trong dự đoán, đồng thời có thể giảm độ phức tạp và tăng “tính diễn dịch” của mô hình. Hiệu quả của giải pháp đề xuất được đánh giá thông qua các kết quả thực nghiệm và có sự so sánh với kết quả của một số mô hình khác. Abstract - TSK fuzzy models and Support vector machines for regression are similar under a certain number of conditions. By uniformly satisfying these conditions between TSK fuzzy models and Support vector machines for regression, we can construct an algorithm to extract TSK fuzzy model from Support vector machines. This paper not only constructs an algorithm that facilitates the extraction of TSK fuzzy model from support vector machine, but also proposes a solution that allows optimization of extracted fuzzy model through the adjustment of εparameter. The adjustment of ε parameter allows the extraction of a fuzzy model that not only ensures accuracy in prediction but also reduces complexity and increases interpretability. The effectiveness of the proposed solution is evaluated through experimental results and a comparison of these results with those of some other models. Từ khóa - mô hình mờ; mô hình mờ TSK; luật mờ; máy học véc- tơ hỗ trợ; máy học véc-tơ hỗ trợ hồi quy. Key words - fuzzy model; TSKfuzzy model; fuzzy rules; support vector machine; support vector machine for regeression. 1. Đặt vấn đề Vấn đề trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ (Support vector machines -SVM) được nhóm tác giả J.-H Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [5]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [2], [6], [9], dự báo hồi quy [2], [9], [11]. Theo [6] và [9], sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học véc-tơ hỗ trợ và mô hình máy học véc-tơ hỗ trợ nguyên thủy chính là “tính diễn dịch”; tính chất này cho phép hệ thống suy luận mờ dễ hiểu hơn so với mô hình dự đoán dựa trên máy học véc-tơ hỗ trợ. Một đặc điểm cơ bản của máy học véc-tơ hỗ trợ là tính chính xác của mô hình thu được tỷ lệ thuận với số lượng Support-vector sinh ra [2], [6], [9]. Nói cách khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm “tính diễn dịch” của mô hình. Như vậy vấn đề đặt ra là làm thế nào có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời đảm bảo được đặc “tính diễn dịch”. Trong bài báo này, nhóm tác giả đề xuất giải pháp điều chỉnh giá trị tham số ε trong mô hình máy học SVM hồi quy (ε- Support Vector Regression) để sao cho có thể đảm bảo tính chính xác của mô hình dự báo, đồng thời tăng tính “diễn dịch” của mô hình mờ trích xuất được. Các phần tiếp theo của bài báo bao gồm: phần 2 trình bày sơ lược về mô hình mờ TSK. Trong phần 3, chúng tôi trình bày sơ lược về mô hình SVM hồi quy và đưa đến giải pháp trích xuất mô hình mờ TSK từ máy học SVM. Phần 4 trình bày những phân tích về giải pháp tối ưu hóa mô hình thông qua các tham số, và từ đó đề xuất thuật toán cho phép trích xuất mô hình mờ tối ưu từ máy học SVM. Phần 5 trình bày những kết quả thực nghiệm của mô hình đề xuất, trong đó có kết hợp so sánh với một số kết quả của các mô hình khác. Cuối cùng, trong phần 6 chúng tôi nêu lên một số kết luận và định hướng nghiên cứu tiếp theo. 2. Mô hình mờ TSK Mô hình mờ dạng TSK [4], [6], [11] còn được gọi là mô hình Takagi-Sugeno, được đề xuất bởi Takagi, Sugeno, và Kang nhằm phát triển cách tiếp cận mang tính hệ thống đối với quá trình sinh luật mờ từ tập dữ liệu vào-ra cho trước. Hệ thống mờ TSK bao gồm một tập các luật mờ “IF – THEN”, với phần kết luận của mỗi luật này là một hàm (không mờ) ánh xạ từ các tham số đầu vào tới tham số đầu ra của mô hình. Tham số của các hàm ánh xạ này có thể được đánh giá thông qua các giải thuật nhận dạng (identification algorithms) như phương pháp bình phương nhỏ nhất (least-squares methods) hay bộ lọc Kalman (Kalman filter) [4], [9]. Hệ luật mờ dạng Tagaki-Sugeno với hai phương pháp lập luận single-winner-rule và weighted-vote khá trực quan [4], không phải khử mờ kết quả lập luận, rất phù hợp trong việc xây dựng các mô hình ứng dụng của một số bài toán trong khai phá dữ liệu. Giả sử có một hệ thống mờ TSK với m luật mờ được biểu diễn như sau: R୨: IF xଵ is Aଵ୨ and xଶ is Aଶ୨ and and x୬ is A୬୨ THEN z ൌ g୨ሺxଵ, xଶ, , x୬ሻ , với j ൌ 1, 2, , m Trong đó ݔ௜ሺ݅ ൌ 1, 2, , ݊ሻ là các biến điều kiện; z là các biến quyết định của hệ thống mờ được xác định bởi hàm không mờ g୨ሺ. ሻ; A୧୨ là những giá trị ngữ nghĩa được xác định bởi hàm 16 Nguyễn Đức Hiển, Lê Mạnh Thạnh thành viên μ୅౟ౠሺx୧ሻ. Lưu ý, μ୅౟ౠሺx୧ሻ được định nghĩa như sau: μ୅ౠ ሺx୧ሻ ൌ ෑ μ୅౟ౠሺx୧ሻ ୬ ୧ୀଵ ሺ1ሻ Quá trình suy luận được thực hiện như sau: 1) Kích hoạt các giá trị thành viên. ෑ μ୅౟ౠሺx୧ሻ ୬ ୧ୀଵ ሺ2ሻ 2) Kết quả đầu ra của suy luận được tính như sau: fሺxሻ ൌ ∑ z୨ ൬∏ μ୅౟ౠሺx୧ሻ ୬୧ୀଵ ൰୫୨ୀଵ ∑ ∏ μ୅౟ౠሺx୧ሻ ୬୧ୀଵ୫୨ୀଵ ሺ3ሻ Trong đó, z୨là giá trị của hàm g୨ሺ. ሻ. 3. Trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ hồi quy Máy học véc-tơ hỗ trợ SVM được Vapnik giới thiệu năm 1995, đây là mô hình học dựa trên lý thuyết học thống kê (Statistical Learning Theory) [1] và là một kỹ thuật được đề nghị để giải quyết cho các bài toán phân lớp. Từ đó, nhiều nghiên cứu đã đề xuất sử dụng SVM giải quyết bài toán tối ưu hóa hồi quy [3], [6], [7]. Với vai trò giải quyết vấn đề tối ưu hóa hồi quy, lý thuyết cơ bản của SVM có thể được vắn tắt như sau [3], [7], [12]: Cho một tập dữ liệu huấn luyện ሼሺݔଵ, ݕଵሻ, , ሺݔ௟, ݕ௟ሻሽ ⊂ ࣲ ൈ Թ, trong đó ࣲ xác định miền dữ liệu đầu vào. Mục tiêu của ߝ-SVM hồi quy (ε-Support Vector Regression) là tìm một hàm siêu phẳng ݂ሺݔሻ sao cho độ sai lệch trên tất cả các y୧ của tập dữ liệu huấn luyện phải nhỏ hơn giá trị sai số ߝ. Trong trường hợp hồi phi tuyến, hàm quyết định ݂ሺݔሻ của ε-SVM hồi quy có dạng: ݂ሺݔሻ ൌ ݓ. ߔሺݔሻ ൅ ܾ ݒớ݅ ݓ ∈ ࣲ, ܾ ∈ Թ ሺ 4ሻ trong đó ߔሺݔሻ thể hiện không gian thuộc tính nhiều chiều được ánh xạ phi tuyến tính từ không gian đầu vào ݔ . Các hệ số ݓ và ܾ được ước lượng bởi bài toán tối ưu hóa ràng buộc: ݉݅݊௪,௕,క,క∗ 1 2 ‖ݓ‖ ଶ ൅ ܥ෍ሺߦ௜ ൅ ߦ௜∗ሻ ௟ ௜ୀଵ ሺ5ሻ với tập ràng buộc: ቐ ሺݓ. ߔሺݔ௜ሻ ൅ ܾሻ െ ݕ௜ ൑ ߝ ൅ ߦ௜, ݕ௜ െ ሺݓ. ߔሺݔ௜ሻ ൅ ܾሻ ൑ ߝ ൅ ߦ௜∗, ߦ௜, ߦ௜∗ ൒ 0, ݒà ݅ ൌ 1, 2, , ݈ trong đó C ൐ 0 là tham số chuẩn tắc, ε là sai số cho phép, và ξ୧,ξ௜∗ là những biến lỏng. Ý tưởng then chốt để giải quyết bài toán (5) là xây dựng hàm Lagrange từ hàm mục tiêu và các ràng buộc tương ứng, bằng cách đưa vào một tập kép các biến (nhân tử Lagrange). Hàm Lagrange được xây dựng như sau: L ≔ 12 ‖ݓ‖ ଶ ൅ ܥ෍ሺߦ௜ ൅ ߦ௜∗ሻ ௟ ௜ୀଵ െ෍ሺߟ௜. ߦ௜ ൅ ߟ௜∗. ߦ௜∗ሻ ௟ ௜ୀଵ ሺ6ሻ െ෍ α୧. ሺߝ ൅ ߦ௜ െ ݕ௜ ൅ ݓ. ߔሺݔሻ ൅ ܾሻ ௟ ௜ୀଵ െ෍ α୧∗. ሺߝ ൅ ߦ௜∗ ൅ ݕ௜ െ ݓ. ߔሺݔሻ െ ܾሻ ௟ ௜ୀଵ trong đó ߟ௜, ߟ௜∗, α୧, α୧∗ ൒ 0 là những nhân tử Lagrange. Các đạo hàm riêng của L đối với các biến ݓ, ܾ, ߦ௜, ߦ௜∗ thỏa mãn các điều kiện sau: ߲௕ܮ ൌ ෍ሺߙ௜∗ െ ߙ௜ሻ ௟ ௜ୀଵ ൌ 0 ሺ7ሻ ߲௪ܮ ൌ ݓ െ෍ሺߙ௜∗ െ ߙ௜ሻ. ݔ௜ ௟ ௜ୀଵ ൌ 0 ሺ8ሻ ߲క೔ܮ ൌ ܥ െ ߙ௜ െ ߟ௜ ൌ 0 ሺ9ሻ ߲క೔∗ܮ ൌ ܥ െ ߙ௜∗ െ ߟ௜∗ ൌ 0 ሺ10ሻ Thế (7), (8), (9), và (10) vào (6) sẽ đưa đến bài toán Quadratic Programming: ݉ܽݔఈ,ఈ∗ െ 1 2 ෍ ൫ߙ௜ െ ߙ௜ ∗ሻሺߙ௝ െ ߙ௝∗൯ ሺߔሺݔ௜ሻ். ߔ൫ݔ௝൯ሻ ௜,௝ୀଵ െ ε෍ሺα୧ ൅ α୧∗ሻ ୪ ୧ୀଵ െ ෍ y୧ሺα୧ ൅ α୧∗ሻ ୪ ୧ୀଵ ሺ11ሻ Với tập ràng buộc: ∑ ሺߙ௜ െ ߙ௜∗ሻ௟௜ୀଵ ൌ 0, và ܥ ൒ ߙ௜, ߙ௜∗ ൒ 0, ݅ ൌ 1, 2, , ݈ Công thức (8) có thể viết: ݓ ൌ ෍ሺߙ௜ െ ߙ௜∗ሻ. ݔ௜ ௟ ௜ୀଵ ሺ12ሻ Và như vậy hàm quyết định (4) được viết: ݂ሺݔሻ ൌ ෍ሺߙ௜ െ ߙ௜∗ሻ. ߔሺݔ௜ሻ். ߔሺݔሻ ௟ ௜ୀଵ ൅ ܾ ሺ13ሻ Gọi ܭሺݔ௜, ݔሻ ൌ ߔሺݔ௜ሻ். ߔሺݔሻ là hàm nhân của không gian đầu vào. Hàm quyết định (13) được viết: ݂ሺݔሻ ൌ ෍ሺߙ௜ െ ߙ௜∗ሻ. ܭሺݔ௜, ݔሻ ௟ ௜ୀଵ ൅ ܾ ሺ14ሻ Những điểm đầu vào ݔ௜với ሺα୧ െ α୧∗ሻ ് 0 được gọi là những véc-tơ hỗ trợ (SVs). Xét hàm đầu ra của mô hình mờ TSK (3) và hàm quyết định của mô hình máy học véc-tơ hồi quy (14). Để (3) và (14) đồng nhất với nhau, trước tiên chúng ta phải đồng nhất giữa hàm nhân trong (14) và hàm thành viên trong (3). Ở đây, để thỏa mãn điều kiện Mercer [10] hàm thành viên Gauss được chọn làm hàm nhân; đồng thời giá trị của b trong (14) phải bằng 0. Khi hàm Gauss được chọn làm hàm thành viên và hàm nhân, đồng thời số luật mờ bằng với số véc-tơ hỗ trợ thì (3) thành (15) và (14) thành (16): ݂ሺݔሻ ൌ ∑ ݖ௝݁ݔ݌ ቆെ ଵଶ ൬ ௫ೕି௫ ఙೕ ൰ ଶ ቇ௟௝ୀଵ ∑ ݁ݔ݌ ቆെ ଵଶ ൬ ௫ೕି௫ ఙೕ ൰ ଶ ቇ௟௝ୀଵ ሺ15ሻ ݂ሺݔሻ ൌ ෍ሺߙ௜ െ ߙ௜∗ሻ݁ݔ݌ ቆെ 1 2 ൬ ݔ௜ െ ݔ ߪ௜ ൰ ଶ ቇ ௟ ௜ୀଵ ሺ16ሻ Như cách biến đổi trong [5], hàm suy luận mờ (15) có thể viết như sau: ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 17 ݂ሺݔሻ ൌ ෍ ݖ௝݁ݔ݌ ൭െ 12 ቆ ݔ௝ െ ݔ ߪ௝ ቇ ଶ ൱ ௟ ௝ୀଵ ሺ17ሻ Và chúng ta chọn: ݖ௝ ൌ ሺߙ௜ െ ߙ௜∗ሻ ሺ18ሻ Như vậy, trên cơ sở thỏa mãn các điều kiện để đồng nhất hàm đầu ra của SVMs và hệ thống mờ TSK, chúng ta có thể trích xuất được mô hình mờ TSK từ máy học véc-tơ hỗ trợ theo kịch bản như sau: Bước 1: Huấn luyện SVMs với tập dữ liệu huấn luyện để trích xuất ra các véc-tơ hỗ trợ tương ứng với các giá trị ݔ௜ ൌ ݏݒ௜, phương sai ߪ௜, và ሺߙ௜ െ ߙ௜∗ሻ ൌ ܤ Bước 2: Thiết lập các ݏݒ௜ là trung tâm của các hàm thành viên Gauss, trích xuất ra các luật mờ TSK: ܫܨ ݔ௜ ݅ݏ ܩܽݑݏݏ݂݉ሺߪ௜, ݏݒ௜ሻ ܶܪܧܰ ݕ௜ ݅ݏ ܤ 4. Tối ưu hóa mô hình 4.1. Tối ưu hóa các tham số của hàm thành viên Các tham số của hàm thành viên có thể được tối ưu hóa dùng những thuật toán gradient descent hoặc thuật toán di truyền (GAs). Trong trường hợp này, để nhận được tập mờ tối ưu, giá trị các tham số của hàm thành viên Gaussμሺxሻ ൌ ݁ݔ݌ ቀെ ሺݔെܿሻ22ߪ2 ቁ được cập nhật theo các hàm thích nghi sau đây: ߪ௜ሺݐ ൅ 1ሻ ൌ ߪ௜ሺݐሻ ൅ ߜߝ௟,௜ ቈሺݔ െ ܿሻ ଶ ߪଷ ݁ݔ݌ ቆെ ሺݔ െ ܿሻଶ 2ߪଶ ቇ቉ ሺ19ሻ ܿ௜ሺݐ ൅ 1ሻ ൌ ܿ௜ሺݐሻ ൅ ߜߝ௟,௜ ቈെ ሺݔ െ ܿሻ ߪଶ ݁ݔ݌ ቆെ ሺݔ െ ܿሻଶ 2ߪଶ ቇ቉ ሺ20ሻ 4.2. Vai trò của tham số ࢿ Một trong những đặc điểm của mô hình mờ là “tính diễn dịch” (intepretability) [4]. Tuy nhiên, đối với mô hình máy học véc-tơ hỗ trợ, nếu điều chỉnh các tham số để tăng độ chính xác của mô hình, thì số lượng SVs cũng tăng lên, đồng nghĩa với số lượng luật mờ cũng tăng lên. Điều này làm cho tính phức tạp của hệ thống tăng lên và đặc biệt là “tính diễn dịch” của hệ thống mờ giảm đi. Hình 1. Mối quan hệ giữa số lượng SVs và tham số ߝ (giá trị của ߝ tương ứng theo thứ tự các hình vẽ là 0.5, 0.2, 0.1 và 0.01) Xét kết quả thực nghiệm mô hình máy học véc-tơ hồi quy trên hàm hồi quy phi tuyến ܵ݅݊ܿሺݔሻ (giới thiệu chi tiết ở mục 5.1). Theo kết quả ở Hình 1 chúng ta thấy: Khi giảm giá trị của tham số ߝ thì số lượng SVs cũng tăng lên, đồng thời độ chính xác của kết quả dự đoán cũng tăng lên (đường đậm nét là đường dự đoán hồi quy, đường đánh dấu + là đường biểu diễn giá trị dữ liệu đúng). Từ những phân tích trên, nhóm tác giả đề xuất thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ như thể hiện ở Hình 2. Trong thuật toán này, ngoài việc tối ưu hóa các tham số của hàm thành viên, chúng ta có thể điều chỉnh giá trị tham số ߝ để nhận được mô hình tối ưu. Hình 2. Sơ đồ khối thuật toán f-SVM 5. Kết quả thực nghiệm Để chứng tỏ hiệu quả của việc tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hồi quy dựa vào tham số ε, chúng tôi tiến hành thực nghiệm giải quyết bài toán thông dụng sau đây. 5.1. Hàm hồi quy phi tuyến tính Chúng tôi tiến hành thực nghiệm giải quyết bài toán hồi quy phi tuyến sau: ܵ݅݊ܿሺݔሻ ൌ ൝ ݏ݅݊ ሺݔሻ ݔ ݂݅ ݔ ് 0 1 ݂݅ ݔ ൌ 0 ሺ21ሻ Tập dữ liệu huấn luyện được xác định trong phạm vi từ െ3ߨđến ൅3ߨ. Trong quá trình xác định cấu trúc SVM, chúng tôi sử dụng tham số ε để điều chỉnh số lượng SVs. Chúng tôi cố định tham số ܥ ൌ 10. Khi giá trị ߝ ൌ 0.0, sẽ có 50 SVs nhận được từ mô hình, đồng nghĩa với việc chúng ta nhận được 50 luật mờ (chú ý rằng, trong trường hợp này tất cả các các mẫu dữ liệu huấn luyện được chọn làm SVs đầu ra). Hình 3a thể hiện phân bố của 50 hàm thành viên mờ tương ứng trong trường hợp này. (a) (b) Hình 3. Phân bố của 50 và 6 hàm thành viên mờ Begin Initialize parameters of SVMs Centers : ܿ௜ , ݅ ൌ 1. . ݉ Variances :ߪ௜ , ݅ ൌ 1. . ݉ extract fuzzy rules from SVM IF x is Gaussmf(ߪ௜, ݏݒ௜ ) THEN y is B Optimization End Optimization parameters: σ୧, c୧, ε Input: Training data set Output: TSK fuzzy model 18 Nguyễn Đức Hiển, Lê Mạnh Thạnh Sau đó chúng tôi tăng giá trị tham số ߝ lên. Khi ߝ ൌ 0.1, thì có 6 SVs nhận được tương ứng các giá trị của ݔ là -2.48, -1.48, -0.02, 0.02, 1.32, và 2.48; tương ứng với các giá trị của ሺߙ௜ െ ߙ௜∗ሻ là 0.33, -0.36, 1.32, 1.32, -0.36, và 0.33. 6 luật mờ trích xuất được thể hiện ở Bảng 1. Hình 3b thể hiện phân bố của 6 hàm thành viên mờ tương ứng. Như vậy chúng ta có thể điều chỉnh giá trị tham số ε, tức điều chỉnh số lượng SVs để tối ưu hóa vị trí của SVs, đồng nghĩa với việc tối ưu hóa phân bố và số lượng luật mờ. Bảng 1. Tập 6 luật trích xuất được Luật Chi tiết R1 IF x is Gaussmf(0.66,-2.48) THEN y is 0.33 R2 IF x is Gaussmf(0.71,-1.32) THEN y is -0.36 R3 IF x is Gaussmf(0.78,-0.02) THEN y is 1.32 R4 IF x is Gaussmf(0.78,0.02) THEN y is 1.32 R5 IF x is Gaussmf(0.71,1.32) THEN y is -0.36 R6 IF x is Gaussmf(0.66,2.48) THEN y is 0.33 5.2. Chuỗi thời gian hỗn loạn Mackey-Glass Với thực nghiệm này chúng tôi muốn chứng tỏ rằng, mô hình mờ TSK trích xuất từ máy học véc-tơ hồi quy được tối ưu hóa dựa vào tham số ε, thật sự mang lại hiệu quả. Dữ liệu được lựa chọn để thử nghiệm là dữ liệu chuỗi thời gian Mackey-Glass (Mackey-Glass time series). Dữ liệu chuỗi thời gian Mackey-Glass được sinh theo công thức sau [8]: ݔሶ ൌ ܽݔሺݐ െ ߬ሻ1 ൅ ݔ௕ሺݐ െ ߬ሻ െ ܿݔሺݐሻ ሺ21ሻ Trong đó ta chọn ߬ ൌ 30, ܽ ൌ 0.2, ܾ ൌ 10, và ܿ ൌ 0.1. Thuộc tính đầu vào được lựa chọn là các giá trị ݔሺݐ െ 1ሻ, ݔሺݐ െ 2ሻ; thuộc tính đầu ra cần dự đoán là giá trị ݔሺݐሻ. Với 1000 mẫu dữ liệu sinh ra từ hàm (21), 800 mẫu dữ liệu được sử dụng để huấn luyện cho máy học véc-tơ hỗ trợ và sinh ra các luật mờ, 200 mẫu dữ liệu còn lại được sử dụng để thử nghiệm suy luận dựa trên tập luật mờ trích xuất được. Tương tự với ví dụ trước, trong thực nghiệm này chúng tôi cũng cố định tham số C và thiết lập giá trị cho tham số ߝ ൌ 0.0 thì kết quả có 200 luật mờ nhận được. Hình 4a thể hiện phân bố của các hàm thành viên mờ tương ứng với biến ݔሺݐ െ 2ሻ. (a) (b) Hình 4. Phân bố 200 và 3 hàm thành viên mờ Khi điều chỉnh tăng giá tri tham số ߝ ൌ 0.1, thì chúng ta thu được một hệ thống mờ gồm có 9 luật như thể hiện ở Bảng 2. Hình 4b thể hiện phân bố của các hàm thành viên mờ tương ứng với biến ݔሺݐ െ 2ሻ. Kết quả dự đoán của mô hình trích xuất đươc trên 200 mẫu dữ liệu thử nghiệm được thể hiện ở Bảng 3. Bên cạnh việc thực nghiệm dự đoán với mô hình mờ trích xuất được, chúng tôi cũng thử nghiệm dự đoán trên cùng bộ dữ liệu đó với các mô hình được đề xuất bởi các tác giả khác, bao gồm mô hình ANFIS, và SVM. Bảng 2. Ví dụ 3 luật trong hệ thống mờ trích xuất được Luật Chi tiết R1 IF x(t-2) is Gaussmf(0.56,0.48) and x(t-1) is Gaussmf (0.52, 0.51) THEN x(t) is 1.12 R2 IF x (t-2) is Gaussmf(0.65,1.07) and x(t-1) is Gaussmf (0.66, 1.09) THEN x(t) is 0.94 R3 IF x (t-2) is Gaussmf(0.53,1.37) and x(t-1) is Gaussmf(0.53, 1.39) THEN x(t) is 0.98 Bảng 3. Kết quả dự đoán trên 200 mẫu dữ liệu test Số luật mờ Mô hình áp dụng ANFIS SVM Mô hình f-SVM 170 <10 -10 0.0540 <10-10 36 0.0034 0.0509 0.0086 25 0.0041 0.0635 0.0092 16 0.0050 0.0748 0.0095 9 0.0074 0.1466 0.0098 4 0.0087 0.1955 0.0102 Hiệu quả của các mô hình được so sánh và đánh giá dựa trên thông số RMSE (Root Mean Squared Error), thông số này đo lường độ lệch giữa giá trị x(t) thực tế và giá trị dự đoán được. So sánh các giá trị của RMSE trong Bảng 3, ta có thể nhận thấy rằng mô hình ứng dụng thuật toán f-SVM đề xuất cho kết quả dự đoán tương đương với mô hình ANFIS và tốt hơn so với mô hình SVM. Ngoài ra ta cũng có thể thấy rằng, khi điều chỉnh tăng giá trị của tham số ε để số luật mờ giảm xuống thì thì hiệu quả dự đoán sẽ bị suy giảm. 6. Kết luận Trong nghiên cứu này chúng tôi đề xuất thuật toán f- SVM không những cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ hồi quy, mà còn cho phép điều chỉnh giá trị tham số ߝ để tối ưu hóa mô hình trích xuất được. Với việc điều chỉnh giá trị tham số ߝ, chúng ta có thể nhận đươc mô hình vừa đảm bảo tính chính xác khi dự đoán, vừa đảm bảo giảm số luật mờ trong mô hình. Chính việc giảm số luật mờ trong mô hình sẽ làm gia tăng “tính diễn dịch” của mô hình. Kết quả thực nghiệm trên các dữ liệu thử nghiệm cho thấy giải pháp đề xuất thật sự mang lại hiệu quả dự đoán tốt trong sự so sánh với các mô hình như ANFIS, SVM nguyên thủy; thể hiện qua các giá trị của thông số NMSE. Mặt khác, với tập luật có “tính diễn dịch” trích xuất được, một trong những hiệu quả mang lại là chuyên gia con người có thể hiểu và phân tích được tập luật này một cách dễ dàng, từ đó có thể đánh giá tập tập luật mờ và qua đó có giải pháp để tối ưu hóa tập luật. Trong định hướng nghiên cứu tiếp theo, chúng tôi sẽ ứng dụng thuật toán trích xuất luật mờ f-SVM để xây dựng các mô hình mờ tích hợp giải quyết một số bài toán dự báo trong thực tế. Các mô hình mờ tích hợp này có thể được xây dựng dựa trên cơ sở phân tích ngữ nghĩa các luật mờ có “tính diễn ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 19 dịch” học được từ dữ liệu, để từ đó tối ưu hóa tập luật và lựa chọn bổ sung một số luật thu thập được từ các chuyên gia. TÀI LIỆU THAM KHẢO [1] Corinna Cortes and Vladimir Vapnik, Support-Vector Networks. Machine Learning, 20, 273-297, 1995. [2] David Martens, Johan Huysmans, Rudy Setiono, Jan Vanthienen, Bart Baesens, Rule Extraction from Support Vector Machines - An Overview of issues and application in credit scoring, Studies in Computational Intelligence (SCI) 80, 33–63, 2008. [3] Francis Eng Hock Tay and Li Yuan Cao, Improved financial time series forecasting by combining Support Vector Machines with self- organizing feature map, Intelligent Data Analysis 5, 339-354, IOS press (2001). [4] John Yen, Reza Langari, Fuzzy logic: Intelligence, Control, and Information, Prentice hall, Uper dadle river, New Jersey, 1999. [5] J.-H Chiang and P.-Y Hao, Support vector learning mechanism for fuzzy rule-based modeling: a new approach, IEEE Trans. On Fuzzy Systems, vol. 12, pp. 1-12, 2004. [6] J.L. Castro, L.D. Flores-Hidalgo, C.J. Mantas and J.M. Puche, Extraction of fuzzy rules from support vector machines, Elsevier. Fuzzy Sets and Systems, 158, 2057 – 2077, 2007. [7] L.J.Cao and Francis E.H.Tay, Support vector machine with adaptive parameters in Financial time series forecasting, IEEE trans. on neural network, vol. 14, no. 6 (2003). [8] M.C. MacKey and L