Một giải pháp cài đặt đơn giản cho thuật toán điều khiển tối ưu thích nghi

Tóm tắt: Bài báo giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện trong thuật toán. Giải pháp của bài báo được triển khai cho cả học thích nghi trực tuyến và học thích nghi ngoại tuyến. Các kết quả mô phỏng sau đó đã xác nhận tính áp dụng được của giải pháp này.

11 trang | Chia sẻ: thanhle95 | Lượt xem: 653 | Lượt tải: 0Free

Bạn đang xem nội dung tài liệu Một giải pháp cài đặt đơn giản cho thuật toán điều khiển tối ưu thích nghi, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 19 MỘT GIẢI PHÁP CÀI ĐẶT ĐƠN GIẢN CHO THUẬT TOÁN ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI Nguyễn Doãn Phước*, Trịnh Hoàng Minh, Nguyễn Hoài Nam Tóm tắt: Bài báo giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện trong thuật toán. Giải pháp của bài báo được triển khai cho cả học thích nghi trực tuyến và học thích nghi ngoại tuyến. Các kết quả mô phỏng sau đó đã xác nhận tính áp dụng được của giải pháp này. Từ khóa: Điều khiển thông minh; Điều khiển học tăng cường; Phương pháp biến phân; Quy hoạch động. 1. ĐẶT VẤN ĐỀ Trong những năm gần đây, khái niệm “Điều khiển thông minh” được nói đến rất nhiều và gần như trở thành một xu thế, thành “mốt” của thời đại 4.0. Dưới tên gọi điều khiển thông minh là một nhóm các phương pháp, như điều khiển mờ, điều khiển bằng mạng neural, điều khiển học lặp, điều khiển học tăng cường [1],... Điểm chung của các phương pháp điều khiển thông minh này là ở đó, các thông tin động học cần thiết cho việc phân tích và thiết kế bộ điều khiển, sẽ không cần phải lấy từ mô hình toán của đối tượng, thay vào đó là từ các dữ liệu quá khứ đo được của hệ thống. Chẳng hạn như ở bài toán thiết kế bộ điều khiển tối ưu phản hồi trạng thái cho hệ tuyến tính, mô tả bởi mô hình gồm hai ma trận ( , )A B : x Ax Bu  (1) bị ràng buộc bởi hàm mục tiêu dạng toàn phương:   0 min T T J x Qx u Ru dt     (2) có TQ Q bán xác định dương, TR R xác định dương, còn gọi là bộ điều khiển LQR, thì việc thiết kế bộ điều khiển này sẽ không còn cần sử dụng đến cả hai ma trận ( , )A B của mô hình (1), thay vào đó là từ các dữ liệu vào u và trạng thái x đo được của hệ. Phương pháp thiết kế “thông minh” đó có tên gọi là “xấp xỉ tối ưu” hay “tối ưu thích nghi” [2, 3]. “Tối ưu thích nghi” là công cụ chính của điều khiển học tăng cường. Vai trò “là công cụ chính” của tối ưu thích nghi còn lấn át các công cụ khác trong điều khiển tăng cường đến mức mà nhiều tài liệu đã gọi luôn nó là điều khiển học tăng cường, ví dụ như [3, 4]. Do việc có được tính chất động học của hệ thống từ dữ liệu đo được trong quá khứ, thay vì từ mô hình toán, nên phương pháp tối ưu thích nghi có hình thái giống như một thuật toán “học để điều khiển”. Vì vậy, nhiều tài liệu đã gọi nó là thuật toán học tối ưu thích nghi, hay quy hoạch động thích nghi [5-7]. Có khá nhiều dạng cài đặt khác nhau cho thuật toán học tối ưu thích nghi. Theo chúng tôi, nếu phân chia theo cách rời rạc hóa để thực thi trên thiết bị điều khiển số thì sẽ có ba dạng cơ bản gồm (i) rời rạc hóa ngay từ bài toán tối ưu ban đầu với tập các biến trạng thái được giả thiết là hữu hạn [5-7], (ii) rời rạc hóa bài toán tối ưu với tập trạng thái là vô hạn, đếm được [2, 5, 6] và (iii) rời rạc hóa kết quả liên tục cuối cùng thu được [2-6]. Tất nhiên, việc rời rạc hóa kết quả liên tục thu được cuối cùng của bài toán tối ưu sẽ sát với đối tượng hơn, nên chứa đựng sai lệch trong nó là ít nhất. Tuy nhiên, số các bước thực hiện lại nhiều và phức tạp hơn, kéo theo là nguy cơ tích lũy sai số trong tính toán cũng cao hơn. Kỹ thuật Điều khiển – Tự động hóa N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 20 Ở bài báo này, chúng tôi tập trung giới thiệu một giải pháp cài đặt thuật toán học tối ưu thích nghi đơn giản cho bài toán LQ (1)-(2), trên cơ sở rời rạc hóa kết quả liên tục cuối cùng thu được của bài toán tối ưu đó, với một “mẹo” nhỏ là xác định giá trị tích phân trong một khoảng thời gian vô cùng bé thông qua xấp xỉ (loại một và loại hai) của nó, tức là xấp xỉ tích phân bằng tích của giá trị trung bình hàm dưới dấu tích phân tại thời điểm đầu, cuối và khoảng thời gian lấy tích phân. Nó sẽ được gọi trong bài báo là “thuật toán cải biên”. Nhân đây, cũng cần có vài lời bàn thêm về tên gọi “quy hoạch động thích nghi” hay “học tối ưu thích nghi”. Trong hầu hết các tài liệu tham khảo [2-7], người ta đều gọi chung “học tối ưu thích nghi” là “quy hoạch động thích nghi”, ngay cả cho trường hợp bài toán điều khiển tối ưu LQ (1)-(2) hệ tuyến tính. Điều này là không đúng, vì như phần nền tảng cơ sở trình bày sau đây trong mục 2 cho thấy, lời giải của bài toán LQ (1)-(2) hoàn toàn không sử dụng đến nguyên lý tối ưu của Bellman, tác giả của quy hoạch động, rằng “đoạn cuối của quỹ đạo tối ưu cũng tối ưu”. Nó sử dụng công cụ chính là phương pháp biến phân (variation) trong cơ học cổ điển. Theo dòng lịch sử thì khi áp dụng phương pháp biến phân cho hệ rời rạc, người ta đã phát hiện ra rằng, để có được dãy giá trị tín hiệu điều khiển tối ưu, cần phải xác định ngược biến đồng trạng thái từ điểm cuối đến điểm đầu [8]. Theo chúng tôi, có lẽ đây là phát hiện mấu chốt gợi ý cho Bellman đến được nguyên lý tối ưu của mình và từ đó xây dựng được thành công phương pháp quy hoạch động cũng như mở rộng nó cho bài toán tối ưu hệ liên tục phi tuyến thông qua phương trình Hamilton-Jacobi- Bellman (HJB). Vì vậy, để tôn trọng dòng lịch sử này, nhất là tôn trọng đóng góp của phương pháp biến phân trong cơ học cổ điển, thì riêng đối với bài toán tối ưu LQ (1)-(2), ta hãy gọi nó bằng tên “tối ưu thích nghi”, thay vì “quy hoạch động thích nghi”. 2. NỘI DUNG CHÍNH 2.1. Lời giải từ phương pháp biến phân Xét lại bài toán tối ưu LQ (1)-(2). Từ lý thuyết biến phân đã biết của cơ học cổ điển thì nghiệm của bài toán đó sẽ là [8]: u K x  với 1 TK R B L (3) trong đó, L là nghiệm xác định dương của phương trình đại số Riccati: 1 T TLBR B L LA A L Q    . (4) Để tìm nghiệm K của bài toán tối ưu LQ (1)-(2) theo hai công thức (3) và (4), người ta thường dựa vào thuật toán lặp của Newton-Kleinman, có bản chất là chuyển (3) và phương trình Riccati (4) thành phương trình Lyapunov:     1 1 . T T T T T T T T T A BK L L A BK A L LA LBK K B L A L LA LBR B L K RR B L Q K RK                 (5) Phương trình Lyapunov trên luôn có nghiệm L xác định dương với mọi ma trận xác định dương TQ K RK nếu A BK là Hurwitz (xem chứng minh trong [8]). Thuật toán lặp Newton-Kleinman có nhiệm vụ là ở bước lặp thứ k , khi đã có kK ta cần phải xác định kL và 1kK  cho vòng lặp tiếp theo, được suy ra từ (5) như sau:     T k k k k kA BK L L A BK E     , trong đó, T k k kE Q K RK  (6) và 11 T k kK R B L    . (7) Cứ như vậy, lần lượt với 0,1, k  cho tới khi có được một trong hai điều sau: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 21 1 1k kL L   hoặc 1 2k kK K    vì luôn có lim k k L L   và lim k k K K   , (8) trong đó, 1 2,  là hai hằng số dương đủ nhỏ cho trước. Algorithm 1: Thuật toán Newton-Kleinman 1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k  và chọn 1 2,  . 2 while điều kiện (8) chưa thỏa mãn do 3 Tính kA BK và kE từ kK . Tính kL theo (6). 4 Tính 1kK  từ kL theo (7). 5 Gán 1k k  . 6 end while 7 Đáp số 1kK K  và kL L . 2.2. Cải biên thuật toán on-policy-learning Thuật toán trên (Algorithm 1) chưa mang tính “thích nghi” vì nó còn cần đến hai ma trận A, B, tức là còn cần đến mô hình toán (1) của đối tượng điều khiển. Để loại bỏ ,A B ra khỏi thuật toán, các tài liệu [2- 4] đã giới thiệu xu hướng sử dụng các kết quả đo được online từ hệ như mô tả ở hình 1 dưới đây, để thay cho A, B. Nếu ký hiệu thời điểm đầu vòng lặp k trong thuật toán Newton-Kleinman ở trên là kt và thời điểm cuối vòng lặp đó là 1kt  thì vai trò của hai ma trận ,A B trong vòng lặp đó sẽ được thay thế bới kl các dữ liệu trạng thái đo được online trong vòng lặp đó, ký hiệu lần lượt là: , 0 1 2( ), 0 , 0,1, ,kk i k i l kx x t i l             và 1kk l kt t   , (9) khi hệ được kích thích bới đầu vào là tín hiệu thử “tăng cường”: ( ) ( )kku t K x e t   với 1k kt t t   . (10) Hình 1. Tác động thử được “tăng cường” để xác định 1 , k k L K  trong một vòng lặp. Trong công thức (10) thì kK là kết quả của vòng lặp trước (vòng lặp thứ 1k  ) và ( )ke t là tín hiệu bổ sung để với nó có thể thu được đầy đủ thông tin động học của hệ trong vòng lặp. Nó được gọi là “nhiễu nhân tạo”. Cũng theo các tài liệu [2- 4] này thì nhiễu nhân tạo ( )ke t cần được chọn có biên độ nhỏ, nhằm không làm sai lệch nhiều giữa u cho trong công thức (10), với tín hiệu điều khiển tối ưu kK x có từ vòng lặp trước. Ngoài ra, để các giá trị trạng thái ,k ix đo được theo (9) chứa đựng được nhiều nhất có thể đặc tính động học của hệ, nó cần phải biến đổi nhanh. Tuy nhiên, cụ thể phải chọn ( )ke t như thế nào là tốt nhất thì hiện trong [2-4] vẫn chưa có câu trả lời đầy đủ. Việc thay thế vai trò của hai ma trận ,A B bới ,k ix được thực hiện nhờ các quan hệ (10), (6) và (7) như sau: 1kt  kt 1 kk k lt t    1 , k k K L  ,1kx ,2kx 1 , k k K L  2kt  t Các phép đo dữ liệu và tính toán trong một vòng lặp Kỹ thuật Điều khiển – Tự động hóa N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 22           1 1 2 2 2 . T TT T T k k k k k TT T T kk k k k k T T T TT k kk k k k d d x d x x L x L x x L Ax Bu L x x L Ax Bu dt dt dt x A BK L L A BK x e B L x E x e RR B L x E x e RK x                                Suy ra, sau khi tích phân hai vế trong khoảng thời gian từ k it  đến 1k it   sẽ được:       1 1 1 12 k i k i k i k i k i k i t t t T T T kk k k t t t x L x x E x dt e RK x dt                     (11) Rõ ràng trong (11) bây giờ không còn chứa , .A B Công thức này sẽ được sử dụng để tính “thích nghi” đồng thời 1kK  và kL từ T k k kE Q K RK  ở vòng lặp .k Để làm được điều này, các tác giả của [2-4] đã tách riêng nghiệm 1,k kK L cần tìm ra khỏi các thành phần còn lại trong (11) nhờ toán tử vector hóa ma trận và tích Kronecker như sau (xem thêm về các phép tính này trong [8]):       , , , , , ,vec vecT T T Tk j k j k j k j k j k jk k kx L x x L x x x L          1 1 1 1 1 ( 1) vec vec( ) k i k i k k i k i k t t t i T T T T k k kk k k t t t i e RK x dt e RK x dt x e R dt K                                vì , , T k i k ikx L x và 1 T k ke RK x đều là vô hướng. Khi đó, (11) viết lại được thành:     1 1 1 1vec( ) 2 vec( ) k i k i k i k i k i k i t t t T T T T T kk k k t t t x x L x e R dt K x E x dt                         hay     1 1 1 1 vec( ) , 2 vec( ) k i k i k i k i k i k i t t t T T T T Tk k k t kt t L x x x e R dt x E x dt K                                . (12) Viết lại (12) chung cho tất cả các chỉ số 0,1, , 1ki l   ta sẽ có đẳng thức đã được giới thiệu ở tài liệu [3] như sau: 1 vec( ) vec( ) k kk k L K          (13) trong đó:       1 2 1 1 ,1 ,1 ,0 ,0 ,2 ,2 ,1 ,1 , , , 1 , 1 , 2 , 2 , 2 k k k k k lk k k k k k lk t T T T T T T k k k k k t t T T T T T T k k k k k tk t T T T T T T k l k l k l k l k t x x x x x e R dt x x x x x e R dt x x x x x e R dt                                                        Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 23 và 1 1 2 2 1 1 1 1 vec( ) k k k k k k k k k l k lk k k l k lk k t t T T T k t t t t T T T k t tk k t t T T T k t t x E xdt x x dt x E xdt x x dt E x E xdt x x dt                                                                                       . Nhìn vào hai công thức tính , kk  ở trên sẽ thấy ngay được là để cài đặt thuật toán, với x lấy từ đối tượng, ta cần tạo ra các biến vi phân sau (bằng khâu tích phân):  1 T Tk d z x e R dt   và 2 T Td z x x dt   có các đầu vào là ( ), ( )kx t e t (14) như mô tả ở hình 2. Hình 2. Cài đặt các biến vi phân (14). Có thể thấy, việc tạo thêm ra các biến vi phân (14) đã làm tăng đáng kể bậc mô hình phải cài đặt. Để tránh được điều này, ta sẽ “cải biên” nó bằng những “động tác” nhỏ sau:  Thay kl cho từng vòng lặp k bằng một hằng số l đủ lớn, chung cho tất cả các vòng lặp. Đồng thời, thay i bởi i với một hằng số dương  đủ nhỏ chọn trước.  Khi  đủ nhỏ thì có thể thay các công thức tích phân để tính , kk  bằng giá trị xấp xỉ loại một của nó. Khi đó sẽ được:       ,1 ,1 ,0 ,0 ,0 ,0 ,2 ,2 ,1 ,1 ,1 ,1 , , , 1 , 1 , 1 , 1 , 2 ( ) , 2 ( ) , 2 ( ) T T T T T T k k k k k k T T T T T T k k k k k k k T T T T T T k l k l k l k l k l k l x x x x x e R x x x x x e R x x x x x e R                                    (15) trong đó, , ( ), 0,1, ,k i ke e t i i l   và ,0 ,0 ,1 ,1 , 1 , 1 vec( ) T T k k T T k k k k T T k l k l x x x x E x x                    . (16) u x e 1z ke ke Đối tượng điều khiển Xác định biến vi phân thứ hai Xác định biến vi phân thứ nhất Bộ điều khiển tối ưu thích nghi Kỹ thuật Điều khiển – Tự động hóa N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 24 Từ đây, ta đi đến thuật toán học thích nghi trực tuyến dạng cải biên như sau: Algorithm 2: Thuật toán học thích nghi trực tuyến “dạng cải biên” 1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k  và chọn 1 2, ,   đủ nhỏ, l đủ lớn. Gán 0kt  . 2 while điều kiện (8) chưa thỏa mãn do 3 Chọn tín hiệu nhiễu nhân tạo ( ), k k ke t t t t l   . 4 Tính kE từ kK theo (6). Kích thích hệ bởi u cho ở (10). 5 Đo , ( ), 0,1, ,k i kx x t i i l   và xây dựng ,k k theo (15), (16). 6 Tính 1,k kL K  từ (13). Gán 1k k  và k kt t l  . 7 end while 8 Đáp số 1kK K  và kL L . Về thuật toán trên ta có vài điều bàn thêm dưới đây:  Thời gian thực hiện một vòng lặp luôn đều nhau và đúng bằng l .  Để phương trình (13) có nghiệm 1kK  và kL thì k phải có đủ hạng. Cụ thể là, nếu đối tượng điều khiển (1) có bậc n và m đầu vào thì hệ phương trình (13) sẽ có tổng cộng ( 1) 2nm n n  biến cần tìm, gồm nm phần tử của ma trận 1kK  và ( 1) 2n n  phần tử của ma trận đối xứng kL . Vậy ma trận k phải có hạng bằng ( 1) 2nm n n  và ta cũng phải chọn l đủ lớn để có được điều này.  Nhìn một cách tổng thể thì tính thích nghi của thuật toán chưa được thể hiện đầy đủ vì bước khởi tạo vẫn cần đến ,A B của hệ cho việc chọn 0K . Nếu như có thêm giả thiết là hệ ban đầu đã ổn định thì với việc chọn 0K  0 , tất cả các phép tính của thuật toán lúc này sẽ hoàn toàn không cần đến ,A B nữa. Lúc đó, tính thích nghi của thuật toán mới thực sự trở nên đầy đủ. 2.3. Cải biên thuật toán off-policy-learning Thuật toán thích nghi ngoại tuyến cho bài toán LQ (1)-(2) đã được các tác giả của [2-4] xây dựng dựa vào thuật toán trực tuyến gốc ban đầu với một thay đổi cơ bản là những giá trị trạng thái (9) lấy từ hệ thống sẽ chỉ cần đo một lần duy nhất, sau đó, chúng được sử dụng chung cho tất cả các vòng lặp k . Như vậy, ta cũng sẽ không cần ký hiệu chúng giống như đã làm ở (9) vì các dữ liệu này không còn phụ thuộc theo k . Hơn nữa, do được sử dụng chung cho các vòng lặp nên ở tất cả các vòng lặp cũng đều phải có chung i i  với một hằng số  đủ nhỏ được chọn trước, đồng thời cũng phải có , kl l k  . Bởi vậy, thay vì ký hiệu như ở (9), ta sẽ ký hiệu lại tập dữ liệu trạng thái đo được đó là: ( ), 0,1, ,ix x i i l   . (17) Tương ứng, nhiễu nhân tạo, tác nhân để thu thập thông tin, cũng sẽ không còn phụ thuộc k . Do đó, ta sẽ ký hiệu lại nó một cách đơn giản là ( )e t và nó cũng sẽ chỉ được sử dụng một lần duy nhất để thu thập tập dữ liệu trạng thái (17). Với sự thay đổi trên, và cũng từ kết quả đã có của phương pháp biến phân, rằng dọc theo quỹ đạo tối ưu của bài toán LQ (1)-(2) luôn có cho mọi vòng lặp k :  min k T T T k u t x L x x Qx u Ru dt    hay   T T T k d x L x x Qx u Ru dt    , (18) Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 25 thì qua một thay đổi nhỏ trong (18) là ở đó thay hai thành phần u bởi: ( ) ( )ku t K x e t   và 1( ) ku t K x  , sẽ được:         1 1 TT T k k k TT k k d x L x x Qx K x e R K x dt x Qx K x e RK x             . Từ đây, tương tự như đã làm ở thuật toán học trực tuyến, ta cũng đi đến được kết quả đã có trong các tài liệu [[3], [4]], là:     ( 1) ( 1) 1 ( 1) vec( ) , ( ) vec( ) t i t i T T T kT k t i kt i t i T t i L x x x K x e R dt K x Qxdt                                 hay 1 vec( ) vec( ) k k k L v K         (19) trong đó:     1 1 0 0 1 1 ( 1) , ( ) , ( ) t T T T T T T k t k t l T T T T T T l l l l k t l x x x x x K x e R dt x x x x x K x e R dt                                      (20) và ( 1) t T t t l T t l x Qxdt v x Qxdt                            (21) Vậy khi sử dụng lại các “mẹo” cải biên đã được áp dụng ở thuật toán trực tuyến trước đây, nhằm đơn giản hóa việc cài đặt bằng việc giảm bớt các biến vi phân:  1 ( )T Tk d z x K x e R dt    và 2 Tdz x Qx dt  (22) trong (20) và (21) ta cũng đến được các công thức xấp xỉ loại 2 của k , v như sau: 1 1 0 0 1 2 1 1 1 , ( ) 2 , ( ) 2 T T T T k T T T T l l l l l l x x x x x x x x                               với  ( )T Ti i iki x K x e R    (23) Kỹ thuật Điều khiển – Tự động hóa N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 26 và 1 0 1 2 l l v                  với T i ii x Qx  . (24) Suy ra, thuật toán học thích nghi ngoại tuyến dạng cải biên gồm các bước như sau: Algorithm 3: Thuật toán học thích nghi ngoại tuyến “dạng cải biên” 1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k  và chọn 1 2, ,   đủ nhỏ, l đủ lớn. Chọn tín hiệu nhiễu nhân tạo ( )e t rồi đưa tín hiệu thử 0u K x e   vào đối tượng. Thu thập tập gồm l các giá trị trạng thái ( ), 0,1, ,ix x i i l   từ hệ thống và tính  theo (24). 2 while điều kiện (8) chưa thỏa mãn do 3 Tính k theo (23) và xác định nghiệm 1,k kL K  của (19). 4 Gán 1k k  . 5 end while 6 Đáp số 1kK K  và kL L . Lưu ý là vector v không phụ thuộc k nên ta đã chuyển nó vào bước khởi tạo. 3. KIỂM CHỨNG NHỜ MÔ PHỎNG Để kiểm chứng tính khả thi của thuật toán “cải biên”, sau đây, ta sẽ áp dụng chúng cho bài toán LQ (1)-(2) với các tham số: 1 2 0 3 1 0 0 , , , 1 0 0 0 16 x x A B Q x                           và 1R  . Bài toán LQ này có nghiệm chính xác, thu được thông qua giải trực tiếp phương trình đại số Riccati (4) và sau đó thay vào bộ điều khiển (3), là: 4 8 8 20 L        và  4 , 8K  . Trước tiên, ta sử dụng thuật toán học thích nghi trực tuyến gốc ban đầu để xác định nghiệm ,L K trên. Với các tham số khởi tạo: 4 01 2 0 00.1 , 10, 5.10 , ( 5 , 8) , 0, (1.5 , 3.5) Ts l x t K          