Tóm tắt: Bài báo giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều
khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số
biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện
trong thuật toán. Giải pháp của bài báo được triển khai cho cả học thích nghi trực
tuyến và học thích nghi ngoại tuyến. Các kết quả mô phỏng sau đó đã xác nhận tính
áp dụng được của giải pháp này.
11 trang |
Chia sẻ: thanhle95 | Lượt xem: 319 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Một giải pháp cài đặt đơn giản cho thuật toán điều khiển tối ưu thích nghi, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 19
MỘT GIẢI PHÁP CÀI ĐẶT ĐƠN GIẢN CHO THUẬT TOÁN
ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI
Nguyễn Doãn Phước*, Trịnh Hoàng Minh, Nguyễn Hoài Nam
Tóm tắt: Bài báo giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều
khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số
biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện
trong thuật toán. Giải pháp của bài báo được triển khai cho cả học thích nghi trực
tuyến và học thích nghi ngoại tuyến. Các kết quả mô phỏng sau đó đã xác nhận tính
áp dụng được của giải pháp này.
Từ khóa: Điều khiển thông minh; Điều khiển học tăng cường; Phương pháp biến phân; Quy hoạch động.
1. ĐẶT VẤN ĐỀ
Trong những năm gần đây, khái niệm “Điều khiển thông minh” được nói đến rất nhiều
và gần như trở thành một xu thế, thành “mốt” của thời đại 4.0. Dưới tên gọi điều khiển
thông minh là một nhóm các phương pháp, như điều khiển mờ, điều khiển bằng mạng
neural, điều khiển học lặp, điều khiển học tăng cường [1],... Điểm chung của các phương
pháp điều khiển thông minh này là ở đó, các thông tin động học cần thiết cho việc phân
tích và thiết kế bộ điều khiển, sẽ không cần phải lấy từ mô hình toán của đối tượng, thay
vào đó là từ các dữ liệu quá khứ đo được của hệ thống.
Chẳng hạn như ở bài toán thiết kế bộ điều khiển tối ưu phản hồi trạng thái cho hệ tuyến
tính, mô tả bởi mô hình gồm hai ma trận ( , )A B :
x Ax Bu (1)
bị ràng buộc bởi hàm mục tiêu dạng toàn phương:
0
min
T T
J x Qx u Ru dt
(2)
có TQ Q bán xác định dương, TR R xác định dương, còn gọi là bộ điều khiển LQR,
thì việc thiết kế bộ điều khiển này sẽ không còn cần sử dụng đến cả hai ma trận ( , )A B của
mô hình (1), thay vào đó là từ các dữ liệu vào u và trạng thái x đo được của hệ. Phương
pháp thiết kế “thông minh” đó có tên gọi là “xấp xỉ tối ưu” hay “tối ưu thích nghi” [2, 3].
“Tối ưu thích nghi” là công cụ chính của điều khiển học tăng cường. Vai trò “là công
cụ chính” của tối ưu thích nghi còn lấn át các công cụ khác trong điều khiển tăng cường
đến mức mà nhiều tài liệu đã gọi luôn nó là điều khiển học tăng cường, ví dụ như [3, 4].
Do việc có được tính chất động học của hệ thống từ dữ liệu đo được trong quá khứ, thay vì
từ mô hình toán, nên phương pháp tối ưu thích nghi có hình thái giống như một thuật toán
“học để điều khiển”. Vì vậy, nhiều tài liệu đã gọi nó là thuật toán học tối ưu thích nghi,
hay quy hoạch động thích nghi [5-7].
Có khá nhiều dạng cài đặt khác nhau cho thuật toán học tối ưu thích nghi. Theo chúng
tôi, nếu phân chia theo cách rời rạc hóa để thực thi trên thiết bị điều khiển số thì sẽ có ba
dạng cơ bản gồm (i) rời rạc hóa ngay từ bài toán tối ưu ban đầu với tập các biến trạng thái
được giả thiết là hữu hạn [5-7], (ii) rời rạc hóa bài toán tối ưu với tập trạng thái là vô hạn,
đếm được [2, 5, 6] và (iii) rời rạc hóa kết quả liên tục cuối cùng thu được [2-6]. Tất nhiên,
việc rời rạc hóa kết quả liên tục thu được cuối cùng của bài toán tối ưu sẽ sát với đối tượng
hơn, nên chứa đựng sai lệch trong nó là ít nhất. Tuy nhiên, số các bước thực hiện lại nhiều
và phức tạp hơn, kéo theo là nguy cơ tích lũy sai số trong tính toán cũng cao hơn.
Kỹ thuật Điều khiển – Tự động hóa
N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 20
Ở bài báo này, chúng tôi tập trung giới thiệu một giải pháp cài đặt thuật toán học tối ưu
thích nghi đơn giản cho bài toán LQ (1)-(2), trên cơ sở rời rạc hóa kết quả liên tục cuối
cùng thu được của bài toán tối ưu đó, với một “mẹo” nhỏ là xác định giá trị tích phân trong
một khoảng thời gian vô cùng bé thông qua xấp xỉ (loại một và loại hai) của nó, tức là xấp
xỉ tích phân bằng tích của giá trị trung bình hàm dưới dấu tích phân tại thời điểm đầu, cuối
và khoảng thời gian lấy tích phân. Nó sẽ được gọi trong bài báo là “thuật toán cải biên”.
Nhân đây, cũng cần có vài lời bàn thêm về tên gọi “quy hoạch động thích nghi” hay
“học tối ưu thích nghi”. Trong hầu hết các tài liệu tham khảo [2-7], người ta đều gọi chung
“học tối ưu thích nghi” là “quy hoạch động thích nghi”, ngay cả cho trường hợp bài toán
điều khiển tối ưu LQ (1)-(2) hệ tuyến tính. Điều này là không đúng, vì như phần nền tảng
cơ sở trình bày sau đây trong mục 2 cho thấy, lời giải của bài toán LQ (1)-(2) hoàn toàn
không sử dụng đến nguyên lý tối ưu của Bellman, tác giả của quy hoạch động, rằng “đoạn
cuối của quỹ đạo tối ưu cũng tối ưu”. Nó sử dụng công cụ chính là phương pháp biến phân
(variation) trong cơ học cổ điển. Theo dòng lịch sử thì khi áp dụng phương pháp biến phân
cho hệ rời rạc, người ta đã phát hiện ra rằng, để có được dãy giá trị tín hiệu điều khiển tối
ưu, cần phải xác định ngược biến đồng trạng thái từ điểm cuối đến điểm đầu [8]. Theo
chúng tôi, có lẽ đây là phát hiện mấu chốt gợi ý cho Bellman đến được nguyên lý tối ưu
của mình và từ đó xây dựng được thành công phương pháp quy hoạch động cũng như mở
rộng nó cho bài toán tối ưu hệ liên tục phi tuyến thông qua phương trình Hamilton-Jacobi-
Bellman (HJB). Vì vậy, để tôn trọng dòng lịch sử này, nhất là tôn trọng đóng góp của
phương pháp biến phân trong cơ học cổ điển, thì riêng đối với bài toán tối ưu LQ (1)-(2),
ta hãy gọi nó bằng tên “tối ưu thích nghi”, thay vì “quy hoạch động thích nghi”.
2. NỘI DUNG CHÍNH
2.1. Lời giải từ phương pháp biến phân
Xét lại bài toán tối ưu LQ (1)-(2). Từ lý thuyết biến phân đã biết của cơ học cổ điển thì
nghiệm của bài toán đó sẽ là [8]:
u K x với 1 TK R B L (3)
trong đó, L là nghiệm xác định dương của phương trình đại số Riccati:
1 T TLBR B L LA A L Q . (4)
Để tìm nghiệm K của bài toán tối ưu LQ (1)-(2) theo hai công thức (3) và (4), người ta
thường dựa vào thuật toán lặp của Newton-Kleinman, có bản chất là chuyển (3) và phương
trình Riccati (4) thành phương trình Lyapunov:
1 1
.
T T T T
T T T T
T
A BK L L A BK A L LA LBK K B L
A L LA LBR B L K RR B L
Q K RK
(5)
Phương trình Lyapunov trên luôn có nghiệm L xác định dương với mọi ma trận xác
định dương TQ K RK nếu A BK là Hurwitz (xem chứng minh trong [8]).
Thuật toán lặp Newton-Kleinman có nhiệm vụ là ở bước lặp thứ k , khi đã có kK ta
cần phải xác định kL và 1kK cho vòng lặp tiếp theo, được suy ra từ (5) như sau:
T
k k k k kA BK L L A BK E , trong đó,
T
k k kE Q K RK (6)
và 11
T
k kK R B L
. (7)
Cứ như vậy, lần lượt với 0,1, k cho tới khi có được một trong hai điều sau:
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 21
1 1k kL L hoặc 1 2k kK K vì luôn có lim k
k
L L
và lim k
k
K K
, (8)
trong đó,
1 2, là hai hằng số dương đủ nhỏ cho trước.
Algorithm 1: Thuật toán Newton-Kleinman
1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k và chọn 1 2, .
2 while điều kiện (8) chưa thỏa mãn do
3 Tính kA BK và kE từ kK . Tính kL theo (6).
4 Tính 1kK từ kL theo (7).
5 Gán 1k k .
6 end while
7 Đáp số 1kK K và kL L .
2.2. Cải biên thuật toán on-policy-learning
Thuật toán trên (Algorithm 1) chưa mang tính “thích nghi” vì nó còn cần đến hai ma
trận A, B, tức là còn cần đến mô hình toán (1) của đối tượng điều khiển. Để loại bỏ ,A B ra
khỏi thuật toán, các tài liệu [2- 4] đã giới thiệu xu hướng sử dụng các kết quả đo được
online từ hệ như mô tả ở hình 1 dưới đây, để thay cho A, B. Nếu ký hiệu thời điểm đầu
vòng lặp k trong thuật toán Newton-Kleinman ở trên là kt và thời điểm cuối vòng lặp đó
là
1kt thì vai trò của hai ma trận ,A B trong vòng lặp đó sẽ được thay thế bới kl các dữ
liệu trạng thái đo được online trong vòng lặp đó, ký hiệu lần lượt là:
, 0 1 2( ), 0 , 0,1, ,kk i k i l kx x t i l và 1kk l kt t , (9)
khi hệ được kích thích bới đầu vào là tín hiệu thử “tăng cường”:
( ) ( )kku t K x e t với 1k kt t t . (10)
Hình 1. Tác động thử được “tăng cường” để xác định
1
,
k k
L K
trong một vòng lặp.
Trong công thức (10) thì kK là kết quả của vòng lặp trước (vòng lặp thứ 1k ) và
( )ke t là tín hiệu bổ sung để với nó có thể thu được đầy đủ thông tin động học của hệ trong
vòng lặp. Nó được gọi là “nhiễu nhân tạo”. Cũng theo các tài liệu [2- 4] này thì nhiễu nhân
tạo ( )ke t cần được chọn có biên độ nhỏ, nhằm không làm sai lệch nhiều giữa u cho trong
công thức (10), với tín hiệu điều khiển tối ưu kK x có từ vòng lặp trước. Ngoài ra, để các
giá trị trạng thái ,k ix đo được theo (9) chứa đựng được nhiều nhất có thể đặc tính động học
của hệ, nó cần phải biến đổi nhanh. Tuy nhiên, cụ thể phải chọn ( )ke t như thế nào là tốt
nhất thì hiện trong [2-4] vẫn chưa có câu trả lời đầy đủ.
Việc thay thế vai trò của hai ma trận ,A B bới ,k ix được thực hiện nhờ các quan hệ (10),
(6) và (7) như sau:
1kt kt 1 kk k lt t
1
,
k k
K L
,1kx ,2kx
1
,
k k
K L
2kt
t
Các phép đo dữ liệu và tính toán trong
một vòng lặp
Kỹ thuật Điều khiển – Tự động hóa
N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 22
1
1
2
2 2 .
T
TT T T
k k k k k
TT T T
kk k k k k
T T T TT
k kk k k k
d d x d x
x L x L x x L Ax Bu L x x L Ax Bu
dt dt dt
x A BK L L A BK x e B L
x E x e RR B L x E x e RK x
Suy ra, sau khi tích phân hai vế trong khoảng thời gian từ
k it đến 1k it sẽ được:
1 1
1
12
k i k i
k i
k i
k i k i
t t
t
T T T
kk k k
t
t t
x L x x E x dt e RK x dt
(11)
Rõ ràng trong (11) bây giờ không còn chứa , .A B Công thức này sẽ được sử dụng để
tính “thích nghi” đồng thời 1kK và kL từ
T
k k kE Q K RK ở vòng lặp .k
Để làm được điều này, các tác giả của [2-4] đã tách riêng nghiệm 1,k kK L cần tìm ra
khỏi các thành phần còn lại trong (11) nhờ toán tử vector hóa ma trận và tích Kronecker
như sau (xem thêm về các phép tính này trong [8]):
, , , , , ,vec vecT T T Tk j k j k j k j k j k jk k kx L x x L x x x L
1 1
1 1 1
( 1)
vec vec( )
k i k i k
k i k i k
t t t i
T T T T
k k kk k k
t t t i
e RK x dt e RK x dt x e R dt K
vì , ,
T
k i k ikx L x và 1
T
k ke RK x đều là vô hướng. Khi đó, (11) viết lại được thành:
1 1
1
1vec( ) 2 vec( )
k i k i
k i
k i
k i k i
t t
t
T T T T T
kk k k
t
t t
x x L x e R dt K x E x dt
hay
1 1
1
1
vec( )
, 2
vec( )
k i k i
k i
k i
k i k i
t t
t
T T T T Tk
k k
t
kt t
L
x x x e R dt x E x dt
K
. (12)
Viết lại (12) chung cho tất cả các chỉ số 0,1, , 1ki l ta sẽ có đẳng thức đã được
giới thiệu ở tài liệu [3] như sau:
1
vec( )
vec( )
k
kk
k
L
K
(13)
trong đó:
1
2
1
1
,1 ,1 ,0 ,0
,2 ,2 ,1 ,1
, , , 1 , 1
, 2
, 2
, 2
k
k
k
k
k lk
k k k k
k lk
t
T T T T T T
k k k k k
t
t
T T T T T T
k k k k k
tk
t
T T T T T T
k l k l k l k l k
t
x x x x x e R dt
x x x x x e R dt
x x x x x e R dt
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 23
và
1 1
2 2
1 1
1 1
vec( )
k k
k k
k k
k k
k l k lk k
k l k lk k
t t
T T T
k
t t
t t
T T T
k
t tk k
t t
T T T
k
t t
x E xdt x x dt
x E xdt x x dt
E
x E xdt x x dt
.
Nhìn vào hai công thức tính , kk ở trên sẽ thấy ngay được là để cài đặt thuật toán,
với x lấy từ đối tượng, ta cần tạo ra các biến vi phân sau (bằng khâu tích phân):
1 T Tk
d z
x e R
dt
và 2
T Td z
x x
dt
có các đầu vào là ( ), ( )kx t e t (14)
như mô tả ở hình 2.
Hình 2. Cài đặt các biến vi phân (14).
Có thể thấy, việc tạo thêm ra các biến vi phân (14) đã làm tăng đáng kể bậc mô hình
phải cài đặt. Để tránh được điều này, ta sẽ “cải biên” nó bằng những “động tác” nhỏ sau:
Thay
kl cho từng vòng lặp k bằng một hằng số l đủ lớn, chung cho tất cả các vòng
lặp. Đồng thời, thay i bởi i với một hằng số dương đủ nhỏ chọn trước.
Khi đủ nhỏ thì có thể thay các công thức tích phân để tính , kk bằng giá trị
xấp xỉ loại một của nó. Khi đó sẽ được:
,1 ,1 ,0 ,0 ,0 ,0
,2 ,2 ,1 ,1 ,1 ,1
, , , 1 , 1 , 1 , 1
, 2 ( )
, 2 ( )
, 2 ( )
T T T T T T
k k k k k k
T T T T T T
k k k k k k
k
T T T T T T
k l k l k l k l k l k l
x x x x x e R
x x x x x e R
x x x x x e R
(15)
trong đó, , ( ), 0,1, ,k i ke e t i i l và
,0 ,0
,1 ,1
, 1 , 1
vec( )
T T
k k
T T
k k
k k
T T
k l k l
x x
x x
E
x x
. (16)
u x
e
1z
ke
ke
Đối tượng
điều khiển
Xác định biến vi
phân thứ hai
Xác định biến vi
phân thứ nhất
Bộ điều
khiển tối ưu
thích nghi
Kỹ thuật Điều khiển – Tự động hóa
N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 24
Từ đây, ta đi đến thuật toán học thích nghi trực tuyến dạng cải biên như sau:
Algorithm 2: Thuật toán học thích nghi trực tuyến “dạng cải biên”
1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k và chọn
1 2, , đủ nhỏ, l đủ lớn. Gán 0kt .
2 while điều kiện (8) chưa thỏa mãn do
3 Chọn tín hiệu nhiễu nhân tạo ( ), k k ke t t t t l .
4 Tính kE từ kK theo (6). Kích thích hệ bởi u cho ở (10).
5 Đo , ( ), 0,1, ,k i kx x t i i l và xây dựng ,k k theo (15), (16).
6 Tính 1,k kL K từ (13). Gán 1k k và k kt t l .
7 end while
8 Đáp số 1kK K và kL L .
Về thuật toán trên ta có vài điều bàn thêm dưới đây:
Thời gian thực hiện một vòng lặp luôn đều nhau và đúng bằng l .
Để phương trình (13) có nghiệm 1kK và kL thì k phải có đủ hạng. Cụ thể là, nếu
đối tượng điều khiển (1) có bậc n và m đầu vào thì hệ phương trình (13) sẽ có tổng
cộng ( 1) 2nm n n biến cần tìm, gồm nm phần tử của ma trận 1kK và
( 1) 2n n phần tử của ma trận đối xứng kL . Vậy ma trận k phải có hạng bằng
( 1) 2nm n n và ta cũng phải chọn l đủ lớn để có được điều này.
Nhìn một cách tổng thể thì tính thích nghi của thuật toán chưa được thể hiện đầy đủ
vì bước khởi tạo vẫn cần đến ,A B của hệ cho việc chọn 0K . Nếu như có thêm giả
thiết là hệ ban đầu đã ổn định thì với việc chọn 0K 0 , tất cả các phép tính của
thuật toán lúc này sẽ hoàn toàn không cần đến ,A B nữa. Lúc đó, tính thích nghi của
thuật toán mới thực sự trở nên đầy đủ.
2.3. Cải biên thuật toán off-policy-learning
Thuật toán thích nghi ngoại tuyến cho bài toán LQ (1)-(2) đã được các tác giả của [2-4]
xây dựng dựa vào thuật toán trực tuyến gốc ban đầu với một thay đổi cơ bản là những giá
trị trạng thái (9) lấy từ hệ thống sẽ chỉ cần đo một lần duy nhất, sau đó, chúng được sử
dụng chung cho tất cả các vòng lặp k . Như vậy, ta cũng sẽ không cần ký hiệu chúng
giống như đã làm ở (9) vì các dữ liệu này không còn phụ thuộc theo k . Hơn nữa, do được
sử dụng chung cho các vòng lặp nên ở tất cả các vòng lặp cũng đều phải có chung i i
với một hằng số đủ nhỏ được chọn trước, đồng thời cũng phải có , kl l k . Bởi vậy,
thay vì ký hiệu như ở (9), ta sẽ ký hiệu lại tập dữ liệu trạng thái đo được đó là:
( ), 0,1, ,ix x i i l . (17)
Tương ứng, nhiễu nhân tạo, tác nhân để thu thập thông tin, cũng sẽ không còn phụ
thuộc k . Do đó, ta sẽ ký hiệu lại nó một cách đơn giản là ( )e t và nó cũng sẽ chỉ được sử
dụng một lần duy nhất để thu thập tập dữ liệu trạng thái (17).
Với sự thay đổi trên, và cũng từ kết quả đã có của phương pháp biến phân, rằng dọc
theo quỹ đạo tối ưu của bài toán LQ (1)-(2) luôn có cho mọi vòng lặp k :
min
k
T T T
k
u
t
x L x x Qx u Ru dt
hay
T T T
k
d
x L x x Qx u Ru
dt
, (18)
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 25
thì qua một thay đổi nhỏ trong (18) là ở đó thay hai thành phần u bởi:
( ) ( )ku t K x e t và 1( ) ku t K x ,
sẽ được:
1
1
TT T
k k k
TT
k k
d
x L x x Qx K x e R K x
dt
x Qx K x e RK x
.
Từ đây, tương tự như đã làm ở thuật toán học trực tuyến, ta cũng đi đến được kết quả
đã có trong các tài liệu [[3], [4]], là:
( 1)
( 1)
1
( 1)
vec( )
, ( )
vec( )
t i
t i
T T T kT
k
t i
kt i
t i
T
t i
L
x x x K x e R dt
K
x Qxdt
hay
1
vec( )
vec( )
k
k
k
L
v
K
(19)
trong đó:
1 1 0 0
1 1
( 1)
, ( )
, ( )
t
T T T T T T
k
t
k
t l
T T T T T T
l l l l k
t l
x x x x x K x e R dt
x x x x x K x e R dt
(20)
và
( 1)
t
T
t
t l
T
t l
x Qxdt
v
x Qxdt
(21)
Vậy khi sử dụng lại các “mẹo” cải biên đã được áp dụng ở thuật toán trực tuyến trước
đây, nhằm đơn giản hóa việc cài đặt bằng việc giảm bớt các biến vi phân:
1 ( )T Tk
d z
x K x e R
dt
và 2
Tdz
x Qx
dt
(22)
trong (20) và (21) ta cũng đến được các công thức xấp xỉ loại 2 của k , v như sau:
1 1 0 0 1 2
1 1 1
, ( )
2
, ( )
2
T T T T
k
T T T T
l l l l l l
x x x x
x x x x
với ( )T Ti i iki x K x e R (23)
Kỹ thuật Điều khiển – Tự động hóa
N. D. Phước, T. H. Minh, N. H. Nam, “Một giải pháp cài đặt tối ưu thích nghi.” 26
và
1 0
1
2
l l
v
với
T
i ii x Qx . (24)
Suy ra, thuật toán học thích nghi ngoại tuyến dạng cải biên gồm các bước như sau:
Algorithm 3: Thuật toán học thích nghi ngoại tuyến “dạng cải biên”
1 Khởi tạo với việc chọn 0K để 0A BK là Hurwitz. Gán 0k và chọn
1 2, , đủ nhỏ, l đủ lớn. Chọn tín hiệu nhiễu nhân tạo ( )e t rồi đưa tín hiệu
thử 0u K x e vào đối tượng. Thu thập tập gồm l các giá trị trạng thái
( ), 0,1, ,ix x i i l từ hệ thống và tính theo (24).
2 while điều kiện (8) chưa thỏa mãn do
3 Tính k theo (23) và xác định nghiệm 1,k kL K của (19).
4 Gán 1k k .
5 end while
6 Đáp số 1kK K và kL L .
Lưu ý là vector v không phụ thuộc k nên ta đã chuyển nó vào bước khởi tạo.
3. KIỂM CHỨNG NHỜ MÔ PHỎNG
Để kiểm chứng tính khả thi của thuật toán “cải biên”, sau đây, ta sẽ áp dụng chúng cho
bài toán LQ (1)-(2) với các tham số:
1
2
0 3 1 0 0
, , ,
1 0 0 0 16
x
x A B Q
x
và 1R .
Bài toán LQ này có nghiệm chính xác, thu được thông qua giải trực tiếp phương trình
đại số Riccati (4) và sau đó thay vào bộ điều khiển (3), là:
4 8
8 20
L
và 4 , 8K .
Trước tiên, ta sử dụng thuật toán học thích nghi trực tuyến gốc ban đầu để xác định
nghiệm ,L K trên. Với các tham số khởi tạo:
4 01 2 0 00.1 , 10, 5.10 , ( 5 , 8) , 0, (1.5 , 3.5)
Ts l x t K