Xây dựng phương pháp điều khiển thích nghi trên nền tối ưu cho hệ lái tàu thủy
Bạn đang xem 30 trang mẫu của tài liệu "Xây dựng phương pháp điều khiển thích nghi trên nền tối ưu cho hệ lái tàu thủy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
Luan an.docx
Luan an.pdf
Tom tat luan an.docx
Tom tat luan an.pdf
Trich yeu luan an.docx
Trich yeu luan an.pdf
Nội dung tài liệu: Xây dựng phương pháp điều khiển thích nghi trên nền tối ưu cho hệ lái tàu thủy
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VŨ VĂN TÚ XÂY DỰNG PHƯƠNG PHÁP ĐIỀU KHIỂN THÍCH NGHI TRÊN NỀN TỐI ƯU CHO HỆ LÁI TÀU THỦY Ngành: Kỹ thuật điều khiển và tự động hóa Mã số: 9520216 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hà Nội - 2022
- Công trình được hoàn thành tại: Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Đào Phương Nam 2. GS.TS. Phan Xuân Minh Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách Khoa Hà Nội Vào hồi giờ , ngày tháng năm Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu – ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
- DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA LUẬN ÁN 1. Van Tu Vu, Phuong Nam Dao, Thanh Loc Pham, Quang Huy Tran (2021): Sliding Variable-based Online Adaptive Reinforcement Learning of Uncertain/Disturbed Nonlinear Mechanical Systems, Journal of Control, Automation and Electrical Systems, Vol. 32, Issue. 2, pp. 281-290 (ISI Journal – Q3). 2. Van Tu Vu, Thanh Loc Pham, Quang Huy Tran, Phuong Nam Dao (2021): Optimal Control for fully-actuated Surface Vessel Systems, International Journal of iRobotics, Vol. 04, No. 1, pp. 1-7. 3. Vũ Văn Tú, Đào Phương Nam, Phan Xuân Minh (2021): Điều khiển bám tàu mặt nước bất định mô hình và nhiễu ngoài thông qua bộ điều khiển học tăng cường thích nghi trực tuyến và RISE, Tạp chí Nghiên cứu KH&CN quân sự, vol. 74, pp. 10-21. 4. Van Tu Vu, Quang Huy Tran, Thanh Loc Pham, Phuong Nam Dao (03/2022): Online Actor-Critic Reinforcement Learning Control for Uncertain Surface Vessel Systems with External Disturbances, International Journal of Control, Automation and Systems, Vol. 20, No. 3, 1029–1040 March 2022 (SCIE Journal – Q2, IF: 3.314). 5. Van Tu Vu, Phuong Nam Dao, Xuan Minh Phan (05/2022): Robust Optimal Control Based on the Off-Policy Integral Reinforcement Learning Algorithm for Surface Vessel Systems with Unknown Dynamics, in Proceedings of the International Conference on Advanced Mechanical Engineering, Automation and Sustainable Development, Chapter 124, pp 854–860, (Scopus). 6. Van Tu Vu, Thanh Loc Pham, Phuong Nam Dao (11/2022): Disturbance Observer-Based Adaptive Reinforcement Learning for Perturbed Uncertain Surface Vessels, ISA Transactions, Vol 130, pp. 277-292, November 2022 (SCIE Journal – Q1, IF: 5.911).
- MỞ ĐẦU 1. Tính cấp thiết của đề tài Vận tải biển đóng một vai trò rất quan trọng trong thương mại quốc tế bởi vì khoảng 80% lượng hàng hóa xuất nhập khẩu được vận chuyển qua đường biển. Vận tải biển là một thị trường lớn và vì lợi ích thiết yếu của nó, chẳng hạn như phạm vi vận chuyển rộng, khối lượng vận chuyển lớn, chi phí vận chuyển thấp Vì vậy, những nghiên cứu cải thiện hệ thống điều khiển bám quỹ đạo của tàu thủy nhằm nâng cao hiệu quả vận chuyển và đảm bảo an toàn hàng hải luôn là cấp thiết và có ý nghĩa to lớn. Trong khi đó, nguồn năng lượng lữu trữ trên tàu là hữu hạn do vậy để đảm bảo tàu chuyển động trên quãng đường dài, bài toán tối ưu năng lượng cũng cần được đề cập tới. Tuy nhiên, cho đến nay, có rất ít các công trình nghiên cứu phương pháp điều khiển tối ưu cho tàu thủy. Trong những năm gần đây nghiên cứu xấp xỉ nghiệm của phương trình HJB bằng quy hoạch động thích nghi (ADP) được quan tâm phát triển [10, 11, 12, 13]. Giải thuật ADP sử dụng NN để xấp xỉ các hàm giá trị, đặc điểm chung của cấu trúc điều khiển ADP thường sử dụng hai NN hoặc ba NN để xấp xỉ hàm. Những năm gần đây, ứng dụng giải thuật ADP trong bài toán bám tối ưu quỹ đạo cho các hệ thống phi tuyến liên tục được nghiên cứu và phát triển mạnh mẽ [14, 15], nhưng riêng áp dụng cho hệ thống lái tàu thủy được nghiên cứu rất ít. Chính vì vậy, việc nghiên cứu phát triển áp dụng giải thuật ADP trong điều khiển bám tối ưu quỹ đạo cho tàu thủy luôn là thách thức và động lực đối với các nhà khoa học. Đây cũng chính là động lực thúc đẩy việc lựa chọn đề tài nghiên cứu của tác giả. Được sự đồng ý của tập thể giáo viên hướng dẫn và hội đồng đánh giá đề cương đã được trình bày, NCS đã lựa chọn đề tài luận án: “Xây dựng phương pháp điều khiển thích nghi trên nền tối ưu cho hệ lái tàu thủy” 2. Mục đích nghiên cứu Mục đích của đề tài nghiên cứu xây dựng bộ điều khiển bám tối ưu để nâng cao chất lượng điều khiển và đảm bảo tính ổn định của hệ lái tự động tàu thủy trong điều kiện có nhiễu tác động. Để thực hiện được mục tiêu này, luận án đặt ra những nhiệm vụ chính sau: - Nghiên cứu mô hình toán mô tả chuyển động của tàu thủy và các phương pháp điều khiển cho hệ lái tàu thủy. 1
- - Nghiên cứu xây dựng thuật toán điều khiển bám tối ưu dựa trên giải thuật ADP có cấu trúc điều khiển AC-NNS. - Nghiên cứu thuật điều khiển tối ưu bền vững dựa trên thuật toán off-policy IRL cho hệ lái tàu thủy. 3. Đối tượng và phạm vi nghiên cứu của luận án Đối tượng nghiên cứu của luận án: Hệ thống lái tàu nổi như tàu tuần tra, tàu dịch vụ , có mô hình phi tuyến bất định, chịu ảnh hưởng của nhiễu ngoài không biết trước (sóng, gió, dòng chảy ) và đủ cơ cấu chấp hành. Phạm vi nghi cứu của luận án: Luận án tập trung xây dựng bộ điều khiển bám tối ưu mới cho hệ thống dựa trên lý thuyết điều khiển phi tuyến và lý thuyết điều khiển tối ưu, cho các tàu hoạt động trên biển trong điều kiện có các nhiễu (sóng, gió, dòng chảy ) bị chặn. 4. Ý nghĩa khoa học và thực tiễn của luận án Luận án đã đưa ra được cấu trúc điều khiển mới. Các bộ điều khiển này được phân tích ổn định dựa trên lý thuyết ổn định Lyapunov và được đánh giá thông qua mô phỏng bằng phần mềm Matlab, kết quả phân tích lý thuyết và mô phỏng hoàn toàn phù hợp và đáp ứng được các chỉ tiêu chất lượng cho hệ thống lái tàu tự động. Luận án sẽ góp phần bổ sung các phương pháp điều khiển bám tối ưu quỹ đạo mới cho hệ lái tàu thủy. Chính vì vậy, kết quả nghiên cứu của luận án vừa có ý nghĩa khoa học vừa có ý nghĩa thực tiễn. 5. Phương pháp nghiên cứu - Phân tích các tài liệu khoa học, các công trình mới nhất đã được công bố trong và ngoài nước về điều khiển tàu thủy. Đặc biệt là các phương pháp điều khiển hiện đại áp dụng cho mô hình tàu thủy đủ cơ cấu chấp hành, trên cơ sở đó đưa ra định hướng nghiên cứu các giải thuật điều khiển mới cho hệ lái tàu thủy. - Dựa trên lý thuyết điều khiển phi tuyến và điều khiển tối ưu xây dựng bài toán điều khiển bám tối ưu cho hệ lái tàu thủy có xét tới ảnh hưởng của nhiễu. - Chuyển bài toán xác định nghiệm tối ưu về bài toán tìm nghiệm cho phương trình HJB, HJI. Nghiên cứu, xấp xỉ nghiệm của HJB dựa trên giải thuật ADP kết hợp các phương pháp kháng nhiễu. - Các giải thuật mới được đề xuất, phân tích tính ổn định dựa trên lý thuyết Lyapunov và khảo sát đánh giá thông qua mô phỏng bằng phần mềm Matlab. 2
- 6. Bố cục của luận án Luận án được trình bày trong 3 chương - Chương 1: Tổng quan về mô hình động lực học tàu thủy và tình hình nghiên cứu. - Chương 2: Điều khiển bám tối ưu cho tàu thủy khi có mô hình. - Chương 3: Điều khiển bám tối ưu cho tàu thủy khi không có mô hình. - Kết luận và hướng phát triển của luận án. CHƯƠNG 1. TỔNG QUAN VỀ MÔ HÌNH ĐỘNG LỰC HỌC TÀU THỦY VÀ TÌNH HÌNH NGHIÊN CỨU Nội dung chính của chương này là xây dựng mô hình động lực học của tàu thủy dựa trên kết quả nghiên cứu của các công trình [16–19] được sử dụng thiết kế hệ thống điều khiển và phân tích ổn định của hệ kín. 1.1. Mô hình động lực học tổng quát của tàu thủy Tàu thủy là một phương tiện hàng hải chuyển động trên mặt nước, trong một môi trường phức tạp, biến động và không có cấu trúc. Để xác định động lực học của tàu dựa vào định luật Newton, coi tàu thủy như một vật rắn chuyển động trong môi trường chất lỏng và chuyển động với sáu bậc tự do, sáu biến chuyển động độc lập dùng để xác định vị trí và hướng của tàu thủy [17], [18]. Các chuyển động của tàu thủy như Hình 1.1 gồm chuyển động trượt dọc (surge), chuyển động trượt ngang (sway), trượt đứng (heave), chuyển động lắc ngang (roll), chuyển động lắc dọc (pitch), chuyển động quay trở (yaw). Hình 1.1 Mô tả các chuyển động của tàu đại dương (nguồn: [19]) Mô hình động lực học mô tả chuyển động của tàu thủy 6 bậc tự do kết quả được đưa ra như sau [16], [17]: 3
- J( ) v (1.20) Mv C( v)) v D( v v g() g 0 T x y z 6 là véc-tơ vị trí, hướng trong hệ T tọa độ trái đất (e-frame), v u vw p q r 6 véc-tơ vận tốc dài, vận tốc góc trong hệ tọa độ gắn thân tàu (b-frame).Ma trận D() v là ma trận suy giảm thủy động lực học và là ma trận không đối xứng, g() là véc-tơ lực đẩy và lực trọng trường, g0 là véc-tơ được sử dụng khi có điều khiển cân bằng trong trường hợp không tải. là các nhiễu loạn từ môi trường bên ngoài tác động lên tàu thủy như sóng, gió, dòng chảy đại dương. Mô hình động lực học phi tuyến của tàu thủy ba bậc tự do như sau: J() v (1.26) Mv C() v)v D( v v g() ( , ) Các thuật toán mới của luận án được phát triển dựa trên mô hình (1.26) với các thành phần M, D ( v ), C ( v ) và g() là bất định. 1.2. Tổng quan tình hình nghiên cứu trong và ngoài nước về điều khiển chuyển động của tàu thủy 1.2.1. Tổng quan tình hình nghiên cứu trong nước Trong những năm gần đây ngành công nghiệp đóng tàu Việt Nam đã đạt được những thành tựu to lớn, góp phần thay đổi bộ mặt công nghiệp hóa, hiện đại hóa của nước nhà. Một số tác giả đã nghiên cứu và công bố các tài liệu liên quan đến thiết kế bộ điều khiển cho tàu thủy có tính ứng dụng và thành tựu nhất định. Trong các công trình của tác giả Khương Minh Tuấn [21], Nguyễn Đông [22], Nguyễn Hoài Nam [23], luận án tiến sỹ của của tác giả Đặng Xuân Hoài [24]. Trong các năm gần đây, một số công bố [25] của tác giả Hoàng Thị Tú Uyên, luận án của tác giả Nguyễn Hữu Quyền [26]. 1.2.2. Tổng quan tình hình nghiên cứu ngoài nước Trong các công trình nghiên cứu của các tác giả thì thiết kế bộ điều khiển cho tàu thủy dựa theo hai mô hình cơ bản: Mô hình tuyến tính và mô hình phi tuyến. Các công trình thiết kế theo mô hình tuyến tính 4
- thường xây dựng bộ điều khiển của tàu thủy theo hướng đi cho trước như tác giả Nomoto [27], tác giả Fossen [18], [20], [28], [29]. Mô hình tàu phi tuyến một bậc tự do Norrbin [30], mô hình tàu phi tuyến hai bậc tự do của Bech và Wagner Smith [31] thể hiện ở những công trình: điều khiển Backsteping kết hợp với mạng nơ-ron [32]–[34] điều khiển thích nghi [35], [36], điều khiển tối ưu LQR, bền vững H [37]–[40]. Từ khi mô hình tàu thủy ba bậc tự do trên mặt phẳng nằm ngang được Fossen và các đồng sự xây dựng hoàn thiện [17], các công trình thiết kế bộ điều khiển cho tàu thủy [41], [42], [51], [43]–[50]. Trường hợp mô hình tàu thiếu cơ cấu chấp hành [41], [42], [44], [52], mô hình tàu đủ cơ cấu chấp hành [46]–[48], [50], [51]. Trong những năm gần đây lý thuyết RL được nghiên cứu và ứng dụng trong thiết kế điều khiển, có nhiều công trình áp dụng thiết kế cho mô hình tàu thủy [60]–[66]. Tuy nhiên, các công trình trên vấn đề luật cập nhật của hệ thống, ảnh hưởng của các yếu tố như bất định mô hình và nhiễu tác động tới bộ điều khiển được thiết kế không được xem xét triệt để. 1.3. Hướng nghiên cứu của luận án Sau khi phân tích tổng quan các phương pháp điều khiển cho hệ lái tự động tàu thủy của các công trình nghiên cứu trong và ngoài nước cho thấy: Các phương pháp điều khiển điều động và bám quỹ đạo cho tàu thủy được áp dụng rất nhiều, từ những phương pháp kinh điển cho đến những phương pháp như điều khiển phi tuyến hiện đại, điều khiển thích nghi bền vững. Hướng nghiên cứu thứ nhất: Nghiên cứu, đề xuất cấu trúc điều khiển mới giải quyết bài toán điều khiển bám tối ưu cho hệ lái tàu thủy đủ cơ cấu chấp hành có mô hình phi tuyến chứa thành phần bất định và hoạt động trong môi trường luôn biến động, chịu ảnh hưởng của nhiễu đầu vào không biết trước nhằm nâng cao chất lượng của hệ thống điều khiển, hệ thống ổn định bám quỹ đạo đặt và giảm thiểu chi phí và tăng hiệu suất. Hướng nghiên cứu thứ hai: Nghiên cứu, đề xuất cấu trúc điều khiển tối ưu bền vững cho hệ lái tàu thủy đủ cơ cấu chấp hành với không yêu cầu biết trước thông tin động học của hệ thống, dựa trên xấp xỉ nghiệm của phương trình HJI. Cấu trúc điều khiển mới đảm bảo hệ thống ổn định, tàu thủy bám quỹ đạo đặt và có khả năng làm suy giảm nhiễu đầu vào tác động lên hệ thống. 5
- 1.4. Cơ sở phương pháp luận của luận án Giới thiệu các phương pháp sử dụng trong luận án để tổng hợp bộ điều khiển: - Mạng nơ-ron xấp xỉ hàm. - Ổn định UUB. - Giải thuật quy hoạch động xấp xỉ/thích nghi cho hệ phi tuyến. 1.5. Kết luận chương 1 Trong chương 1, luận án đã tập trung nghiên cứu: - Xây dựng mô hình động lực học của tàu thủy sáu bậc tự do, tàu ba bậc tự do đặt trên mặt phẳng nằm ngang. Phân tích các mô hình động lực học khác nhau của tàu từ đó xác định mô hình tàu thủy ba bậc tự do đủ cơ cấu chấp hành chứa các thành phần bất định và có nhiễu ngoài tác động là đối tượng nghiên cứu chính của luận án. - Phân tích đánh giá các công trình nghiên cứu trong và ngoài nước liên quan đến thiết kế bộ điều khiển cho tàu thủy, từ đó đề xuất hướng nghiên cứu cho luận án với xây dựng bộ điều khiển tối ưu cho hệ lái tự động tàu mà mô hình chứa thành phần bất định và nhiễu ngoài tác động. - Phân tích một số thuật toán cơ bản của giải thuật ADP như: cấu trúc AC-NNs, thuật toán Off-Policy IRL đây là những thuật toán được nghiên cứu trong luận án tạo nền tảng để xây dựng bộ điều khiển mới cho hệ lái tự động tàu thủy. CHƯƠNG 2. ĐIỀU KHIỂN BÁM TỐI ƯU CHO MÔ HÌNH TÀU THỦY DÙNG CẤU TRÚC ACTOR-CRITIC Trong chương này, luận án đề xuất bộ điều khiển bám tối ưu quỹ đạo đặt cho hệ lái tàu thủy có chứa thành phần bất định, chịu ảnh hưởng của nhiễu, sử dụng giải thuật ADP cấu trúc AC-NNs kết hợp với các bộ ước lượng nhiễu đảm bảo hệ kín ổn định UB và các trọng số của mạng nơ ron trong bộ điều khiển hội tụ về miền cho phép có chứa gốc tọa độ. Hệ thống điều khiển bám tối ưu cấu trúc AC-NNs được phân tích, đánh giá thông qua mô phỏng và được so sánh với các công trình đã được các tác giả khác công bố. 2.1 Tổng hợp bộ điều khiển tối ưu dựa trên cấu trúc Actor- Critic 2.1.1 Biến đổi mô hình của tàu thủy Từ phương trình hệ phương trình (1.26) ta có mô hình động lực học của tàu thủy trên mặt phẳng nằm ngang ba bậc tự do: 6
- J() v (2.1) Mv C() v)v D( v v g() ( , ) Trong đó C( v ), D ( v ), g ( ) là các hàm xác định, (,) gồm các véc-tơ lực và momen nhiễu từ môi trường và các thành phần không xác định của mô hình tàu là các hàm chưa biết bị chặn: (,) (2.3) Mục tiêu của bài toán là điều khiển tàu bám theo quỹ đạo đặt mong T muốn d [x d ( t ), y d ( t ), ( t )] . Chuyển đổi đưa về hệ dừng (autonomous system): X F( X ) G ( X )( u ) (2.15) 2.1.2 Mô tả bài toán điều khiển tối ưu cho tàu thủy Hàm chi phí của (2.15) được định nghĩa như sau: J(X, u ) r ( X (τ ), u ( τ))d τ min (2.18) 0 Các biến trạng thái của hệ (2.15) bị chặn. u U() X là luật điều khiển được thiết kế để ổn định hệ kín (2.15) và đảm bảo J(X, u) hữu hạn. 2.1.3 Tổng hợp bộ điều khiển tối ưu Áp dụng giải thuật ADP cấu trúc điều khiển AC-NNs, luật điều khiển tối ưu u*() X và hàm Bellman tương ứng V *()X được xấp xỉ bằng NN như sau: * T V ()()()XWXX (2.22) T 1 V *()X * 1 T u()() X R G X (2.23) 2 X Xét số nơ-ron cố định N , critic NN V() và actor NN u() được sử dụng để xấp xỉ hàm Bellman (2.22) và luật điều khiển tối ưu (2.23) khi trọng số W chưa xác định: T V()()XWX c (2.24) 7
- T 1 1 T (2.25) u()() X R G X Wa 2 X Hình 2.1 Cấu trúc điều khiển hệ thống lái tàu thủy sử dụng giải thuật ADP cấu trúc AC-NNs 2.1.4 Phát biểu định lý và chứng minh tính ổn định của hệ thống Định lý 2.1: Nếu các Giả thiết 2.2 đến Giả thiết 2.5 được thỏa mãn, w véc-tơ hồi quy ()t thỏa mãn điều kiện PE và điều 1 wT w kiện sau thỏa mãn: c3 k1 k 3 (2.36) ka1 trong đó ka1,,, c 3 k 1 k 2 được giới thiệu trong (2.28), (2.35) và (2.36). Xét cấu trúc điều khiển cho tàu mặt nước trên hình 2.1 sử dụng bộ điều khiển ảo (2.8), bộ điều khiển truyền thẳng (Feed-forward) (2.14), bộ điều khiển (2.25) với các luật cập nhật AC-NNs (2.28), (2.27), sẽ làm: 1) Sự hội tụ của các trọng số Actor-Critic NN được thỏa mãn, với sai số của các trọng số của AC-NNs Wa và Wc sẽ hội tụ về miền cho phép có chứa gốc tọa độ. 2) Các biến trạng thái X()t của hệ Error! Reference source not found. sẽ ổn định UB. Phần chứng minh định lý được trình bày chi tiết trong luận án tại trang 39-42. 8
- 2.1.5 Mô phỏng kiểm chứng Để kiểm chứng tính đúng đắn của thuật toán của bộ điều khiển tối ưu dựa trên giải thuật ADP với cấu trúc Actor-Critic, luận án thực hiện mô phỏng số trên phần mềm Matlab với mô hình tàu được thu nhỏ với tỷ lệ so với tàu thật 1:75. Khối lượng của tàu là m 21(kg ), chiều dài và chiều rộng tương ứng là 1.2(m) và 0.3(m), với các tham số được tham khảo trong tài liệu [63]. Hình 2.3 Quỹ đạo bám – quỹ đạo đường tròn sử dụng giải thuật ADP cấu trúc AC-NNs 2.2 Thiết kế bộ điều khiển tối ưu dựa trên cấu trúc ADP- RISE cho mô hình tàu thủy bất định và có nhiễu ngoài chưa biết 2.2.1 Tổng hợp bộ điều khiển tối ưu dựa trên cơ sở cấu trúc Actor-Critic Từ phương trình hệ phương trình (1.26) ta có mô hình động lực học của tàu thủy: J() v (2.56) Mv C()()()(,) vv D v v g TTT 6 Với biến trạng thái mới [,]e1 e 2 được hệ mới như sau: A()() B u (2.65) Áp dụng giải thuật ADP có cấu trúc điều khiển AC-NNs thì bộ điều khiển tối ưu u*() Z và hàm Bellman tương ứng V *()Z được xấp xỉ bằng NNs: V *()()()ZWZZ T (2.68) 9
- T 1 V * * 1 T u()() Z R B Z (2.69) 2 Z Xét số nơ-ron cố định N , critic NN V() và actor NN u() được sử dụng để xấp xỉ hàm Bellman (2.68) và luật điều khiển tối ưu (2.69) như sau: T V()()ZWZ c (2.70) T 1 ()Z 1 T (2.71) u()() Z R B Z Wa 2 Z 2.2.2 Thiết kế bộ điều khiển phản hồi RISE Thiết kế điều khiển sử dụng ước lượng nhiễu đầu vào như sau: (ks 1)e2 ( k s 1) e 2 (0) ( t ) (2.93) Hình 2.8 Cấu trúc điều khiển ADP-RISE cho mô hình tàu thủy 2.2.3 Phát biểu định lý và chứng minh tính ổn định của hệ kín Định lý 2.2. Hệ thống điều khiển kín bao gồm mô hình tàu thủy (2.56) và (2.65) thỏa mãn các Giả thiết 2.2 đến Giả thiết 2.9 và bộ điều khiển ADP-RISE (2.64) ới luật điều khiển RISE (2.93), luật điều khiển tối ưu (2.71), luật cập nhật trọng số (2.74), (2.76), tín hiệu véc- tơ ()t thỏa mãn điều kiện PE (2.79), các tham số 1 T thiết kế được chọn như sau: 1 1 b3 min( 1 ) ; 2 1; 1 1 2 ; l1 l 2 (2.96) 2 2 a1 Đảm bảo: 10
- 1. Sự hội tụ của các trọng số AC-NNs được thỏa mãn, với sai số của các trọng số của AC-NNs Wa và Wc sẽ hội tụ về miền cho phép có chứa gốc tọa độ 2. Các biến trạng thái của y 9 của hệ Error! Reference source not found. sẽ ổn định UB. Phần chứng minh định lý được trình bày chi tiết trong luận án tại trang 52-56. 2.2.4 Mô phỏng so sánh và đánh giá Luận án thực hiện mô phỏng số trên phần mềm Matlab với mô hình tàu được thu nhỏ với tỷ lệ so với tàu thật 1:75. Khối lượng của tàu là m 21(kg ), chiều dài và chiều rộng tương ứng là 1.2(m) và 0.3(m) với các tham số được tham khảo trong tài liệu [63]. Hình 2.10 So sánh điều khiển bám quỹ đạo tròn, khi chưa có nhiễu Hình 2.14 So sánh điều khiển bám quỹ đạo tròn, nhiễu hàm “1” tác động 11
- Hình 2.18 So sánh điều khiển bám quỹ đạo tròn, nhiễu hàm “2” tác động Từ hình 2.10 đến hình 2.18 cho thấy quỹ đạo bám và sai lệch bám của bộ điều khiển ADP và bộ điều khiển ADP-RISE có sự thay đổi khi thay đổi nhiễu tác động đầu vào. 2.3. Thiết kế bộ điều khiển tối ưu dựa trên giải thuật ADP kết hợp với bộ ước lượng nhiễu DO cho mô hình tàu mặt nước bất định và nhiễu ngoài 2.3.1 Thiết kế điều khiển bù nhiễu Từ phương trình hệ phương trình (1.26) ta có mô hình mô tả động học của tàu thủy trên mặt phẳng nằm ngang ba bậc tự do: J() v (2.126) Mv C()()()(,) vv D v v g Trong đó C( v ), D ( v ), g ( ) là các hàm chưa biết, (,) gồm các véc-tơ lực và momen nhiễu từ môi trường và các thành phần không xác định của mô hình tàu. Chuyển về hệ (2.126) về dạng: YE()() b (2.134) Đầu vào điều khiển của hệ (2.134) có thể được thiết kế như sau: (ETT E) 1 E u (2.135) b Thành phần b b b của bộ điều khiển mà luận án đề xuất (2.135) được thiết kế bằng cách ước lượng véc-tơ hàm bất định (2.134). Một bộ DO được phát triển như sau: 12
- b y () () (2.137) y (()()()) y Y E Định lý 2.1. Cho hệ thống (2.134), bộ DO được thiết kế (2.137). () Nếu là hàm xác định dương, thì ước lượng véc-tơ hàm bất định có thể bám theo hàm mũ, sai lệch của bộ DO b ổn định tiệm cận theo hàm mũ, . Định lý được chứng minh chi tiết trong luận án tại trang 66. 2.3.2 Tổng hợp bộ điều khiển tối ưu dựa trên cơ sở cấu trúc Actor-Critic Xét hệ thống định danh (nominal system) được biểu diễn như sau: Y()() E u (2.141) Áp dụng giải thuật ADP cấu trúc điều khiển AC-NNs trình bày tại mục 1.4.3.1 thì bộ điều khiển tối ưu u *() và hàm Bellman tương ứng V *() được xấp xỉ bằng mạng NNs: V *()()() W T (2.144) TT *1 1 T ()() u()() R E W (2.145) 2 Xét số nơ-ron cố định N , critic NN V() và actor NN u() được sử dụng để xấp xỉ hàm Bellman (2.144) và luật điều khiển tối ưu (2.145) như sau: T V()() Wc (2.146) T 1 1 T (2.147) u()() R E Wa 2 2.3.3 Phương pháp xác định véc-tơ hàm kích hoạt Định lý 2.4. Xét hệ thống (2.131) với hàm chi phí (2.158) Nếu các tham số KQR,,,1 thỏa mãn điều kiện sau: T 1 T KKQ1 1 11 ;KQ 12 ;JR J Q22 (2.162) 13
- thì hàm Bellman V(z,t) và bộ điều khiển tối ưu được đưa ra như sau: K 0 V(z,)()t zTT P z z z 3 3 z (2.163) 0 JMJT 3 3 u*()t R 1 BT P() z z (2.164) Phần chứng minh định lý xem trong luận án trang 70-71. Hình 2.1 Cấu trúc bộ điều khiển tối ưu sử dụng giải thuật ADP cấu trúc AC-NNs kết hợp với bộ ước lượng nhiễu DO 2.3.3 Phát biểu định lý và chứng minh tính ổn định của hệ kín Định lý 2.5. Hệ thống điều khiển kín bao gồm mô hình tàu thủy (2.125) và (2.136) thỏa mãn các Giả thiết 2.2 đến Giả thiết 2.5, Giả thiết 2.10, tín hiệu véc-tơ ()t thỏa mãn điều kiện PE (2.157), các a3 tham số thiết kế được chọn n1 n 2 . Bộ điều khiển ADP-DO 1 (2.135) với bộ DO (2.137) luật điều khiển xấp xỉ (2.147), luật cập nhật trọng số NN (2.151), (2.153): 1. Sự hội tụ của các trọng số AC-NNs được thỏa mãn, với sai số của các trọng số của AC-NNs Wa và Wc sẽ hội tụ về miền cho phép có chứa gốc tọa độ. 2. Các biến trạng thái của ()t của hệ Error! Reference source not found. sẽ ổn định UB. Phần chứng minh định lý được trình bày chi tiết trong luận án tại trang 71-74. 2.3.5 Mô phỏng, so sánh và đánh giá 14
- Luận án thực hiện mô phỏng số trên phần mềm Matlab với mô hình tàu được thu nhỏ với tỷ lệ so với tàu thật 1:75. Khối lượng của tàu là m 21(kg ), chiều dài và chiều rộng tương ứng là 1.2(m) và 0.3(m) , với các tham số được tham khảo trong tài liệu [63]. Sau khi hội tụ Hình 2.30 So sánh điều khiển bám quỹ đạo tròn của bộ điều khiển đề xuất ADP-DO với bộ điều khiển AOBC [63] 15
- Hình 2.31 So sánh sai số bám trục x của hai bộ điều khiển Hình 2.32 So sánh sai số bám trục y của hai bộ điều khiển Hình 2.33 So sánh sai số bám trục của hai bộ điều khiển Bảng 2.2 RMSE của hai bộ điều khiển STT Bộ điều E E khiển xy 1 AOBC [63] 0.2618 0.1927 2 ADP-DO 0.0514 0.0679 2.5 Kết luận chương 2 Trong chương 2, luận án đã xây dựng thành công cấu trúc điều khiển mới cho tàu thủy dựa trên sự kết hợp giữa giải thuật ADP cấu trúc AC-NNs và các bộ ước lượng thành phần nhiễu đầu vào của hệ thống, kết quả ước lượng nhiễu đạt chất lượng tốt, cấu trúc điều khiển đảm bảo cho hệ thống bám theo quỹ đạo đặt với sai số bám nhỏ, sai số ước lượng nhỏ. Cũng trong chương này, luận án đề xuất phương pháp xác định trọng số lý tưởng của NN trong cấu trúc AC-NNs dựa trên 16
- phân tích lý thuyết trong trường hợp đặc biệt của mô hình tàu thủy. Nghiệm tối ưu xấp xỉ giải theo phương pháp ADP-DO cũng bằng nghiệm tối ưu được tìm theo phương pháp lý thuyết, độ sai số rất nhỏ. CHƯƠNG 3. ĐIỀU KHIỂN BÁM TỐI ƯU BỀN VỮNG CHO MÔ HÌNH TÀU THỦY Nhược điểm cơ bản giải thuật ADP cấu trúc AC-NNs áp dụng cho hệ phi tuyến phải biết trước các thông tin của mô hình là và . Giải thuật ADP được mở rộng với thuật toán off-policy IRL là giải pháp khắc phục tình trạng này, từ đó chuyển từ lời giải bài toán tối ưu trực tiếp sang lời giải bài toán tối ưu gián tiếp mà không cần thông tin của mô hình hệ thống. Nội dung chủ yếu của chương này phát triển một cấu trúc điều khiển tối ưu bền vững cho hệ lái tàu thủy có mô hình bất định và chịu ảnh hưởng của nhiễu. Bộ điều khiển tối ưu bền vững sử dụng giải thuật ADP với thuật toán off-policy IRL dùng để xấp xỉ nghiệm của phương trình HJI. 3.1. Phương trình HJI bám quỹ đạo và sự ổn định của phương pháp 3.1.1 Biến đổi mô hình tàu thủy Phương trình động lực học ba bậc tự do mô tả chuyển động tàu thủy được theo (1.26) như sau: J() v (3.1) Mv C()()()(,) vv D v v g Trong đó M, C ( v ), D ( v ), g ( ) là các hàm chưa xác định, (,) gồm các véc-tơ lực và momen nhiễu từ môi trường và các thành phần không xác định của mô hình tàu. Chuyển đổi đưa về hệ dừng (autonomous system): x F()()()() x G x u K x d x (3.8) 3.1.2 Phương trình Hamilton-Jacobi-Isaacs cho bài toán điều khiển tối ưu bám quỹ đạo Sử dụng quy tắc Leibniz’s để đạo hàm V(x ( t )) J ( x , u , d ) theo quỹ đạo trạng thái của hệ thống (3.8), được phương trình Bellman như sau: TTT2 HVV(,,)u d x QT x u Ru d d (3.11) 17
- V (F Gu Kd ) 0 x Thay thế luật điều khiển tối ưu u* công thức (3.16) và luật nhiễu (3.17) vào biểu thức (3.12) thu được phương trình HJI (3.12) trở thành: T VVV 1 HVV(,,)*u * d * xTT Q x F * GR 1 G T x 4 x x T (3.18) 1 VV T KK 0 2 4 x x với V *(0 ) 0 . 3.2 Thuật toán off-policy IRL để giải phương trình HJI bám quỹ đạo 3.2.1 Thuật toán off-policy RL cho điều khiển tối ưu bám quỹ đạo Thuật toán 3.1. Thuật toán RL để giải phương trình HJI Bước 1: x x , khởi tạo luật điều khiển chấp nhận được u(0)() x , nhiễu và giá trị d(0)() x , chọn tiêu chí hội tụ (số dương nhỏ). + Gán i 0 . Bước 2: Xấp xỉ hàm V ()i ()x ở bước lặp i với luật điều khiển u()i , luật nhiễu d()i . + Xác định V ()i ()x từ hệ phương trình: (i)()()()i iT i T()()() i 2 i T i HV(,,)u d x QT x uR u d d ()i V (3.28) (i) ()(i i) V (FG u Kd ) 0 x Bước 3: Cập nhật luật điều khiển và nhiễu cho vòng lặp kế tiếp theo. Cập nhật: T ()i (i 1) ()()ii 1 T V d arg max[HV ( ,u , d ] K (3.29) 2 d 2 x 18
- ()i T 1 V (i 1) ()i( i 1 ) 1 T u argmin[HV ( ,,u d ] R G (3.30) u 2 x + Nếu thỏa mãn tiêu chuẩn hội tụ sao cho VV(i ) ( i 1) với là số dương đủ nhỏ thì gán u* u (i 1) ,d* d (i 1) và VV* (i 1) kết thúc giải thuật. + Nếu không thỏa mãn, gán i i 1 và quay lại bước 2. 3.2.2 Phân tích sự hội tụ của thuật toán 3.1 Phần chứng minh các định lý được trình bày chi tiết trong luận án tại trang 89-95. 3.2.3 Thuật toán học tăng cường cho phương trình HJI bám quỹ đạo Thuật toán 3.2. Thuật toán off-policy IRL cho điều khiển bám tối ưu quỹ đạo Bước 1. Pha 1 (thu thập dữ liệu sử dụng một luật điều khiển cố định): Áp dụng luật điều khiển u vào hệ thống và thu thập thông tin hệ thống yêu cầu về trạng thái, tín hiệu điều khiển và nhiễu tại N khoảng thời gian trích mẫu khác nhau T. Bước 2. Cho một luật điều khiển u()i và luật nhiễu d()i , tìm V ()i thông qua phương trình Bellman: (i)()()()i iT i T()()() i 2 i T i HV(,,)u d x QT x uR u d d ()i V (3.64) (i) ()(i i) V (FG u Kd ) 0 x Bước 3. Pha 2 (sử dụng lặp đi lặp lại các dữ liệu đã được thu thập một cách tuần tự nhằm tìm ra một luật điều khiển tối ưu): với tín hiệu điều khiển u()i và d()i , sử dụng các thông tin đã thu thập được từ pha 1 nhằm giải phương trình Bellman cho V (i ),u ( i 1) và d(i 1) một cách đồng thời từ phương trình: e T V()() i(x ( t T )) V i ( x ( t )) t T (3.65) e (τ t )() x TQR x u ( i ) T u()i 2 d (i) T d() i dτ T t 19
- t T e (τ t )( 2u ( i 1) TR ( u u(i ) ) 2 2 d (i 1) T (d d()i )) dτ t Bước 4. Dừng nếu điều kiện dừng được thỏa mãn, ngược lại đặt i i 1 và chạy lại pha 2. 3.2.4 Phân tích sự hội tụ của thuật toán 3.2 Phần chứng minh các định lý được trình bày chi tiết trong luận án tại trang 97-98. 3.2.5 Thuật toán off-policy IRL điều khiển bám quỹ đạo sử dụng NNs Áp dụng khả năng xấp xỉ của mạng nơ-ron trong mục 1.4.1 giải thuật off-policy IRL sử dụng ba mạng nơ-ron bao gồm, mạng nơ-ron critic xấp xỉ hàm chi phí, các mạng nơ-ron actor xấp xỉ các luật điều khiển cập nhật và luật nhiễu cập nhật của phương trình Bellman IRL (3.65). Nghĩa là V (i ),u ( i 1) và d(i 1) của phương trình (3.65) được xấp xỉ bởi ba mạng nơ-ron như sau: ()i T (i 1) T V ()()x W1 x ;u()() x W2 x (3.71) (i 1) T d()() x W3 x (3.73) Sau đó thay thế (3.71)-(3.73) vào (3.65) ta thu được: TT ()t W1 (e ( x ( t T )) ( x ( t ))) t T (τ t ) T ( i ) T ()i 2 (i) T () i e() xQR x u u d d dτ T t m t T (τ t ) T 1 (3.74) 2 a eW() x dτ l 2,l l l 1 t q t T 22e (τ t )WT ( x) 2 dτ 3,k k k 1 t Sử dụng phương pháp LS cho (3.74) như sau: W () HHT 1 HY (3.81) Thuật toán 3.3. Thuật toán off-policy IRL sử dụng NN Bước 1. Áp dụng luật điều khiển u vào hệ thống và thu thập thông tin hệ thống yêu cầu về trạng thái, tín hiệu điều khiển và nhiễu tại N 20
- khoảng thời gian trích mẫu khác nhau T. Khởi tạo giá trị W , gán i 0 . Bước 2. Từ các dữ liệu đươc cập nhật tại bước 1, tính toán các ma trận HY, . Từ các HY, tính toán được véc-tơ trọng số mạng nơ- ron: W(i ) () HH T 1 HY (3.54) Bước 3. Tính hàm chi phí V ()i mạng nơ-ron Critic (3.43), tính luật điều khiển u(i 1) và luật nhiễu d(i 1) từ mạng nơ-ron Actor (3.44), (3.45). Bước 4. Dừng nếu điều kiện dừng được thỏa mãn (i ) ( i 1) WW < W , ngược lại đặt i i 1 và chạy lại bước 2. Hình 3.1 Cấu trúc điều khiển tàu mặt nước ba bậc tự do sử dụng thuật toán off-policy IRL 3.2.4 Mô phỏng, so sánh và đánh giá Luận án thực hiện mô phỏng số trên phần mềm Matlab với mô hình tàu được thu nhỏ với tỷ lệ so với tàu thật 1:75. Khối lượng của tàu là m 21(kg) , chiều dài và chiều rộng tương ứng là 1.2(m) và 0.3(m) , với các tham số được tham khảo trong tài liệu [63]. 21
- Hình 3.2 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi không có nhiễu tác động Hình 3.1 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi chịu tác động của nhiễu hàm “1” Hình 3.10 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi chịu tác động của nhiễu hàm “2” Kết quả mô phỏng trên các hình 3.2, hình 3.6, hình 3.10 của bộ điều khiển AC-NNs và off-policy IRL. Kết quả cho thấy chất lượng bám quỹ đạo đặt của bộ điều khiển AC-NNs có chất lượng giảm dần khi chịu tác động của nhiễu, nguyên nhân do biên chặn của nhiễu tăng lên, miền hấp dẫn của các sai số tăng lên. Trong khi đó chất lượng bám quỹ đạo đặt của off-policy IRL vẫn đạt chất lượng tốt khi chịu ảnh hưởng của nhiễu đầu vào. 3.3 Kết luận chương 3 22
- Trong chương này luận án đã đề xuất cấu trúc điều khiển mới dựa trên giải thuật ADP với thuật toán off-policy IRL thiết kế cho hệ lái tàu thủy với mô hình bất định hoàn toàn và chịu tác động nhiễu đầu vào. Bộ điều khiển xấp xỉ tối ưu đảm bảo hệ thống hoạt động ổn định, bám theo được quỹ đạo đặt với sai số nhỏ và có khả năng làm suy giảm ảnh hưởng của nhiễu tác động vào hệ thống. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN ÁN Kết luận: Với đề tài “Xây dựng phương pháp điều khiển thích nghi trên nền tối ưu cho hệ lái tàu thủy”, luận án đã tập trung nghiên cứu mô hình động lực học của tàu nổi đủ cơ cấu chấp hành, nghiên cứu các phương pháp điều khiển hệ thống lái tàu tự động từ các công trình được công bố mới nhất trong và ngoài nước, phân tích ưu nhược điểm của các phương pháp điều khiển này để định hướng nghiên cứu cho luận án. Đó là nghiên cứu phát triển bộ điều khiển tối ưu bám quỹ đạo cho tàu nổi đủ cơ cấu chấp hành có mô hình bất định và chịu ảnh hưởng của nhiễu tác động không biết trước. Bộ điều tối ưu bám quỹ đạo đề xuất trong luận án được xây dựng và phát triển dựa trên giải thuật ADP để xác định nghiệm xấp xỉ tối ưu cho phương trình HJB, HJI kết hợp với các bộ ước lượng nhiễu để giải quyết vẫn đề bất định và nhiễu tác động không biết trước vào hệ thống. Khắc phục trở ngại kỹ thuật phát sinh khi tổng hợp bộ điều khiển tối ưu bám quỹ đạo dựa trên mô hình sai lệch, luận án đã đề xuất các hàm thay thế phù hợp để có thể xác định được lời giải tối ưu. Luận án đã đề xuất được ba bộ điều khiển tối ưu bám quỹ đạo cho hệ thống lái tàu nổi trên biển đủ cơ cấu chấp hành đó là: Bộ điều khiển tối ưu bám quỹ đạo cấu trúc AC-RISE, cấu trúc AC-DO và bộ điều khiển bám tối ưu bền vững dựa trên giải thuật off- policy IRL. Tính hội tụ của các trọng số của các mạng nơ ron sử dụng trong các bộ điều khiển này cũng như tính ổn định của hệ thống điều khiển kín được phân tích và chứng minh chặt chẽ dựa trên hàm Lyapunov và được phát biểu trong các định lý chính của luận án. Các đề xuất mới trong luận án cũng đã được công bố trên các tạp chí có uy tín trong và ngoài nước. Tóm lại, luận án có những đề xuất mới sau đây: 1. Đề xuất cấu trúc điều khiển tối ưu bám quỹ đạo cho hệ lái tàu thủy dựa trên giải thuật ADP với cấu trúc điều khiển là AC-NNs, critic NN dùng để xấp xỉ hàm chi phí tối ưu và actor NN xấp xỉ luật điều 23
- khiển tối ưu. Bộ điều khiển tối ưu kết hợp với các bộ ước lượng nhiễu cho hệ lái tàu thủy, có khả năng bù được những thành phần bất định trong mô hình tàu và nhiễu môi trường bên ngoài đảm bảo cho tàu bám quỹ đạo đặt trước và ổn định. Mặt khác, luận án đề xuất một phương pháp xác định hàm kích hoạt cho AC-NNs dựa trên lời giải của một trường hợp đặc biệt của bài toán điều khiển tối ưu. Tính ổn định của hệ thống được phát biểu thông qua định lý và chứng minh chặt chẽ về mặt phương pháp luận, mô phỏng kiểm chứng trên phần mềm Matlab. 2. Đề xuất cấu trúc điều khiển tối ưu bền vững bám quỹ đạo của hệ lái tàu thủy dựa trên giải thuật ADP với thuật toán off-policy IRL. Giải thuật ADP sử dụng ba NN để xấp xỉ hàm chi phí tối ưu, luật điều khiển tối ưu và luật nhiễu xấu nhất, luật cập nhật của trọng số của các NN cũng được thiết kế, cập nhật đồng thời liên tục trong cùng một bước lặp. Bộ điều khiển được đề xuất trong luận án không yêu cầu thông tin động học của hệ thống, đảm bảo tàu bám quỹ đạo đặt trước và ổn định. Luận án đã phát biểu và chứng minh một định lý về tính chất hội tụ của các thông số về giá trị cận tối ưu khi áp dụng thuật toán off-policy IRL, mô phỏng kiểm chứng trên phần mềm Matlab. Hướng phát triển của luận án: Trong phạm vi hạn hẹp của luận án, những kết quả trình bày trong luận án còn rất khiêm tốn và còn nhiều hướng đề nghị cần phát triển, cụ thể như sau: 1. Luận án chỉ mới tập trung nghiên cứu ứng dụng NN tuyến tính vào phương pháp quy hoạch động thích nghi, NN tuyến tính tuy phù hợp với phân tích toán học chặt chẽ nhưng khả năng xấp xỉ hàm yếu, cùng với vấn đề bùng nổ kích thước NN khi số lượng đầu vào mạng tăng. Do đó hướng phát triển tương lai của luận án là mở rộng giải thuật ADP với NN nhân tạo nhiều lớp thay thế NN tuyến tính, giúp giải thuật phù hợp hơn với bối cảnh thực tế. 2. Hạn chế của luận án là chưa được triển khai, kiểm chứng chất lượng bộ điều khiển ở trên môi trường thực và trên các mô hình tàu khác nhau. Vì vậy hướng phát triển tiếp theo của luận án triển khai thực nghiệm trên các mô hình tàu thật ở môi trường thực và phát triển thành những sản phẩm thương mại có ứng dụng cao trong thực tế. 24