Abstract
In this paper, a value-iteration based heuristic dynamic programming (HDP) algorithm is developed to solve the optimal control for the continuous time affine nonlinear systems. First, a rigorous convergence proof of the HDP algorithm is given. Second, stability issues of the HDP algorithm for nonlinear systems are investigated. It is commonly believed that the main drawback of the HDP algorithm is that only the limit function of the iterative control sequence is proved to be stabilized, thus infinite iterations are executed. To confront this problem, we present a novel stability result for the HDP algorithm, which indicates that the resulting iterative control laws after finite iterations can guarantee the closed-loop stability. A similar stability result is also obtained for the discrete time nonlinear systems. Therefore, the practicality of the HDP algorithm is greatly improved. Single neural network (NN) structure is employed to implement the algorithm. It should be pointed that the algorithm can be implemented without knowing the internal dynamics of the systems. Finally, two numerical examples are given to demonstrate the effectiveness of the developed methods
چکیده
در این مقاله قصد داریم به توسعهی یک الگوریتم برنامهنویسی پویای هیروستیک(HDP) مبتنی بر ارزش-تکرار بپردازیم، با این هدف که بتوان مسئلهی کنترل بهینه را برای سیستمهای غیرخطی تکراری ازنظر زمانی حل کرد. در ابتدا، یک اثبات همگرایی دقیقی از الگوریتم HDP را ارائه خواهیم داد. دوم، مباحث پایداری مربوط به الگوریتم HDP برای سیستمهای غیرخطی را نیز موردبررسی قرار خواهیم داد. اعتقاد بر آن است که عیب اصلی الگوریتم HDP این بوده که فقط تابع محدودی از دنباله کنترل تکراری میتواند تثبیت گردد، و بنابراین تکرارهای نامحدود مورداجرا قرار خواهند گرفت. بهمنظور تصدیق این مسئله، یک نتیجهی پایداری جدیدی را برای الگوریتم HDP ارائه خواهیم داد که نشان میدهد که قوانین کنترل تکراری حاصله در پس از تکرارهای محدود میتواند پایداری حلقه بسته را تضمین سازد. یک نتیجهی پایداری مشابهی نیز برای سیستمهای غیرخطی گسسته زمانی بهدستآمده است. بنابراین، کاربرد الگوریتم HDP در سطح زیادی بهبود پیدا میکند. ساختار شبکهی عصبی منفرد (NN) نیز بهمنظور پیادهسازی الگوریتم بکار گرفتهشده است. باید خاطرنشان کرد که این الگوریتم را میتواند بدون دانستن پویاییهای داخلی مربوط به سیستمها پیادهسازی کرد. درنهایت، نتایج عددی بهمنظور اثبات بهرهوری متدهایی که توسعه دادهایم ارائه خواهد شد.
1-مقدمه
یکی از اصول اولیهی طراحی در طراحی کنترل بازخورد، این بوده که باید پایداری حلقه بستهی سیستمهای غیرخطی را تضمین کرد. هدف کنترل بهینهاین بوده که یک قانون کنترل بازخوردی را طراحی سازد که نهتنها پایداری حلقه بستهی سیستم را تضمین میسازد، بلکه بتواند از روش بهینهای بر اساس یک شاخص کارائی کلی تبعیت کند. در دههی خیر، فعالیتهایی در خصوص کنترل بهینگی در سیستمهای غیرخطی صورت گرفته است. برنامهنویسی پویا[1] که یک متد قدرتمندی در این خصوص میباشد، در سطح زیادی بهمنظور ایجاد کنترل بهینگی برای سیستمهای غیرخطی بکار گرفتهشده است. اگرچه یکی از معایب عمدهی این روش، هزینهی محاسباتی آن بوده که با افزایش بعد سیستمهای غیرخطی، افزایش پیدا میکند و آن را جریان بعدیت نامگذاری میکنند. متدهای برنامهنویسی پویای تخمینی(ADP) نیز به این مشکل پاسخ داده است. متفاوت از متدهای DP، ADP میتواند مسائل کنترل بهینگی را با گذر زمان حل سازد...