Abstract
In ordinary reinforcement learning algorithms, a single agent learns to achieve a goal through many episodes. If a learning problem is complicated, it may take much computation time to acquire the optimal policy. Meanwhile, for optimization problems, population-based methods such as particle swarm optimization have been recognized that they are able to find rapidly the global optimal solution for multi-modal functions with wide solution space. We recently proposed reinforcement learning algorithms in which multiple agents are prepared and they learn through not only their respective experiences but also exchanging information among them. In these algorithms, it is important how to design a method of exchanging the information. This paper proposes some methods of exchanging the information based on the update equations of particle swarm optimization. The proposed algorithms using these methods are applied to a shortest path problem, and their performance is compared through numerical experiments
چکیده
در الگوریتم های یادگیری تقویتی معمول، یک عامل تکی اقدام به یادگیری نموده تا از طریق اپیزود های (بخش ها) زیاد به یک هدف دست پیدا نماید. در صورتی که مسئله ی یادگیری پیچیده باشد، ممکن است به زمان محاسباتی زیادی به منظور به دست آوردن یک سیاست بهینه نیاز بوده و در عین حال به منظور بهینه سازی مسائل، روش های مبتنی بر جمعیت، مانند بهینه سازی ازدحام ذرات را باید تشخیص داد به طوری که بتوانند راه کار سراسری بهینه ای را برای توابع چند مدله و آنهم با فضای راهحل گسترده پیدا نمایند. اخیراً، ما اقدام به ارائه ی الگوریتم های یادگیری تقویتی نموده ایم که در آن، از چندین عامل استفاده شده است و این عوامل، نه تنها از طریق تجارب گذشته، بلکه از طریق مبادله ی اطلاعات در بین خودشان به یادگیری می پردازند. در این الگوریتم ها، چگونگی طراحی یک مدل برای مبادله ی اطلاعات ضروری می باشد. در این مقاله، روش هایی را برای مبادله ی اطلاعات و آن هم بر مبنای معادلات بروز رسانی در بهینه سازی ازدحام ذرات ارائه می دهیم. الگوریتم های پیشنهادی که از این متدها استفاده می کنند بر روی مسئله ی کوتاه ترین مسیر بکار گرفته شده و کارائی آن ها به وسیله ی تجارب عددی مورد مقایسه قرار می گیرد.
1-مقدمه
در الگوریتم های یادگیری تقویتی معمول، یک عامل تکی اقدام به یادگیری نموده تا از طریق اپیزود های (بخش ها) زیاد به یک هدف دست پیدا نماید. در صورتی که مسئلهی یادگیری پیچیده باشد، ممکن است به زمان محاسباتی زیادی به منظور به دست آوردن یک سیاست بهینه نیاز می باشد. ضمناً به منظور بهینه سازی مسائل، روش های مبتنی بر جمعتی، مانند الگوریتم های ژنتیک و بهینه سازی ازدحام ذرات [2] می توانند راهکار های بهینه ی سراسری را به شکلی سریع برای توابع چند مدله و آن هم در یک فضای راه کار گسترده پیدا کنند. انتظار می رود که با معرفی مفهوم روش های مبتنی بر جمعیت در داخل الگوریتم های یادگیری تقویتی، سیاست های بهینه ای را بتوان سریعاً پیدا کرد...