مقايسة اتوماتون هاي يادگير و شبكه هاي عصبي براي كنترل تطبيقي و توزيع شدة زنجيره هاي ماركف

در اين مقاله براي حل مسألة فرآيند تصميمگيري ماركف) (MDP1يا زنجيرههاي ماركف كنترلشده ،٢از ميان روشهاي جديد، براي اولين بار، دو روش مبتني بر LA3و NN4با هم مقايسه شده است. نتايج آزمايشها نشان ميدهد كه LAسريعتر از ، NNسياست بهينه را پيدا ميكند)حتي با نرخ يادگيري كمتر( و علاوه بر اين LAسياست بهينة سراسري را بدست ميآورد، ولي NNسياست بهينه را تقريب ميزند. همچنين براي كنترل زنجيرههاي ماركف در محيطهاي غير ايستان ٥با ساختار پاداش متغير با زمان، از معيار متوسطِ پاداشِ زمان ـ كوتاه ٦استفاده شده است كه منجر به سريعتر شدن همگرايي MDPبه سياست بهينه ميگردد. سرعت و كارآيي ، LA تضمين همگرايي LAبه بهينه سراسري، محاسبات محدود و برتري آن نسبت به NNو روشهاي كلاسيك)با محاسبات بالا( نشان ميدهد كه LAابزاري بسيار توانا براي كنترل تطبيقيِ زنجيرههاي ماركف در محيطهاي ايستان و غير ايستان ميباشد. ضمنا روشهاي مذكور نيازي به دانستن ساختار انتقال حالت و ساختار پاداش در فرآيند ماركف ندارند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *