دانلود پروژه مطالعاتی درس یادگیری ماشین

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

 
چکیده :
حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف  ، از خود نشان می دهند.آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند.آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.
 

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

با ناظر
بی ناظر
تقویتی
 
در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود.در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا ... بازسازی کند.و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.
 
 
 
کلمات کلیدی:

یادگیری ماشین

یادگیری تقویتی

الگوریتم های یادگیری

مسائل یادگیری تقویتی

 
 
 
مقدمه:
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را بری رسیدن به هدف انتخاب نمید
 
یادگیری تقویتی از ینرو مورد توجه است که راهی بری آموزش عاملها بری انجام یک عمل  از طریق دادن پاداش و تنبیه است
 بدون ینکه لازم باشد نحوه انجام عمل را بری عامل مشخص نمائیم. 
دو استراتژی اصلی بری ینکار وجود دارد: 
1.یکی استفاده از الگوریتم هی ژنتیکی 
2.و دیگری استفاده از روشهی آماری و dynamic programming 
محیط مجموعه ی از S حالت ممکن است.
در هر لحظه t  عامل میتواند یکی از A  عمل ممکن را انجام دهد. 
عامل  ممکن است در مقابل عمل و یا مجموعه ی از اعمالی که انجام میدهد  پاداش   r را دریافت کند. ین پاداش ممکن است مثبت  و یا منفی )تنبیه(باشد 
 
عامل در محیط حرکت کرده و حالتها و پاداشهی مربوطه را به خاطر می سپارد. 
عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نمید. 
 
پاداش Rt مجموع پاداشی است که  عامل با گذشت زمانt جمع کرده است. 
 
 
 
 
 
 
فهرست مطالب

معرفی یادگیری تقویتی 

برنامه نویسی پویا 

اجزا یک سیستم یادگیری تقویتی 

o محیط 
o تابع پاداش 
o تابع مقدار 
Q-Learning 
o معرفی 
o الگوریتم یادگیری 
o مثالی از یک عامل 
o اثبات همگرایی 
o یادگیری Q برای MDP غیرقطعی 

روش های مونت کارلو در یادگیری تقویتی 

o ویژگیها 

o سیاست first visit MC 

o کنترل مونت کارلو 

o همگرایی مونت کارلو 

o on line policy و off line policy 
منابع