
يركز هذا المساق على خوارزميات تتعلم سياسات قريبة من المثالية انطلاقًا من تجارب التفاعل مع البيئة دون الحاجة إلى معرفة مسبقة بديناميكياتها. يتم تغطية طرق مونتي كارلو البسيطة ولكن الفعالة، بالإضافة إلى طرق التعلم بالتفاوت الزمني مثل Q-learning. كما يبحث المساق في الجمع بين التخطيط القائم على النماذج والتحديثات بالتفاوت الزمني لتسريع التعلم بشكل كبير. يهتم المساق بتقديم أسس قوية لفهم ووظائف هذه الخوارزميات وتطبيقاتها في تعلم الآلة الذكي.
Martha White
Assistant Professor
Adam White
Assistant Professor