
تقدم هذه الدورة مقدمة منهجية في اتخاذ القرارات المتسلسلة وتعلم التعزيز. تبدأ بشرح نظرية المنفعة وكيفية تمثيل وتحديد التفضيلات لاتخاذ القرارات بشكل منهجي. صُممت الدورة لتغطية نمذجة مشاكل اتخاذ القرار البسيطة باستخدام مشاكل الآلات ذات الأذرع المتعددة، مع مناقشة أساليب تقييم ملاحظات الأداء. ثم تنتقل إلى نمذجة المشاكل باستخدام عمليات ماركوف للقرارات (MDPs) وكيفية حلها من خلال خوارزميات البرمجة الديناميكية. كما تغطي الدورة تطبيقات أولية للتعلم التعزيزي باستخدام أساليب مثل مونت كارلو وطريقة الفرق الزمني، مع التركيز على الجوانب العملية لتحسين اتخاذ القرار في الأنظمة الذكية.
Tony Dear
Computer Science