أساسيات التعلم بالعينات

University of Alberta

تتعلم في هذا المساق عدة خوارزميات تعتمد على تجارب التفاعل مع البيئة لتحقيق سياسات قريبة من المثالية دون معرفة مسبقة بديناميكيات البيئة.

غير محدد5 أسبوعالإنجليزية38,204 متسجل

مجاني

عن الدورة

يركز هذا المساق على خوارزميات تتعلم سياسات قريبة من المثالية انطلاقًا من تجارب التفاعل مع البيئة دون الحاجة إلى معرفة مسبقة بديناميكياتها. يتم تغطية طرق مونتي كارلو البسيطة ولكن الفعالة، بالإضافة إلى طرق التعلم بالتفاوت الزمني مثل Q-learning. كما يبحث المساق في الجمع بين التخطيط القائم على النماذج والتحديثات بالتفاوت الزمني لتسريع التعلم بشكل كبير. يهتم المساق بتقديم أسس قوية لفهم ووظائف هذه الخوارزميات وتطبيقاتها في تعلم الآلة الذكي.

ماذا ستتعلم

فهم استراتيجيات التعلم بالتفاوت الزمني ومونتي كارلو لتقدير دوال القيمة من التجربة المأخوذة عيناتها
تحليل أهمية الاستكشاف عند استخدام التجربة بدلاً من التقييم الديناميكي للنموذج
تنفيذ وتطبيق خوارزمية التعلم بالتفاوت الزمني لتقدير دوال القيمة
تنفيذ وتطبيق طريقتي Expected Sarsa و Q-learning للتحكم
تمييز الفرق بين التحكم بالسياسة الحالية والتحكم بسياسة مختلفة

المتطلبات المسبقة

معرفة أساسية بالاحتمالات والتوقعات
جبر خطي أساسي
حساب تفاضلي وتكاملي أساسي

المدرسون

Martha White

Assistant Professor

Adam White

Assistant Professor

المواضيع

تعلم الآلة

علوم البيانات

الخوارزميات

علوم الحاسوب

الذكاء الاصطناعي

المحاكاة

الإحصاء

خوارزميات التعلم

معلومات الدورة

المنصةCoursera

المستوىغير محدد

طريقة التعلمغير محدد

السعرمجاني

المهارات