
سيتم إيقاف هذا المقرر في 4 أبريل 2026. آخر يوم للتسجيل هو 2 فبراير 2026 عند الساعة 00:00 بالتوقيت العالمي UTC. هذا المقرر موجّه فقط للمتعلمين المسجلين في برنامج MicroMaster السابق في علم البيانات. في علم البيانات، تُسمّى البيانات «ضخمة» عندما لا يمكن احتواؤها داخل ذاكرة حاسوب محمول قياسي أو محطة عمل واحدة. لذلك يتطلب تحليل مجموعات البيانات الكبيرة استخدام عنقود (Cluster) مكوّن من عشرات أو مئات أو آلاف الحواسيب. وللاستفادة من هذه العناقيد بكفاءة، نحتاج إلى أنظمة ملفات موزعة مثل نظام ملفات هادوب الموزع (HDFS)، وإلى نماذج حوسبة مناسبة مثل Hadoop وMapReduce وSpark. في هذا المقرر، وهو جزء من برنامج MicroMasters في علم البيانات، ستتعرّف على مواطن الاختناق (Bottlenecks) في الحوسبة المتوازية واسعة النطاق، وكيفية استخدام Apache Spark لتقليل هذه الاختناقات وتحسين الأداء عند معالجة البيانات على نطاق كبير. كما ستتعلّم العمل على تحليل البيانات عبر بيئات عملية مثل دفاتر Jupyter، وفهم كيفية تنفيذ مهام المعالجة الموزعة وفق نماذج مثل MapReduce، ثم الانتقال إلى Spark كمنصة أكثر مرونة لمعالجة البيانات وبناء خطوط معالجة قابلة للتوسع. يتناول المقرر كذلك أساسيات تحميل البيانات وتنظيفها على نطاق واسع، والاستفادة من صيغ تخزين فعّالة مثل Parquet، ثم استخدام أساليب إحصائية وتعلّم آلي لنمذجة البيانات واستخلاص الرؤى منها ضمن بيئة Spark الموزعة.
Yoav Freund
Professor of Computer Science and Engineering