TrueschoTruescho
كل الدورات
تحليلات البيانات الضخمة باستخدام سبارك
edX
دورة
متقدم
مجاني للتدقيق
شهادة

تحليلات البيانات الضخمة باستخدام سبارك

The University of California, San Diego

تعلّم تحليل مجموعات بيانات ضخمة عبر دفاتر Jupyter ونموذج MapReduce ومنصة Apache Spark باستخدام PySpark.

10 ساعة/أسبوع10 أسبوعالإنجليزية60,398 متسجل
مجاني للتدقيق

عن الدورة

سيتم إيقاف هذا المقرر في 4 أبريل 2026. آخر يوم للتسجيل هو 2 فبراير 2026 عند الساعة 00:00 بالتوقيت العالمي UTC. هذا المقرر موجّه فقط للمتعلمين المسجلين في برنامج MicroMaster السابق في علم البيانات. في علم البيانات، تُسمّى البيانات «ضخمة» عندما لا يمكن احتواؤها داخل ذاكرة حاسوب محمول قياسي أو محطة عمل واحدة. لذلك يتطلب تحليل مجموعات البيانات الكبيرة استخدام عنقود (Cluster) مكوّن من عشرات أو مئات أو آلاف الحواسيب. وللاستفادة من هذه العناقيد بكفاءة، نحتاج إلى أنظمة ملفات موزعة مثل نظام ملفات هادوب الموزع (HDFS)، وإلى نماذج حوسبة مناسبة مثل Hadoop وMapReduce وSpark. في هذا المقرر، وهو جزء من برنامج MicroMasters في علم البيانات، ستتعرّف على مواطن الاختناق (Bottlenecks) في الحوسبة المتوازية واسعة النطاق، وكيفية استخدام Apache Spark لتقليل هذه الاختناقات وتحسين الأداء عند معالجة البيانات على نطاق كبير. كما ستتعلّم العمل على تحليل البيانات عبر بيئات عملية مثل دفاتر Jupyter، وفهم كيفية تنفيذ مهام المعالجة الموزعة وفق نماذج مثل MapReduce، ثم الانتقال إلى Spark كمنصة أكثر مرونة لمعالجة البيانات وبناء خطوط معالجة قابلة للتوسع. يتناول المقرر كذلك أساسيات تحميل البيانات وتنظيفها على نطاق واسع، والاستفادة من صيغ تخزين فعّالة مثل Parquet، ثم استخدام أساليب إحصائية وتعلّم آلي لنمذجة البيانات واستخلاص الرؤى منها ضمن بيئة Spark الموزعة.

ماذا ستتعلم

  • برمجة Apache Spark باستخدام PySpark
  • تحديد المفاضلات الحسابية (التنازلات) في تطبيقات Spark
  • تنفيذ تحميل البيانات وتنظيفها باستخدام Spark وصيغة Parquet
  • نمذجة البيانات باستخدام أساليب إحصائية وطرق التعلّم الآلي

المتطلبات المسبقة

  • إكمال المقررات السابقة في برنامج MicroMasters: DSE200x وDSE210x وDSE220x

المدرسون

Y

Yoav Freund

Professor of Computer Science and Engineering

المواضيع

علم البيانات
MapReduce
Jupyter
تحليلات البيانات الضخمة
PySpark

معلومات الدورة

المنصةedX
المستوىمتقدم
طريقة التعلمغير محدد
شهادةمتاحة
السعرمجاني للتدقيق

المهارات

علم البيانات
MapReduce
Jupyter
تحليلات البيانات الضخمة
PySpark
Big Data
Machine Learning
Distributed File Systems
Hadoop Distributed File System (HDFS)
Apache Hadoop

ابدأ التعلم الآن