تحليلات البيانات الضخمة باستخدام سبارك

The University of California, San Diego

تعلّم تحليل مجموعات بيانات ضخمة عبر دفاتر Jupyter ونموذج MapReduce ومنصة Apache Spark باستخدام PySpark.

10 ساعة/أسبوع10 أسبوعالإنجليزية60,398 متسجل

مجاني للتدقيق

عن الدورة

سيتم إيقاف هذا المقرر في 4 أبريل 2026. آخر يوم للتسجيل هو 2 فبراير 2026 عند الساعة 00:00 بالتوقيت العالمي UTC. هذا المقرر موجّه فقط للمتعلمين المسجلين في برنامج MicroMaster السابق في علم البيانات. في علم البيانات، تُسمّى البيانات «ضخمة» عندما لا يمكن احتواؤها داخل ذاكرة حاسوب محمول قياسي أو محطة عمل واحدة. لذلك يتطلب تحليل مجموعات البيانات الكبيرة استخدام عنقود (Cluster) مكوّن من عشرات أو مئات أو آلاف الحواسيب. وللاستفادة من هذه العناقيد بكفاءة، نحتاج إلى أنظمة ملفات موزعة مثل نظام ملفات هادوب الموزع (HDFS)، وإلى نماذج حوسبة مناسبة مثل Hadoop وMapReduce وSpark. في هذا المقرر، وهو جزء من برنامج MicroMasters في علم البيانات، ستتعرّف على مواطن الاختناق (Bottlenecks) في الحوسبة المتوازية واسعة النطاق، وكيفية استخدام Apache Spark لتقليل هذه الاختناقات وتحسين الأداء عند معالجة البيانات على نطاق كبير. كما ستتعلّم العمل على تحليل البيانات عبر بيئات عملية مثل دفاتر Jupyter، وفهم كيفية تنفيذ مهام المعالجة الموزعة وفق نماذج مثل MapReduce، ثم الانتقال إلى Spark كمنصة أكثر مرونة لمعالجة البيانات وبناء خطوط معالجة قابلة للتوسع. يتناول المقرر كذلك أساسيات تحميل البيانات وتنظيفها على نطاق واسع، والاستفادة من صيغ تخزين فعّالة مثل Parquet، ثم استخدام أساليب إحصائية وتعلّم آلي لنمذجة البيانات واستخلاص الرؤى منها ضمن بيئة Spark الموزعة.

ماذا ستتعلم

برمجة Apache Spark باستخدام PySpark
تحديد المفاضلات الحسابية (التنازلات) في تطبيقات Spark
تنفيذ تحميل البيانات وتنظيفها باستخدام Spark وصيغة Parquet
نمذجة البيانات باستخدام أساليب إحصائية وطرق التعلّم الآلي

المتطلبات المسبقة

إكمال المقررات السابقة في برنامج MicroMasters: DSE200x وDSE210x وDSE220x

المدرسون

Yoav Freund

Professor of Computer Science and Engineering

المواضيع

علم البيانات

MapReduce

Jupyter

تحليلات البيانات الضخمة

PySpark

معلومات الدورة

المنصةedX

المستوىمتقدم

طريقة التعلمغير محدد

شهادةمتاحة

السعرمجاني للتدقيق

المهارات

علم البيانات

MapReduce

Jupyter

تحليلات البيانات الضخمة

PySpark

Big Data

Machine Learning

Distributed File Systems

Hadoop Distributed File System (HDFS)

Apache Hadoop

ابدأ التعلم الآن