أساسيات البيانات الضخمة وهادوب وسبارك

IBM

تعلّم أساسيات البيانات الضخمة وأدواتها مثل Hadoop وSpark عبر تطبيقات عملية لفهم المعالجة الموزعة وتحليل البيانات.

2 ساعة/أسبوع6 أسبوعالإنجليزية17,013 متسجل

مجاني للتدقيق

عن الدورة

تحتاج المؤسسات إلى ممارسين ماهرين ومتطلعين في مجال البيانات الضخمة، قادرين على توظيف مهاراتهم التجارية والتقنية للتعامل مع البيانات غير المهيكلة مثل التغريدات والمنشورات والصور والملفات الصوتية ومقاطع الفيديو وبيانات المستشعرات وصور الأقمار الصناعية وغيرها، بهدف تحديد سلوكيات وتفضيلات العملاء المحتملين والحاليين والمنافسين وغيرهم. تقدّم هذه الدورة مدخلاً إلى مفاهيم البيانات الضخمة وممارساتها. ستفهم خصائص البيانات الضخمة وسماتها وفوائدها وحدودها، كما ستستكشف بعض أدوات معالجة البيانات الضخمة الشائعة. وستتعرّف على كيفية مساهمة Hadoop وHive وSpark في مساعدة المؤسسات على تجاوز تحديات البيانات الضخمة والاستفادة من العوائد الناتجة عن جمعها واستخدامها. يمكّن Hadoop، وهو إطار عمل مفتوح المصدر، من المعالجة الموزعة لمجموعات بيانات كبيرة عبر عناقيد من الحواسيب باستخدام نماذج برمجة بسيطة. كما ستتعرّف خلال الدورة على مكوّنات منظومة Hadoop وتطبيقاتها، وعلى مفاهيم مثل نظام الملفات الموزع HDFS، وقواعد البيانات مثل HBase، وأطر المعالجة مثل MapReduce، وكيف يتكامل Spark مع هذه المنظومة لتسريع التحليلات ومعالجة البيانات على نطاق واسع. بالإضافة إلى ذلك، ستتعلّم أساسيات البرمجة في Spark، بما في ذلك مبادئ البرمجة المتوازية، والعمل مع DataFrames ومجموعات البيانات وSparkSQL. كما ستفهم كيف يستخدم Spark مفهوم RDDs لإنشاء مجموعات البيانات، وكيف تساعد تقنيات التحسين مثل Catalyst وTungsten في تحسين أداء SparkSQL، إلى جانب استعراض خيارات بيئات التطوير والتشغيل الخاصة بـ Apache Spark وتطبيقها عملياً.

ماذا ستتعلم

وصف البيانات الضخمة وتأثيرها وطرق معالجتها وأدواتها وحالات استخدامها.
وصف معمارية Hadoop ومنظومته وممارساته وتطبيقاته، بما في ذلك نظام الملفات الموزع (HDFS) وHBase وSpark وMapReduce.
وصف أساسيات البرمجة في Spark، بما في ذلك مبادئ البرمجة المتوازية، للعمل مع DataFrames ومجموعات البيانات وSparkSQL.
شرح كيفية استخدام Spark لـ RDDs وإنشاء مجموعات البيانات، وكيفية استخدام Catalyst وTungsten لتحسين أداء SparkSQL.
تطبيق خيارات بيئات التطوير وبيئات التشغيل الخاصة بـ Apache Spark.

المتطلبات المسبقة

إلمام أساسي بالحاسوب وتقنية المعلومات.
فضول لمعرفة كيفية إدارة البيانات.

المدرسون

Karthik Muthuraman

Software Engineer (Machine Learning)

Aije Egwaikhide

Senior Data Scientist

المواضيع

مستودعات البيانات

أباتشي سبارك

أنظمة الملفات

المعالجة المتوازية

صور الأقمار الصناعية

معلومات الدورة

المنصةedX

المستوىمبتدئ

طريقة التعلمغير محدد

شهادةمتاحة

السعرمجاني للتدقيق

المهارات

مستودعات البيانات

أباتشي سبارك

أنظمة الملفات

المعالجة المتوازية

صور الأقمار الصناعية

Nodes (Networking)

Apache Hadoop

Apache Hive

Unstructured Data

Analytical Skills

ابدأ التعلم الآن