
تحتاج المؤسسات إلى ممارسين ماهرين ومتطلعين في مجال البيانات الضخمة، قادرين على توظيف مهاراتهم التجارية والتقنية للتعامل مع البيانات غير المهيكلة مثل التغريدات والمنشورات والصور والملفات الصوتية ومقاطع الفيديو وبيانات المستشعرات وصور الأقمار الصناعية وغيرها، بهدف تحديد سلوكيات وتفضيلات العملاء المحتملين والحاليين والمنافسين وغيرهم. تقدّم هذه الدورة مدخلاً إلى مفاهيم البيانات الضخمة وممارساتها. ستفهم خصائص البيانات الضخمة وسماتها وفوائدها وحدودها، كما ستستكشف بعض أدوات معالجة البيانات الضخمة الشائعة. وستتعرّف على كيفية مساهمة Hadoop وHive وSpark في مساعدة المؤسسات على تجاوز تحديات البيانات الضخمة والاستفادة من العوائد الناتجة عن جمعها واستخدامها. يمكّن Hadoop، وهو إطار عمل مفتوح المصدر، من المعالجة الموزعة لمجموعات بيانات كبيرة عبر عناقيد من الحواسيب باستخدام نماذج برمجة بسيطة. كما ستتعرّف خلال الدورة على مكوّنات منظومة Hadoop وتطبيقاتها، وعلى مفاهيم مثل نظام الملفات الموزع HDFS، وقواعد البيانات مثل HBase، وأطر المعالجة مثل MapReduce، وكيف يتكامل Spark مع هذه المنظومة لتسريع التحليلات ومعالجة البيانات على نطاق واسع. بالإضافة إلى ذلك، ستتعلّم أساسيات البرمجة في Spark، بما في ذلك مبادئ البرمجة المتوازية، والعمل مع DataFrames ومجموعات البيانات وSparkSQL. كما ستفهم كيف يستخدم Spark مفهوم RDDs لإنشاء مجموعات البيانات، وكيف تساعد تقنيات التحسين مثل Catalyst وTungsten في تحسين أداء SparkSQL، إلى جانب استعراض خيارات بيئات التطوير والتشغيل الخاصة بـ Apache Spark وتطبيقها عملياً.
Karthik Muthuraman
Software Engineer (Machine Learning)
Aije Egwaikhide
Senior Data Scientist