TrueschoTruescho
كل الدورات
هندسة البيانات بمجمعات Apache Spark في Azure Synapse
edX
دورة
متوسط
مجاني للتدقيق
شهادة

هندسة البيانات بمجمعات Apache Spark في Azure Synapse

Microsoft

تعلّم استخدام Apache Spark داخل Azure Synapse لإنشاء وإدارة مجمعات Spark ومعالجة البيانات وتحويلها وبناء سير عمل هندسة بيانات عملي على Azure.

1 ساعة/أسبوع1 أسبوعالإنجليزية167 متسجل
مجاني للتدقيق

عن الدورة

تقدّم هذه الدورة تدريباً عملياً على هندسة البيانات باستخدام Apache Spark ضمن بيئة Azure Synapse Analytics، مع التعرّف على Delta Lake وأساليب تصور البيانات. ستتعلّم إتقان الميزات والقدرات الأساسية لـ Apache Spark لمعالجة البيانات والتحليلات على نطاق واسع داخل Azure Synapse، بدءاً من إعداد مجمعات Spark (Spark pools) وتهيئتها، وصولاً إلى تشغيل الشيفرة عبر دفاتر الملاحظات (Notebooks) لتنفيذ مهام التحميل والتحليل والتصور. ستركّز الدورة على كيفية العمل مع بيانات مخزّنة في بحيرة بيانات (Data Lake)، وكيفية قراءة البيانات ومعالجتها وتحويلها لدعم خطوط البيانات (Pipelines) وسير العمل الهندسي داخل بيئة Azure السحابية. كما ستفهم طريقة عمل Spark في بيئة موزّعة، وكيف يوزّع المهام على العُقد لتنفيذ المعالجة بكفاءة. ستتدرّب على استخدام DataFrames وSpark SQL لإجراء عمليات التلاعب بالبيانات مثل التنقية، والتحويل، والتجميع، والاستعلام، بما يخدم سيناريوهات هندسة البيانات اليومية. كذلك ستتعرّف على Delta Lake بوصفه طبقة تخزين مفتوحة المصدر تضيف معاملات ACID إلى Apache Spark، ما يرفع موثوقية البيانات وجودتها في بحيرات البيانات. وأخيراً، ستتعلّم إنشاء جداول Delta Lake واستخدامها، بما في ذلك تحديث البيانات وإجراء الاستعلامات على الإصدارات السابقة من البيانات (Time Travel) لدعم التتبع والتدقيق واسترجاع الحالات السابقة عند الحاجة.

ماذا ستتعلم

  • استخدام Apache Spark داخل Azure Synapse Analytics لتنفيذ مهام هندسة البيانات
  • إتقان الميزات الأساسية لـ Apache Spark لمعالجة البيانات على نطاق واسع
  • تهيئة مجمعات Spark واستخدام دفاتر الملاحظات لتشغيل الشيفرة
  • فهم كيفية عمل Spark في بيئة موزعة
  • استخدام DataFrames وSpark SQL لمعالجة البيانات والتلاعب بها
  • إنشاء جداول Delta Lake واستخدامها بما في ذلك التحديث والاستعلام

المواضيع

Apache Parquet
بحيرات البيانات
إدارة سير العمل
SQL
Python

معلومات الدورة

المنصةedX
المستوىمتوسط
طريقة التعلمغير محدد
شهادةمتاحة
السعرمجاني للتدقيق

المهارات

Apache Parquet
بحيرات البيانات
إدارة سير العمل
SQL
Python
Microsoft Azure
Synapse Citrix
Swimming Pool Maintenance
Apache Spark
Data Engineering

ابدأ التعلم الآن