هندسة البيانات بمجمعات Apache Spark في Azure Synapse

Microsoft

تعلّم استخدام Apache Spark داخل Azure Synapse لإنشاء وإدارة مجمعات Spark ومعالجة البيانات وتحويلها وبناء سير عمل هندسة بيانات عملي على Azure.

1 ساعة/أسبوع1 أسبوعالإنجليزية167 متسجل

مجاني للتدقيق

عن الدورة

تقدّم هذه الدورة تدريباً عملياً على هندسة البيانات باستخدام Apache Spark ضمن بيئة Azure Synapse Analytics، مع التعرّف على Delta Lake وأساليب تصور البيانات. ستتعلّم إتقان الميزات والقدرات الأساسية لـ Apache Spark لمعالجة البيانات والتحليلات على نطاق واسع داخل Azure Synapse، بدءاً من إعداد مجمعات Spark (Spark pools) وتهيئتها، وصولاً إلى تشغيل الشيفرة عبر دفاتر الملاحظات (Notebooks) لتنفيذ مهام التحميل والتحليل والتصور. ستركّز الدورة على كيفية العمل مع بيانات مخزّنة في بحيرة بيانات (Data Lake)، وكيفية قراءة البيانات ومعالجتها وتحويلها لدعم خطوط البيانات (Pipelines) وسير العمل الهندسي داخل بيئة Azure السحابية. كما ستفهم طريقة عمل Spark في بيئة موزّعة، وكيف يوزّع المهام على العُقد لتنفيذ المعالجة بكفاءة. ستتدرّب على استخدام DataFrames وSpark SQL لإجراء عمليات التلاعب بالبيانات مثل التنقية، والتحويل، والتجميع، والاستعلام، بما يخدم سيناريوهات هندسة البيانات اليومية. كذلك ستتعرّف على Delta Lake بوصفه طبقة تخزين مفتوحة المصدر تضيف معاملات ACID إلى Apache Spark، ما يرفع موثوقية البيانات وجودتها في بحيرات البيانات. وأخيراً، ستتعلّم إنشاء جداول Delta Lake واستخدامها، بما في ذلك تحديث البيانات وإجراء الاستعلامات على الإصدارات السابقة من البيانات (Time Travel) لدعم التتبع والتدقيق واسترجاع الحالات السابقة عند الحاجة.

ماذا ستتعلم

استخدام Apache Spark داخل Azure Synapse Analytics لتنفيذ مهام هندسة البيانات
إتقان الميزات الأساسية لـ Apache Spark لمعالجة البيانات على نطاق واسع
تهيئة مجمعات Spark واستخدام دفاتر الملاحظات لتشغيل الشيفرة
فهم كيفية عمل Spark في بيئة موزعة
استخدام DataFrames وSpark SQL لمعالجة البيانات والتلاعب بها
إنشاء جداول Delta Lake واستخدامها بما في ذلك التحديث والاستعلام

المواضيع

Apache Parquet

بحيرات البيانات

إدارة سير العمل

SQL

Python

معلومات الدورة

المنصةedX

المستوىمتوسط

طريقة التعلمغير محدد

شهادةمتاحة

السعرمجاني للتدقيق

المهارات

Apache Parquet

بحيرات البيانات

إدارة سير العمل

SQL

Python

Microsoft Azure

Synapse Citrix

Swimming Pool Maintenance

Apache Spark

Data Engineering

ابدأ التعلم الآن