
أتقِن هندسة البيانات على منصة Databricks Lakehouse الموحّدة، وتعلّم كيف تبني حلولاً حديثة وموثوقة لمعالجة البيانات على نطاق واسع. ستتعرّف على بنية Databricks وكيفية إدارة العناقيد (Clusters) وتشغيل أحمال العمل المختلفة بكفاءة، مع الاستفادة من دفاتر الملاحظات (Notebooks) للتحليل والاستكشاف. ستركّز الدورة على بناء خطوط ETL قوية باستخدام Delta Lake لتنفيذ تحويلات البيانات وضمان الاعتمادية، مع تطبيق تقنيات معالجة متقدمة عبر Apache Spark. ستتعلّم كيفية إنشاء عناقيد Databricks وتوسيعها لتناسب متطلبات الأداء، وكيفية تحميل البيانات من مصادر متنوعة إلى دفاتر الملاحظات، ثم استكشافها وتصويرها بصرياً وتحليل خصائصها (Profiling) لفهم الجودة والبنية. تغطي الدورة أيضاً التحكم بالإصدارات ومشاركة الدفاتر عبر التكامل مع Git، وقراءة البيانات وإدخالها بصيغ ملفات متعددة، وتنفيذ التحويلات باستخدام SQL وعمليات DataFrame. كما ستتعامل مع أنواع بيانات معقدة مثل المصفوفات (Arrays) والبُنى (Structs) والطوابع الزمنية (Timestamps)، وتطبّق عمليات إزالة التكرار والربط (Join) وتسطيح البنى المتداخلة (Flattening). بالإضافة إلى ذلك، ستتعلّم كيفية اكتشاف مشكلات جودة البيانات وإصلاحها باستخدام الدوال المعرفة من المستخدم (UDFs)، ثم تحميل البيانات المنقّاة إلى Delta Lake لضمان إدارة بيانات أكثر موثوقية وقابلية للتتبع. في النهاية، ستكتسب مهارات عملية لبناء حلول جاهزة للإنتاج في بيئات هندسة البيانات على Databricks.
Noah Gift
Executive in Residence and Founder of Pragmatic AI Labs
Alfredo Deza
Adjunct Assistant Professor in the Pratt School of Engineering