
في الجزء الثاني من سلسلة دورات Dataflow، سنتعمّق في تطوير خطوط الأنابيب (Pipelines) باستخدام حزمة تطوير Beam SDK. نبدأ بمراجعة مفاهيم Apache Beam الأساسية التي تُعد حجر الأساس لبناء حلول معالجة بيانات قابلة للتوسع والعمل عبر بيئات تشغيل مختلفة. بعد ذلك ننتقل إلى معالجة بيانات البث (Streaming) من خلال شرح مفاهيم النوافذ (Windows) والعلامات المائية (Watermarks) والمحفزات (Triggers)، وكيف تساعد هذه الآليات على تنظيم البيانات غير المحدودة زمنياً والتحكم في توقيت إخراج النتائج. ثم نغطي خيارات مصادر البيانات ووجهات الإخراج (Sources & Sinks) التي يمكن استخدامها داخل خطوط الأنابيب، وكيفية اختيارها وضبطها بما يتناسب مع احتياجاتك. كما نتناول استخدام المخططات (Schemas) للتعبير عن البيانات المهيكلة، بما يبسّط كتابة كود Beam ويحسّن أداء خط الأنابيب. بعد ذلك نتناول كيفية تنفيذ التحويلات ذات الحالة (Stateful Transformations) باستخدام واجهات برمجة التطبيقات State وTimer، لتمكين منطق يعتمد على حالة متراكمة أو على مؤقتات زمنية ضمن تدفقات البيانات. ننتقل أيضاً إلى مراجعة أفضل الممارسات التي تساعد على تعظيم أداء خطوط أنابيب Dataflow، من حيث الكفاءة والموثوقية وقابلية الصيانة. وفي نهاية الدورة، نقدّم SQL وDataFrames كطرق لتمثيل منطق الأعمال داخل Beam، ونوضح كيفية تطوير خطوط الأنابيب بشكل تكراري باستخدام دفاتر Beam (Beam notebooks).
Google Cloud Training
Course Team