
العمل مع بيانات العالم الحقيقي يعني التعامل مع ملفات غير متسقة، أعمدة ناقصة، قيم غريبة، وتنسيقات متعددة. في هذا المقرر ستتعلم كيف تستورد البيانات إلى R ثم تنظفها وتعيد تنظيمها لتصبح جاهزة للتحليل أو التصور أو النمذجة. ستستخدم أدوات Tidyverse مثل dplyr وtidyr لبناء خطوات واضحة وقابلة للتكرار: اختيار الأعمدة، إنشاء أعمدة جديدة، معالجة القيم المفقودة، وتحويل البيانات بين الشكلين العريض والطويل حسب الحاجة. ستتدرب على دمج مجموعات بيانات عبر عمليات join، وإعادة تشكيل البيانات (pivot) لبناء جداول تحليلية سليمة. يغطي المقرر أيضا بناء خطوط بيانات (Pipelines) فعّالة تساعد على إنتاج عمل قابل لإعادة الإنتاج ومراجعة الخطوات بسهولة. إضافة إلى ذلك، ستتعرف على مبادئ جمع البيانات من الويب عبر scraping بشكل أساسي، مع التركيز على الاعتبارات الأخلاقية والقانونية: ما الذي يجوز جمعه، وكيف توثق المصدر، وكيف تحمي الخصوصية. بنهاية المقرر ستكون قادرا على تحويل بيانات فوضوية إلى بيانات مرتبة تتبع مبادئ “البيانات المُنظّمة”، وتكتب كودا واضحا يمكن مشاركته وتشغيله لاحقا دون مفاجآت.
Dr. Elijah Meyer
Mine Ãetinkaya-Rundel
Department of Statistical Science