تنظيف البيانات واستيرادها باستخدام آر

Duke University

ابنِ ثقة في التعامل مع البيانات الفوضوية عبر استيرادها وتنظيفها وتنظيمها في R باستخدام أدوات Tidyverse وخطوط عمل قابلة للإعادة.

غير محدد3 أسبوع

مجاني

عن الدورة

العمل مع بيانات العالم الحقيقي يعني التعامل مع ملفات غير متسقة، أعمدة ناقصة، قيم غريبة، وتنسيقات متعددة. في هذا المقرر ستتعلم كيف تستورد البيانات إلى R ثم تنظفها وتعيد تنظيمها لتصبح جاهزة للتحليل أو التصور أو النمذجة. ستستخدم أدوات Tidyverse مثل dplyr وtidyr لبناء خطوات واضحة وقابلة للتكرار: اختيار الأعمدة، إنشاء أعمدة جديدة، معالجة القيم المفقودة، وتحويل البيانات بين الشكلين العريض والطويل حسب الحاجة. ستتدرب على دمج مجموعات بيانات عبر عمليات join، وإعادة تشكيل البيانات (pivot) لبناء جداول تحليلية سليمة. يغطي المقرر أيضا بناء خطوط بيانات (Pipelines) فعّالة تساعد على إنتاج عمل قابل لإعادة الإنتاج ومراجعة الخطوات بسهولة. إضافة إلى ذلك، ستتعرف على مبادئ جمع البيانات من الويب عبر scraping بشكل أساسي، مع التركيز على الاعتبارات الأخلاقية والقانونية: ما الذي يجوز جمعه، وكيف توثق المصدر، وكيف تحمي الخصوصية. بنهاية المقرر ستكون قادرا على تحويل بيانات فوضوية إلى بيانات مرتبة تتبع مبادئ “البيانات المُنظّمة”، وتكتب كودا واضحا يمكن مشاركته وتشغيله لاحقا دون مفاجآت.

ماذا ستتعلم

تطبيق مبادئ البيانات المرتبة لإعادة هيكلة البيانات وتحويلها بين العريض والطويل
دمج مجموعات بيانات وكتابة كود لجمع بيانات أساسية من الويب عند الحاجة
استخدام التحويل بين تنسيقات البيانات كجزء من التحضير للتحليل والتصور

المدرسون

Dr. Elijah Meyer

Mine Ãetinkaya-Rundel

Department of Statistical Science

المواضيع

Tidyverse

تنظيف بيانات

تحويل بيانات

دمج بيانات

Web Scraping

أخلاقيات البيانات

خطوط بيانات

معلومات الدورة

المنصةCoursera

المستوىغير محدد

طريقة التعلمغير محدد

السعرمجاني

المهارات