TrueschoTruescho
كل الدورات
علم البيانات: تهيئة البيانات
edX
دورة
مبتدئ
مجاني للتدقيق
شهادة

علم البيانات: تهيئة البيانات

Harvard University

تعلّم تهيئة البيانات الخام وتنظيفها وتحويلها في R إلى صيغ منظمة جاهزة للتحليل باستخدام tidyverse وdplyr.

1 ساعة/أسبوع8 أسبوعالإنجليزية108,331 متسجل
مجاني للتدقيق

عن الدورة

تُعد هذه الدورة جزءًا من برنامج الشهادة الاحترافية في علم البيانات، وتركّز على خطوات أساسية وشائعة في عملية «تهيئة البيانات» (Data Wrangling) التي يحتاجها محللو البيانات وعلماء البيانات لتحويل البيانات الخام إلى شكل مناسب للتحليل. تغطي الدورة مجموعة من المهارات العملية، مثل استيراد البيانات إلى لغة R، وتنظيمها وفق مبادئ «البيانات المرتبة» (Tidy Data)، ومعالجة السلاسل النصية، وتحليل صفحات HTML، والعمل مع التواريخ والأوقات، إضافة إلى التنقيب في النصوص. وعلى الرغم من أن تحليلًا واحدًا قد لا يتطلب جميع هذه الخطوات معًا، فإن عالم البيانات سيواجهها غالبًا في مراحل مختلفة من عمله. في مشاريع علم البيانات نادرًا ما تكون البيانات جاهزة وسهلة الوصول. غالبًا ما تأتي البيانات على هيئة ملفات أو قواعد بيانات، أو تُستخرج من مستندات مثل صفحات الويب، أو التغريدات، أو ملفات PDF. في مثل هذه الحالات، تكون الخطوة الأولى هي إدخال البيانات إلى R ثم تنظيفها وتنظيمها باستخدام حزمة tidyverse. تُسمّى الخطوات التي تُحوّل البيانات من شكلها الخام إلى الشكل المرتّب «تهيئة البيانات». ومن خلال أمثلة تطبيقية، ستتعلم كيف تجعل البيانات أكثر قابلية للفهم والمعالجة، وكيف تُسهّل عمليات التحليل اللاحقة عبر تنظيم الأعمدة والمتغيرات، واستخلاص المعلومات من النصوص، والتعامل مع تنسيقات الوقت والتاريخ، بما يهيئك للتعامل مع مصادر بيانات واقعية ومتنوعة.

ماذا ستتعلم

  • استيراد البيانات إلى R من تنسيقات ملفات مختلفة
  • استخلاص البيانات من الويب (Web Scraping)
  • تنظيم البيانات وترتيبها باستخدام tidyverse لتسهيل التحليل
  • معالجة النصوص باستخدام التعابير النمطية (Regex)
  • تهيئة البيانات باستخدام dplyr
  • التعامل مع التواريخ والأوقات وتنسيقاتها

المدرسون

R

Rafael Irizarry

Professor of Biostatistics

المواضيع

علم البيانات
لغة ترميز النص التشعبي (HTML)
تنقيب النصوص
صفحات الويب
التحليل (Parsing)

معلومات الدورة

المنصةedX
المستوىمبتدئ
طريقة التعلمغير محدد
شهادةمتاحة
السعرمجاني للتدقيق

المهارات

علم البيانات
لغة ترميز النص التشعبي (HTML)
تنقيب النصوص
صفحات الويب
التحليل (Parsing)
Data Wrangling

ابدأ التعلم الآن