
تُعد هذه الدورة جزءًا من برنامج الشهادة الاحترافية في علم البيانات، وتركّز على خطوات أساسية وشائعة في عملية «تهيئة البيانات» (Data Wrangling) التي يحتاجها محللو البيانات وعلماء البيانات لتحويل البيانات الخام إلى شكل مناسب للتحليل. تغطي الدورة مجموعة من المهارات العملية، مثل استيراد البيانات إلى لغة R، وتنظيمها وفق مبادئ «البيانات المرتبة» (Tidy Data)، ومعالجة السلاسل النصية، وتحليل صفحات HTML، والعمل مع التواريخ والأوقات، إضافة إلى التنقيب في النصوص. وعلى الرغم من أن تحليلًا واحدًا قد لا يتطلب جميع هذه الخطوات معًا، فإن عالم البيانات سيواجهها غالبًا في مراحل مختلفة من عمله. في مشاريع علم البيانات نادرًا ما تكون البيانات جاهزة وسهلة الوصول. غالبًا ما تأتي البيانات على هيئة ملفات أو قواعد بيانات، أو تُستخرج من مستندات مثل صفحات الويب، أو التغريدات، أو ملفات PDF. في مثل هذه الحالات، تكون الخطوة الأولى هي إدخال البيانات إلى R ثم تنظيفها وتنظيمها باستخدام حزمة tidyverse. تُسمّى الخطوات التي تُحوّل البيانات من شكلها الخام إلى الشكل المرتّب «تهيئة البيانات». ومن خلال أمثلة تطبيقية، ستتعلم كيف تجعل البيانات أكثر قابلية للفهم والمعالجة، وكيف تُسهّل عمليات التحليل اللاحقة عبر تنظيم الأعمدة والمتغيرات، واستخلاص المعلومات من النصوص، والتعامل مع تنسيقات الوقت والتاريخ، بما يهيئك للتعامل مع مصادر بيانات واقعية ومتنوعة.
Rafael Irizarry
Professor of Biostatistics