
إذا كنت مهتماً بتحليل البيانات وتفسيرها، فهذه الدورة في علم البيانات مناسبة لك. نبدأ بتعلّم التعريف الرياضي للمسافة، ثم نستخدمه لشرح الدافع وراء استخدام تحليل القيم المفردة (SVD) لتقليل الأبعاد في مجموعات البيانات عالية الأبعاد، إلى جانب القياس متعدد الأبعاد (Multidimensional Scaling) وعلاقته بتحليل المكوّنات الرئيسية (PCA). سنتعرّف أيضاً على «تأثير الدُفعات» (Batch Effect)، وهو من أكثر مشكلات التحليل تحدّياً في علم الجينوميات اليوم، وسنوضح كيف يمكن استخدام هذه التقنيات لاكتشاف تأثيرات الدُفعات وضبطها لتقليل الانحياز وتحسين قابلية مقارنة النتائج. وبشكل أكثر تحديداً، سنشرح تحليل المكوّنات الرئيسية (PCA) وتحليل العوامل (Factor Analysis)، ونبيّن كيف تُطبَّق هذه المفاهيم في تصوّر البيانات (Data Visualization) وفي تحليل بيانات التجارب عالية الإنتاجية (High-throughput). ستساعدك الدورة على فهم كيفية تمثيل البيانات المعقّدة في أبعاد أقل دون فقدان البنية الأساسية، وكيفية تفسير الأنماط الكامنة ومصادر التباين في البيانات. بنهاية الدورة ستكون قادراً على استخدام أدوات وتقنيات شائعة في تحليل البيانات عالية الأبعاد لفهم البنية الداخلية للبيانات، إنشاء مخططات القياس متعدد الأبعاد، وتطبيق أساليب عملية للتعامل مع تأثيرات الدُفعات في سياقات مثل البيانات الحيوية والبيانات التجريبية واسعة النطاق.
Rafael Irizarry
Professor of Biostatistics
Michael Love
Assistant Professor, Departments of Biostatistics and Genetics