تحليل البيانات عالية الأبعاد

Harvard University

تعلّم تقنيات أساسية لتحليل البيانات عالية الأبعاد مثل SVD وPCA والقياس متعدد الأبعاد ومعالجة تأثير الدُفعات.

3 ساعة/أسبوع4 أسبوعالإنجليزية136,367 متسجل

مجاني للتدقيق

عن الدورة

إذا كنت مهتماً بتحليل البيانات وتفسيرها، فهذه الدورة في علم البيانات مناسبة لك. نبدأ بتعلّم التعريف الرياضي للمسافة، ثم نستخدمه لشرح الدافع وراء استخدام تحليل القيم المفردة (SVD) لتقليل الأبعاد في مجموعات البيانات عالية الأبعاد، إلى جانب القياس متعدد الأبعاد (Multidimensional Scaling) وعلاقته بتحليل المكوّنات الرئيسية (PCA). سنتعرّف أيضاً على «تأثير الدُفعات» (Batch Effect)، وهو من أكثر مشكلات التحليل تحدّياً في علم الجينوميات اليوم، وسنوضح كيف يمكن استخدام هذه التقنيات لاكتشاف تأثيرات الدُفعات وضبطها لتقليل الانحياز وتحسين قابلية مقارنة النتائج. وبشكل أكثر تحديداً، سنشرح تحليل المكوّنات الرئيسية (PCA) وتحليل العوامل (Factor Analysis)، ونبيّن كيف تُطبَّق هذه المفاهيم في تصوّر البيانات (Data Visualization) وفي تحليل بيانات التجارب عالية الإنتاجية (High-throughput). ستساعدك الدورة على فهم كيفية تمثيل البيانات المعقّدة في أبعاد أقل دون فقدان البنية الأساسية، وكيفية تفسير الأنماط الكامنة ومصادر التباين في البيانات. بنهاية الدورة ستكون قادراً على استخدام أدوات وتقنيات شائعة في تحليل البيانات عالية الأبعاد لفهم البنية الداخلية للبيانات، إنشاء مخططات القياس متعدد الأبعاد، وتطبيق أساليب عملية للتعامل مع تأثيرات الدُفعات في سياقات مثل البيانات الحيوية والبيانات التجريبية واسعة النطاق.

ماذا ستتعلم

فهم مفهوم المسافة الرياضية واستخدامه في تحليل البيانات
تطبيق تقنيات تقليل الأبعاد على البيانات عالية الأبعاد
فهم واستخدام تحليل القيم المفردة (SVD) وتحليل المكوّنات الرئيسية (PCA)
إنشاء وتفسير مخططات القياس متعدد الأبعاد (MDS)
فهم وتطبيق تحليل العوامل (Factor Analysis)
اكتشاف تأثيرات الدُفعات (Batch Effects) ومعالجتها وضبطها

المتطلبات المسبقة

إكمال PH525.1x وPH525.2x أو امتلاك أساسيات البرمجة ومقدمة في الإحصاء ومقدمة في الجبر الخطي
أو إكمال PH525.3x

المدرسون

Rafael Irizarry

Professor of Biostatistics

Michael Love

Assistant Professor, Departments of Biostatistics and Genetics

المواضيع

تحليل المكوّنات الرئيسية

تحليل العوامل

التنبؤ

القياس متعدد الأبعاد

بيوكوندكتور (برمجيات المعلوماتية الحيوية)

معلومات الدورة

المنصةedX

المستوىمتقدم

طريقة التعلمغير محدد

شهادةمتاحة

السعرمجاني للتدقيق

المهارات

تحليل المكوّنات الرئيسية

تحليل العوامل

التنبؤ

القياس متعدد الأبعاد

بيوكوندكتور (برمجيات المعلوماتية الحيوية)

Hierarchical Clustering

K-Means Clustering

Data Warehousing

Machine Learning

Life Sciences

ابدأ التعلم الآن