Первый раздел курса посвящен изучению и конструированию групп объектов в данных. Сначала рассматриваются инструменты сравнения групп, заложенных в структуре данных. Мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок.
Далее поговорим о способах выявления в структуре данных групп, наличие которых в структуре данных не заложено: научимся искать классы объектов в эмпирических данных при помощи разных алгоритмов кластеризации.
Есть ли структура в данных? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные, узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать такие задачи.
В практических видео показаны способы реализации основных инструментов сравнения и выделения групп в SPSS и R, а также предложены практические задания для отработки навыков.
Второй раздел курса посвящен исследованию латентных признаковых структур в данных (в частности, методом главных компонент), а также изучению временных рядов и выявлению трендов в данных.
Анализ трендов помогает ответить на вопросы вроде: растут ли продажи, увеличивается ли количество пользователей сервиса? Если есть рост, то случайность это или закономерность? Есть ли в данных сезонные колебания? Как выделить тренд и как объяснить его?
Также мы поговорим о факторном анализе, который позволяет найти скрытую переменную (или переменные), направляющие проявление множества видимых признаков. Как найти такие скрытые переменные и понять, что за ними стоит?
В заключительной части курса поговорим о классификаторах, применение которых решает задачи отнесения объектов к тому или иному классу с определенной вероятностью, а также позволяет прогнозировать попадание нового объекта в определенный класс. Как предсказать исход события, зная основные характеристики действующего лица? Закончит ли слушатель курс, отдаст ли заемщик кредит? Как оценить точность прогноза и минимизировать ошибки?
Мы разберемся с устройством обозначенных методов анализа данных и попрактикуемся в их применении.