НГУ21 April - 17 December 2024 г.Course started

Анализ данных 2

Ечевская Ольга Геннадьевнаopenedu

Записаться на курс
Первый раздел курса посвящен изучению и конструированию групп объектов в данных. Сначала рассматриваются инструменты сравнения групп, заложенных в структуре данных. Мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок. Далее поговорим о способах выявления в структуре данных групп, наличие которых в структуре данных не заложено: научимся искать классы объектов в эмпирических данных при помощи разных алгоритмов кластеризации.    Есть ли структура в данных? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные, узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать такие задачи. В практических видео показаны способы реализации основных инструментов сравнения и выделения групп в SPSS и R, а также предложены практические задания для отработки навыков.   Второй раздел курса посвящен исследованию латентных признаковых структур в данных (в частности, методом главных компонент), а также изучению временных рядов и выявлению трендов в данных.  Анализ трендов помогает ответить на вопросы вроде: растут ли продажи, увеличивается ли количество пользователей сервиса? Если есть рост, то случайность это или закономерность? Есть ли в данных сезонные колебания? Как выделить тренд и как объяснить его?  Также мы поговорим о факторном анализе, который позволяет найти скрытую переменную (или переменные), направляющие проявление множества видимых признаков. Как найти такие скрытые переменные и понять, что за ними стоит? В заключительной части курса поговорим о классификаторах, применение которых решает задачи отнесения объектов к тому или иному классу с определенной вероятностью, а также позволяет прогнозировать попадание нового объекта в определенный класс. Как предсказать исход события, зная основные характеристики действующего лица? Закончит ли слушатель курс, отдаст ли заемщик кредит? Как оценить точность прогноза и минимизировать ошибки?  Мы разберемся с устройством обозначенных методов анализа данных и попрактикуемся в их применении.
РАЗДЕЛ 1. СРАВНЕНИЕ И СОЗДАНИЕ ГРУПП Модуль 1. Одновыборочные и двухвыборочные критерии 1.1. Введение в межгрупповые сравнения 1.2. Одновыборочные критерии сравнения средних 1.3. Сравнение двух независимых выборок 1.4. Сравнение дисперсий двух независимых выборок 1.5. Сравнение распределений двух независимых выборок 1.6. Сравнение двух связанных выборок 1.7. Критерии равенства групп. Практика 1.8. Сравнение средних в SPSS. Практика   Модуль 2. Сравнение нескольких выборок 2.1. Сравнение средних для k независимых выборок: параметрический случай 2.2. Сравнение средних для k независимых выборок: непараметрический случай 2.3. Сравнение средних для нескольких связанных выборок 2.4. Критерий Фридмана 2.5. Биномиальные данные 2.6. Проверка соответствия выборочных пропорций теоретическим 2.7. Проверка гипотез о равенстве средних для нескольких зависимых и независимых групп в R. Практика 2.8. Сравнение средних в SPSS: k-выборочные критерии. Практика   Модуль 3. Введение в кластерный анализ 3.1. Особенности методов кластерного анализа 3.2. Меры сходства. Меры расстояния 3.3. Корреляционные меры сходства и меры ассоциативности 3.4. Иерархический кластерный анализ 3.5. Определение оптимального количества кластеров 3.6. Иерархический кластерный анализ: пример 3.7. Иерархический кластерный анализ в R. Практика 3.8. Иерархический кластерный анализ в SPSS. Практика   Модуль 4. Итерационные методы кластерного анализа 4.1. Метод k-средних 4.2. Метод k-средних. Пример 4.3. Алгоритм Forel 4.4. Forel. Пример 4.5. Способы оценки качества кластеризации 4.6. Графические инструменты в кластерном анализе 4.7. Построение кластерного анализа с помощью k-средних в R. Практика 4.8. Построение кластерного анализа методом k-средних в SPSS. Практика   Модуль 5. Первое практическое задание. В этом модуле студентам предстоит применить полученные знания на практике. Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 1-4.  Затем требуется выполнить небольшой самостоятельный проект на реальных данных, предоставленных компанией 2GIS:  построить кластерную модель, попрактиковаться в сравнении групп, а также оценить работы сокурсников.   РАЗДЕЛ 2. ТРЕНДЫ И КЛАССИФИКАЦИИ Модуль 6. Анализ временных рядов 6.1. Понятие временных рядов 6.2. Тренд 6.3. Сезонность 6.4. STL-разложение 6.5. Поиск выбросов 6.6. Тренд, сезонность, STL. Практика   Модуль 7. Прогноз временных рядов 7.1. AR и MA 7.2. ARMA и ARIMA 7.3. Адаптивные модели. Экспоненциальное сглаживание 7.4. Адаптивные модели. Модели с трендом и сезонностью 7.5. Виды адаптивных моделей 7.6. Следящий контроль. Модель Тригга — Лича 7.7. Построение моделей временных рядов в R. Практика   Модуль 8. Факторный анализ 8.1. Введение в факторный анализ 8.2. Построение факторной модели 8.3. Способы оценки качества факторной модели 8.4. Пример построения факторной модели 8.5. Факторы готовы: что дальше? 8.6. Факторный анализ в SPSS. Практика   Модуль 9. Классификация 9.1. Введение в классификацию 9.2. Линейный классификатор 9.3. Байесовский классификатор 9.4. Дерево решений 9.5. Бинарная логистическая регрессия: основная идея 9.6. Логистическая регрессия: применение и оценка качества 9.7. Методы классификации в R. Практика 9.8. Построение модели логистической регрессии в SPSS. Практика   Модуль 10. Итоговое практическое задание. В этом модуле студентам снова предстоит применить полученные знания на практике. Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 6-9.  Затем требуется выполнить самостоятельный проект на реальных данных, предоставленных компанией 2GIS:  построить классификатор и сформулировать прогноз на его основе, а также оценить работы сокурсников.