НГУ21 April - 17 December 2024 г.Course started

Анализ данных 1

Ечевская Ольга Геннадьевнаopenedu

Записаться на курс
Курс будет полезен тем, кто имеет небольшой опыт работы с данными, или хочет освежить знания по теории вероятностей, математической статистике, типах данных и способах изучения взаимосвязей между признаками.  Сначала мы вспомним основы теории вероятностей и поговорим о случайных величинах и их свойствах, об основных распределениях случайных величин.  Затем перейдем к основным характеристикам распределений: мерам центра и мерам вариативности. Далее обсудим основные типы шкал измерения признаков, а также основные ограничения, которые тип шкалы накладывает на применимые методы анализа данных. После чего поговорим о графическом анализе данных и способах визуализации распределений, индивидуальных или совместных, изучим основные виды выборок, способы их формирования и оценки качества, и узнаем инструменты работы с пропущенными и неопределенными значениями. Разобравшись с изучением одномерных распределений, перейдем к исследованию взаимосвязей между признаками: рассмотрим ограничения, накладываемые типом данных на выбор методов, применимых для оценки взаимосвязей, поговорим о коэффициентах взаимосвязи номинальных признаков (Хи-квадрат и его производные), затем рассмотрим коэффициенты корреляции (ранговой, парной, частной) и в заключение поговорим о построении модели линейной регрессии, ее задачах, ограничениях и способах оценки качества модели. Вы сможете применить полученные знания, выполнив небольшие проекты на реальных данных. Практические задания курса созданы с использованием реальных данных, которые аналитики компании используют для решения повседневных рабочих задач (данные предоставлены компанией 2GIS).
РАЗДЕЛ 1. ВВЕДЕНИЕ В ДАННЫЕ Модуль 1. Основы теории вероятностей ВВОДНАЯ ЛЕКЦИЯ: ОБЗОР СПЕЦИАЛИЗАЦИИ Дополнительные материалы: О чем этот курс и как он устроен Дополнительные материалы по статистическим пакетам Данные, на которые мы опираемся и ссылаемся 1.1. Введение в теорию вероятностей 1.2. Свойства вероятности 1.3. Характеристики случайных величин 1.4. Непрерывные распределения. Часть 1 1.5. Нормальные и логнормальные непрерывные распределения 1.6. Дискретные распределения   Модуль 2. Основы статистического анализа выборочных данных 2.1. Типы данных 2.2. Выборка случайных величин 2.3. Меры центральной тенденции 2.4. Меры вариативности 2.5. Несмещённая дисперсия 2.6. Меры и типы переменных: что и где применимо? Видео: Практика 2.1. Описательные статистики в R. Практика Видео: Практика 2.2. Описательные статистики в SPSS. Практика   Модуль 3. Графический анализ данных 3.1. Почему важно визуализировать данные. Квартет Энскомба. Эмпирическая функция распределения 3.2. Гистограмма и методы её построения 3.3. Box plot, или ящик с усами 3.4. Диаграмма рассеяния 3.5. Графики для неметрических шкал Видео: Практика 1. Построение графиков в R. Практика Видео: Практика 2. Построение графиков в SPSS. Практика   Модуль 4. Формирование выборок и подготовка данных 4.1. Выборки 4.2. Ошибки выборки 4.3. Определение необходимого объёма выборки 4.4. Работа с пропущенными наблюдениями 4.5. Кодирование неопределённых ответов 4.6. Формирование массива данных в SPSS. Практика   Модуль 5. Первое практическое задание. В этом модуле студентам предстоит применить полученные знания на практике. Сначала необходимо пройти итоговый тест, чтобы проверить усвоение знаний и навыков, полученных при изучении модулей 1-4.  Затем требуется выполнить небольшой самостоятельный проект на реальных данных, предоставленных компанией 2GIS:  проанализировать данные самостоятельно, а также оценить работы сокурсников. Оцениваемые задания (вносят вклад в итоговую оценку) 5.1. Тест по итогам модулей 1-4 5.2. Взаимооцениваемое задание "Основы статистического анализа выборочных данных" РАЗДЕЛ 2. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ ВЗАИМОСВЯЗЕЙ   Модуль 6. Введение в статистические критерии 6.1. Статистическая гипотеза 6.2. Статистические критерии 6.3. Алгоритм проверки статистических гипотез 6.4. Свойства критериев 6.5. Метод Монте-Карло   Модуль 7. Критерии согласия 7.1. Гипотеза о согласии 7.2. Критерий согласия Хи-квадрат 7.3. Группирование данных 7.4. Критерий согласия Колмогорова — Смирнова 7.5. Критерии типа Омега 7.6. Критерий Шапиро — Уилка Видео: Практика 7.1. Видео. Построение критериев согласия в R. Практика  Видео: Практика 7.2. Видео. Построение критериев согласия в SPSS. Практика   Модуль 8. Поиск взаимосвязей в данных и оценка их статистической значимости 8.1. Понятие статистической взаимосвязи: идея и основные виды 8.2. Исследование взаимосвязей: разные шкалы — разные инструменты 8.3. Линейные взаимосвязи между двумя признаками. Коэффициенты корреляции 8.3а. Коэффициенты ранговой корреляции 8.4. Проверка значимости коэффициентов корреляции 8.5. Таблицы сопряжённости: введение 8.6. Исследование взаимосвязей при помощи критерия Хи-квадрат 8.7. Таблицы сопряжённости: исследование силы и характера взаимосвязи 8.8. Пример исследования взаимосвязей на основе таблиц сопряжённости Видео: Практика 8.1. Вычисление коэффициента корреляции в R. Практика Видео: Практика 8.2. Исследование взаимосвязей в SPSS: коэффициенты корреляции и таблицы сопряжённости. Практика   Модуль 9. Линейная регрессия 9.1. Модель линейной регрессии: основная идея 9.2. Линейная регрессия: типы данных 9.3. Оценки параметров регрессии 9.4. Оценка качества модели 9.5. Отбор значимых признаков 9.6. Мультиколлинеарность 9.7. Гетероскедастичность 9.8. Проверка предположений о модели 9.9. Прогноз Видео: Практика 9.1. Линейная регрессия в R. Практика Видео: Практика 9.2. Линейная регрессия в SPSS. Практика   Модуль 10. Второе практическое задание. Итоговое задание В заключительном модуле курса мы предлагаем студентам самостоятельно построить регрессионную модель на реальных данных, предоставленных компанией 2GIS.  Сначала необходимо пройти тест по итогам прохождения модулей 6-9 для проверки усвоенных на курсе знаний. Затем следует внимательно прочитайте инструкции и выполнить проект с применением полученных знаний и оценить несколько работ сокурсников. Оцениваемые задания (вносят вклад в итоговую оценку) 10.1. Тест по итогам модулей 6-9 10.2. Взаимооцениваемое задание "Построение модели линейной регрессии"