Курс состоит из пяти модулей:
1. Знакомство с R
В этом модуле мы начнем знакомство с языком статистического программирования R - основным инструментом, который мы будем использовать для анализа данных. Вы узнаете, как установить и настроить R и RStudio и как получить помощь. К концу модуля вы сможете использовать операторы и функции R для работы с числами и векторами.
2. Работа с данными
Существует множество способов представления и хранения данных в R. После обсуждения того, какие бывают типы данных, мы обратимся к методам их препарирования. Вы научитесь разными способами извлекать части векторов и таблиц и использовать для вычислений только нужные фрагменты данных. Для работы мы будем использовать не только данные, уже встроенные в R, но и научим вас открывать данные из внешних источников на примере .xlsx или .csv файлов. Мы обсудим принципы организации табличных данных для удобства машинного анализа (опрятные данные, tidy data).
3. Графики с использованием ggplot2
Графическое представление данных позволяет получить максимум информации за минимальный промежуток времени - часто это лучший способ представить данные в отчете. В этом модуле вы научитесь строить графики разной степени сложности, пользуясь принципами грамматики графиков (средствами пакета ggplot2). Кроме того, мы поговорим о том, как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr.
4. Описательная статистика
Чаще всего, анализируя данные, мы имеем дело с выборками, но хотим делать выводы о свойствах генеральной совокупности, из которой они взяты. Описание выборок - это первый этап анализа данных. В этом модуле вы познакомитесь с основными описательными статистиками и их свойствами (медиана, квантили, среднее, дисперсия, стандартное отклонение). Мы обсудим свойства нормального и t- распределения и научимся с их помощью вычислять вероятности. Наконец, пользуясь центральной предельной теоремой, вы научитесь строить доверительные интервалы к оценкам средних.
5. Тестирование гипотез
В этом модуле вы научитесь тестировать гипотезы, чтобы проверять предположения на основании данных. На примере одновыборочного и двухвыборочного t-тестов мы разберем механизм конструирования тестовых статистик и алгоритм действий при тестировании гипотез. Вы узнаете, откуда родом те самые “условия применимости” t-тестов и научитесь их проверять. Мы обсудим ошибки, которые возникают при тестировании гипотез (не только ошибки I- и II-рода, но и S- или M-ошибки). Вы узнаете об опасностях, которые подстерегают вас при множественных тестах, и научитесь оберегать себя от них при помощи поправок на множественное тестирование. Знания, полученные в этом курсе в целом, вы сможете закрепить, выполнив проект, посвященный описанию выборок и тестированию различий между группами.