СПбГУ1 June 2022 - 31 December 2024 г.Course started

Знакомство с R и базовая статистика

Хайтов Вадим Михайловичopenedu

Записаться на курс
Статистическая обработка данных и визуализация результатов анализа - это неизбежный этап работы с данными, полученными в различных областях естественных наук, в социологии, психологии или экономике. В этом курсе мы подробно разберем основы статистики и познакомимся с основами языка статистического программирования R. Мы научим вас гибко использовать средства визуализации (диаграммы, графики и т.п.), чтобы сделать результаты анализа максимально доступными и понятными.  Вы научитесь рассчитывать основные описательные статистики: медиану и квантили, среднее и стандартное отклонение.  Вы познакомитесь с принципами использования теоретических распределений статистик для построения доверительных интервалов и тестирования гипотез (на примере t-критерия). Наконец, мы обсудим сложности, возникающие при множественном тестировании гипотез и научим вас преодолевать их.
Курс состоит из пяти модулей: 1. Знакомство с R В этом модуле мы начнем знакомство с языком статистического программирования R - основным инструментом, который мы будем использовать для анализа данных. Вы узнаете, как установить и настроить R и RStudio и как получить помощь. К концу модуля вы сможете использовать операторы и функции R для работы с числами и векторами. 2. Работа с данными Существует множество способов представления и хранения данных в R. После обсуждения того, какие бывают типы данных, мы обратимся к методам их препарирования. Вы научитесь разными способами извлекать части векторов и таблиц и использовать для вычислений только нужные фрагменты данных. Для работы мы будем использовать не только данные, уже встроенные в R, но и научим вас открывать данные из внешних источников на примере .xlsx или .csv файлов. Мы обсудим принципы организации табличных данных для удобства машинного анализа (опрятные данные, tidy data). 3. Графики с использованием ggplot2 Графическое представление данных позволяет получить максимум информации за минимальный промежуток времени - часто это лучший способ представить данные в отчете. В этом модуле вы научитесь строить графики разной степени сложности, пользуясь принципами грамматики графиков (средствами пакета ggplot2). Кроме того, мы поговорим о том, как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr. 4. Описательная статистика Чаще всего, анализируя данные, мы имеем дело с выборками, но хотим делать выводы о свойствах генеральной совокупности, из которой они взяты. Описание выборок - это первый этап анализа данных. В этом модуле вы познакомитесь с основными описательными статистиками и их свойствами (медиана, квантили, среднее, дисперсия, стандартное отклонение). Мы обсудим свойства нормального и t- распределения и научимся с их помощью вычислять вероятности. Наконец, пользуясь центральной предельной теоремой, вы научитесь строить доверительные интервалы к оценкам средних. 5. Тестирование гипотез В этом модуле вы научитесь тестировать гипотезы, чтобы проверять предположения на основании данных. На примере одновыборочного и двухвыборочного t-тестов мы разберем механизм конструирования тестовых статистик и алгоритм действий при тестировании гипотез. Вы узнаете, откуда родом те самые “условия применимости” t-тестов и научитесь их проверять. Мы обсудим ошибки, которые возникают при тестировании гипотез (не только ошибки I- и II-рода, но и S- или M-ошибки). Вы узнаете об опасностях, которые подстерегают вас при множественных тестах, и научитесь оберегать себя от них при помощи поправок на множественное тестирование. Знания, полученные в этом курсе в целом, вы сможете закрепить, выполнив проект, посвященный описанию выборок и тестированию различий между группами.