Курс будет полезен тем, кто имеет небольшой опыт работы с данными, или хочет освежить знания по теории вероятностей, математической статистике, типах данных и способах изучения взаимосвязей между признаками.
Сначала мы вспомним основы теории вероятностей и поговорим о случайных величинах и их свойствах, об основных распределениях случайных величин.
Затем перейдем к основным характеристикам распределений: мерам центра и мерам вариативности. Далее обсудим основные типы шкал измерения признаков, а также основные ограничения, которые тип шкалы накладывает на применимые методы анализа данных. После чего поговорим о графическом анализе данных и способах визуализации распределений, индивидуальных или совместных, изучим основные виды выборок, способы их формирования и оценки качества, и узнаем инструменты работы с пропущенными и неопределенными значениями.
Разобравшись с изучением одномерных распределений, перейдем к исследованию взаимосвязей между признаками: рассмотрим ограничения, накладываемые типом данных на выбор методов, применимых для оценки взаимосвязей, поговорим о коэффициентах взаимосвязи номинальных признаков (Хи-квадрат и его производные), затем рассмотрим коэффициенты корреляции (ранговой, парной, частной) и в заключение поговорим о построении модели линейной регрессии, ее задачах, ограничениях и способах оценки качества модели.
Вы сможете применить полученные знания, выполнив небольшие проекты на реальных данных.
Практические задания курса созданы с использованием реальных данных, которые аналитики компании используют для решения повседневных рабочих задач (данные предоставлены компанией 2GIS).