Политех14 October 2024 - 19 January 2025 г.Starts in 18 days

Наука о данных и аналитика больших объемов данных

Дробинцев Павел Дмитриевичopenedu

Записаться на курс
С развитием информационных технологий для получения, хранения и обработки данных понятие больших данных (Big Data) прочно вошло в нашу жизнь. Современные вычислительные мощности позволяют получать и анализировать огромные объемы данных во всех сферах деятельности. Организации из различных отраслей промышленности заинтересованы в решении задач выявления ценной информации и скрытых зависимостей из большого массива генерируемых данных для увеличения прибыли. Данный курс предоставляет теоретические и практические знания о больших данных, аналитике данных и инструментах по работе с большими данными. Курс обучает эффективному использованию полученных знаний на конкретных примерах. Дается обзор и проходит обучение пользованием основными методами аналитики больших данных. Формируется умение использовать современные технологии и инструментальные средства по работе с большими данными (Hadoop, MapReduce, Spark, NoSQL, язык R и др.)
Тема 1. Введение в большие данные: Определение больших данных и причины их появления. Примеры возможностей для бизнеса. Различие между Business Intelligence и Big Data Тема 2. Жизненный цикл аналитики данных: Понятие жизненного цикла аналитики данных. Роли, необходимые для успешного создания проекта по аналитике данных Тема 3. Высокопроизводительные вычисления: Распределенные вычисления на нескольких серверах, вычислительная парадигма MapReduce. Проект Apache Hadoop и его экосистема. Apache Spark и его компоненты. Вычисления в реальном времени, Apache Storm, Flink Тема 4. Масштабирование и многоуровневое хранение данных: Теорема CAP. Парадигма NoSQL. Классификация NoSQL баз данных Тема 5. Визуализация данных и результатов анализа: Техники визуализации данных, введение в язык R. Визуализация данных в R Тема 6. Сложные методы аналитики: Классификация задач анализа: Text, Data, Web, Social Mining. Применение машинного обучения в аналитике. K-means и C-means кластеризация, классификация. Логистическая регрессия, ассоциации, алгоритм Априори. Тема 7. Анализ текста: Поисковые механизмы: Lucene, Solr, ElasticSearch..Алгоритмы Work2Vec и Glove