от 6 недель обучения
256 часов
Очно-заочная форма обучения
Формат обучения - онлайн (с применением дистанционных образовательных технологий)
удостоверение
В случае успешного окончания обучения слушателю выдается документ о квалификации: диплом о профессиональной переподготовке с указанием нового вида профессиональной деятельности в соответствующей области
стоимость обучения - БЕСПЛАТНО
приглашаем слушателей, имеющих
высшее образование
Особенности программы
Программа имеет целью формирование у слушателей таких профессиональных компетенций, как способность разрабатывать продукты на основе встроенной аналитики больших данных, проводить первоначальную обработку данных, управлять этапами жизненного цикла методологической и технологической инфраструктуры анализа больших данных в организации.
Преподавателями программы являются специалисты, имеющие опыт разработки и внедрения решений на основе инструментов глубокого анализа данных.
результаты обучения
ПРОГРАММА
Модуль 1. Введение в курс.
Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные. Особенности языка R. Установка R Studio, работа с R Markdown.
Модуль 2. Основные задачи и работа с данными и их предобработка.
Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Восполнение пропусков, устранение аномалий Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Создание данных – типа временные ряды («привязка периодов времени»). Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Бининг и бинаризация (различия). Верификация. Работа с таблицами, датасетами и датафреймами. Разделение выборок, кросс-валидация. Работа с наборами данных: объединение датасетов по ключу, фильтрация и отбор, преобразование данных в различные типы, группировка по категориям, расчет базовых статистик, нормализация и стандартизация данных. Автоматический эксплоративный анализ данных.
Модуль 3. Информационное наполнение баз данных.
Понятия парсинга и веб-скрейпинга: Проблем роста объемов данных. Интернет как основной источник больших данных. Веб-скрейпинг как технология получения веб-данных со страниц веб-ресурсов. Парсинг неструктурированной информации. Структурированная, полуструктурированная, неструктурированная информация. Этические вопросы сбора данных в сети Интернет. Законодательное регулирование. Стандарт исключений для роботов или robots.txt. HTML разметка и модель DOM: Браузер, HTML, CSS, JavaScript (JS). Cтруктура web-элемента: тег, атрибут, свойство, содержимое. DOM, или объектная модель документов (Document Object Model). Узлы, родительские и дочерние элементы. Сбор данных со статических сайтов: Работа с пакетами rvest, xml2, scrapeR, httr, ralger, robotstxt. Проверка ограничений на сбор данных в robots.txt. Поиск и выгрузка содержимого отдельного элемента, таблицы целиком. Построение циклов отбора данных, в том числе с переходом между страницами, и структурирование получаемых данных. Реализация сбора данных с сайтов с открытой политикой сбора данных. Динамические сайты и их особенности: Понятие Динамический сайт. Специфика динамических сайтов: рендеринг JavaScript, асинхронность контента, интерактивность, наличие всплывающих окон и т.д. Selenium - платформа автоматизации браузера с открытым исходным кодом. Ограничения Selenium: сниженная производительность, ресурсоемкость RSelenium WebDriver и его запуск. Поиск и выгрузка содержимого отдельного элемента, файла, отправка данных. Построение циклов отбора данных, в том числе с переходом между страницами, и структурирование получаемых данных. Веб-API. Понятие API и задачи которые он решает. Виды API. Протоколы и правила взаимодействия. Аутентификация. OpenAPI. Получение данных средствами API. Работа с пакетами rscopus, osmdata, nominatimlite. Знакомство с Протоколами и правилами взаимодействия отдельных ресурсов: vk.com, openstreetmap.org, scopus.com и др.
Модуль 4. Технологии обработки больших данных.
Сущность больших данных. Свойства больших данных. Проблемы и вызовы Big Data. Базовые принципы обработки больших. История развития технологий больших данных. Архитектура хранения и обработки данных. Параллельные вычисления в распределенных кластерах. Модель распределенных вычислений MapReduce. Фазы Map, Shuffle and Sort, Reduce. Принцип работы. Преимущества и недостатки. Фреймворк Spark для реализации распределенной обработки данных. Преимущества в сравнении с MapReduce. Архитектура Spark-приложения. Resilient distributed datasets (RDD). Трансформации (narrow, wide)/действия Google Colab – бесплатная среда для разработки и выполнения программного кода в облаке. Обработка данных методами и инструментами Apache Spark в Google Colab.
Модуль 5. Методы и инструменты бизнес-аналитики.
Типы графиков – scatter plot, линейные, бок-плоты, хитмапы, диаграммы и картограммы. Пакет ggplot2 в R. Работа с палитрами, создание собственных палитр. Построение и модификация графиков в R. Нестандартные графики: круглый барплот, круглая дендрограмма, потоковая диаграмма, карты связанности и т.д. Построение интерактивных графиков в R. Показатели связи для различных типов бизнес-данных (корреляция, конкордация, ассоциация, контингенция, показатели взаимной сопряженности). Метод главных компонент и факторный эксплораторный анализ как методы комплексного анализа бизнес-данных. Создание Shiny-приложений. Понятия web-программирования. Клиентская и серверная часть приложения. Варианты виджетов, реализуемых в R. Разметка в R Markdown. Оформление отчета, вставка кода в отчет, работа с чанками, работа с формулами и графиками.

Преподаватель
Лакман Ирина Александровна
Кандидат технических наук, эксперт по машинному обучению в ИТ-компании, имеет опыт разработки и внедрения интеллектуальных решений на основе машинного обучения

Преподаватель
Тимирьянова Венера Маратовна
Доктор экономических наук. Имеет опыт руководством проектов, разработки и внедрения решений на основе анализа больших высокочастотных данных

Преподаватель
Абзалилова Лия Рашитовна
Кандидат физико-математических наук. Имеет опыт разработки и внедрения решений на основе глубокого статистического анализа данных

Преподаватель
Прудников Вадим Борисович
Кандидат технических наук. Имеет опыт разработки и внедрения решений на основе анализа больших данных
Контакты
Подробная информация по телефону и электронной почте
Телефон
8-800-200-35-68
8-34727-3-28-60
8-34727-3-28-60
Email
priemino@uust.ru
CRM-форма появится здесь