Аналитик данных

объём

256 часов

программа

профессиональная
переподготовка

о программе

Программа направлена на формирование компетенций в соответствии с трудовыми функциями специалиста по большим данным.

Образовательная программа соответствует перечню профессий и должностей, рекомендуемых для обучения граждан, обратившихся в органы службы занятости в целях поиска работы (утвержденных на Межведомственной рабочей группе по вопросу восстановления рынка труда при Правительстве РФ (от 13.02.2025): Аналитик данных.

от 6 недель обучения

256 часа

Очно-заочная форма обучения

Формат обучения - онлайн (с применением дистанционных образовательных технологий)

удостоверение

В случае успешного окончания обучения слушателю выдается документ о квалификации: диплом о профессиональной переподготовке с указанием нового вида профессиональной деятельности в соответствующей области

стоимость обучения - БЕСПЛАТНО


приглашаем слушателей, имеющих

высшее образование

Особенности программы

Программа имеет целью формирование у слушателей таких профессиональных компетенций, как способность разрабатывать продукты на основе встроенной аналитики больших данных и проводить первоначальную обработку первичных статистических данных с применением инструментов машинного обучения, и, необходимых в том числе для выполнения профессиональной деятельности.
Преподавателями программы являются специалисты, имеющие опыт разработки и внедрения решений на основе инструментов глубокого анализа данных.

результаты обучения

научатся

  • подготавливать данные для проведения аналитических работ по исследованию больших данных
  • смогут

  • проводить аналитические исследования с применением технологий больших данных в соответствии с требованиями заказчика
  • ПРОГРАММА

    Модуль 1. Введение в курс.

    Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные. Особенности языка R. Установка R Studio, работа с R Markdown.

    Модуль 2. Основные задачи, работа с данными и эксплоративный анализ.

    Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Восполнение пропусков, устранение аномалий Упорядоченные и неупорядоченные данные. Верификация. Трансформация. Оптимизация признакового пространства. Работа с таблицами, датасетами и датафреймами. Разделение выборок, кросс-валидация и метрики качества моделей. Селекция алгоритмов машинного обучения. ROC-анализ. Чувствительность и специфичность. Ложноположительные и ложноотрицательные исходы. Площадь под кривой (Area under curve). Особенности применения ROC-кривых в медицинских исследованиях. Сравнение ROC-кривых между собой. Валидациия и кросс-валидация при обучении алгоритмов машинного обучения.

    Модуль 3. Парсинг данных.

    Понятия парсинга и веб-скрейпинга: Проблем роста объемов данных. Интернет как основной источник больших данных. Веб-скрейпинг как технология получения веб-данных со страниц веб-ресурсов. Парсинг неструктурированной информации. Структурированная, полуструктурированная, неструктурированная информация. Этические вопросы сбора данных в сети Интернет. Законодательное регулирование. Стандарт исключений для роботов или robots.txt. HTML разметка и модель DOM: Браузер, HTML, CSS, JavaScript (JS). Cтруктура web-элемента: тег, атрибут, свойство, содержимое. DOM, или объектная модель документов (Document Object Model). Узлы, родительские и дочерние элементы. Извлечение HTML текстов и анализ их содержимого. Формирование циклов для сбора данных. Установка ограничения на скорость сбора данных согласно Crawl-delay. Функция TryCatch в процессе сбора данных.. Динамические сайты, проблемы сбора данных с динамических сайтов. Selenium —  платформа автоматизации браузера с открытым исходным кодом. Имитация взаимодействия с сайтом, проявляющаяся в генерирации JavaScript контента и обработке асинхронных запросов. 

    Модуль 4. Методы регрессии.

    Решение задач регрессии, проверка адекватности модели. Метод наименьших квадратов. Проверка адекватности уравнения регрессии. Предпосылки для эффективности несмещенности и состоятельности оценок. Борьба с мультиколлинеарностью, метод LASSO, гребневая регрессия, выбор параметра регуляризации.  

    Модуль 5. Методы Классификации.

    Модели множественного выбора с неупорядоченными, бинарными и упорядоченными альтернативами. Условные логит-модель. Вложенные (nested) логит-модели. Оценивание логит-моделей: метод максимального правдоподобия. Интерпретация моделей множественного выбора на основе маржинальных эффектов. Мультиномиальная логит-модель. Примеры моделей с упорядоченными альтернативами. Упорядоченные пробит-модели. Оценка качества для решения задач классификации. Кредитный скоринг (scorecard), WOE-бининг.и фильтрация на основе критерия идентичности.  

    Модуль 6. Ансамбль моделей.

    Алгоритмы дерева принятия решения. Решающее дерево. Жадная нисходящая стратегия «разделяй и властвуй». Алгоритм ID3. Недостатки жадной стратегии и способы их устранения. Проблема переобучения. Редукция решающих деревьев: предредукция и постредукция, прунинг. CARD-деревья. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг. Алгоритмы случайного леса (Random Forest). Алгоритмы случайного леса: косоугольный, синтетический, изолированный и полностью рандомизированный. Определение важности признаков по алгоритмам, основанным на деревьях решений). Ансамблевые методы: бустинги. Экстремальный градиентный бустинг. Стохастический градиентный бустинг. Подбор гиперпараметров по сетке поиска. Технологии сэмплирования. оверсэмплинг, андерсэмплинг, ASMO, SMOTE Проблема неполных данных. Восстановление пропуском. Метод ресамплинга. Цензурирование. Метод исключения некомплектных объектов. Методы с заполнением. Методы взвешивания. Методы, основанные на моделировании. Оптимальная гиперплоскость, зазор между классами, функции потерь для алгоритмов SVM, понятие опорного вектора Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера. Проверка данных на линейную разделимость, нормализация данных для SVM, Построение линейной решающей функции, предварительно разметка данных, применение алгоритма Вапника. При отсутствии линейного разделения, выбор ядра классификатора: полиномиальное, сигмоидное, радиальное и радиальное Гауссово. 

    Модуль 7. Организация внедрения решений на R.

    Понятие промышленной разработки программного обеспечения: отладка; статический анализ кода; логирование и анализ во время исполнения; функциональное и юнит тестирование; анкетирование и автоматизированная сборка. Создание Shiny-приложений. Идея многоядерных систем, устройства для ускорения вычислений (CPU, GPU, FGPA, eGPU), высокопроизводительные вычисления (суперкомпьютеры, кластеры). Распределенные и облачные вычисления. Параллелизация вычислений. Создание виртуальной машины.  

    Итоговая аттестация

    наши преподаватели

    Наша команда высококвалифицированных преподавателей готова оказать вам квалифицированную поддержку на каждом этапе прохождения курсов. Мы предлагаем не только тщательно разработанные учебные материалы, но и индивидуальный подход к каждому ученику. Наши преподаватели обладают большим опытом работы и глубокими знаниями в своей области, что позволяет им помогать вам разобраться с любыми вопросами и сложностями. Уверенно двигайтесь к своим целям вместе с нашей командой профессионалов!

    Преподаватель

    Лакман Ирина Александровна

    Кандидат технических наук, эксперт по машинному обучению в ИТ-компании, имеет опыт разработки и внедрения интеллектуальных решений на основе машинного обучения 
    Преподаватель

    Тимирьянова Венера Маратовна

    Доктор экономических наук. Имеет опыт руководством проектов, разработки и внедрения решений на основе анализа больших высокочастотных данных 
    Преподаватель

    Абзалилова Лия Рашитовна

    Кандидат физико-математических наук. Имеет опыт разработки и внедрения решений на основе глубокого статистического анализа данных

    Контакты

    Подробная информация по телефону и электронной почте
    Телефон 8-800-200-35-68
    8-34727-3-28-60
    Email priemino@uust.ru

    CRM-форма появится здесь