Технический аналитик данных

объём

256 часов

программа

профессиональной
переподготовки

о программе

Программа направлена на формирование компетенций в соответствии с трудовыми функциями специалиста по большим данным.

Образовательная программа соответствует перечню профессий и должностей, рекомендуемых для обучения граждан, обратившихся в органы службы занятости в целях поиска работы (утвержденных на Межведомственной рабочей группе по вопросу восстановления рынка труда при Правительстве РФ (от 13.02.2025): Аналитик данных.
от 6 недель обучения

256 часов

Очно-заочная форма обучения

Формат обучения - онлайн (с применением дистанционных образовательных технологий)

удостоверение

В случае успешного окончания обучения слушателю выдается документ о квалификации: диплом о профессиональной переподготовке с указанием нового вида профессиональной деятельности в соответствующей области

стоимость обучения - БЕСПЛАТНО


приглашаем слушателей, имеющих

высшее образование

Особенности программы

Программа имеет целью формирование у слушателей таких профессиональных компетенций, как способность разрабатывать продукты на основе встроенной аналитики больших данных, проводить первоначальную обработку данных, управлять этапами жизненного цикла методологической и технологической инфраструктуры анализа больших данных в организации.
Преподавателями программы являются специалисты, имеющие опыт разработки и внедрения решений на основе инструментов глубокого анализа данных.

результаты обучения

научатся

  • подготовить данные для проведения аналитических работ по исследованию больших данных;
  • смогут

  • управлять получением, хранением, передачей, обработкой больших данных;
  • ПРОГРАММА

    Модуль 1. Введение в курс.

    Задачи, требующие решения на основе машинного обучения. Постановка задач обучения по прецедентам. Объекты и признаки. Типы шкал: бинарные, номинальные, порядковые, количественные. Особенности языка R. Установка R Studio, работа с R Markdown.

    Модуль 2. Основные задачи и работа с данными и их предобработка.

    Работа с данными, преобразование данных из узких таблиц в широкую, фильтрация и объединение данных по определенному признаку. Процедуры подготовки данных для исследований. Восполнение пропусков, устранение аномалий Упорядоченные и неупорядоченные данные. Транзакционные данные. Определение достаточного количества анализируемых объектов. Верификация. Трансформация. Оптимизация признакового пространства. Создание данных – типа временные ряды («привязка периодов времени»). Процедуры подготовки данных для исследований. Упорядоченные и неупорядоченные данные. Бининг и бинаризация (различия). Верификация. Работа с таблицами, датасетами и датафреймами. Разделение выборок, кросс-валидация. Работа с наборами данных: объединение датасетов по ключу, фильтрация и отбор, преобразование данных в различные типы, группировка по категориям, расчет базовых статистик, нормализация и стандартизация данных. Автоматический эксплоративный анализ данных.

    Модуль 3. Информационное наполнение баз данных.

    Понятия парсинга и веб-скрейпинга: Проблем роста объемов данных. Интернет как основной источник больших данных. Веб-скрейпинг как технология получения веб-данных со страниц веб-ресурсов. Парсинг неструктурированной информации. Структурированная, полуструктурированная, неструктурированная информация. Этические вопросы сбора данных в сети Интернет. Законодательное регулирование. Стандарт исключений для роботов или robots.txt. HTML разметка и модель DOM: Браузер, HTML, CSS, JavaScript (JS). Cтруктура web-элемента: тег, атрибут, свойство, содержимое. DOM, или объектная модель документов (Document Object Model). Узлы, родительские и дочерние элементы. Сбор данных со статических сайтов: Работа с пакетами rvest, xml2, scrapeR, httr, ralger, robotstxt. Проверка ограничений на сбор данных в robots.txt. Поиск и выгрузка содержимого отдельного элемента, таблицы целиком. Построение циклов отбора данных, в том числе с переходом между страницами, и структурирование получаемых данных. Реализация сбора данных с сайтов с открытой политикой сбора данных. Динамические сайты и их особенности: Понятие Динамический сайт. Специфика динамических сайтов: рендеринг JavaScript, асинхронность контента, интерактивность, наличие всплывающих окон и т.д. Selenium - платформа автоматизации браузера с открытым исходным кодом. Ограничения Selenium: сниженная производительность, ресурсоемкость RSelenium WebDriver и его запуск. Поиск и выгрузка содержимого отдельного элемента, файла, отправка данных. Построение циклов отбора данных, в том числе с переходом между страницами, и структурирование получаемых данных. Веб-API. Понятие API и задачи которые он решает. Виды API. Протоколы и правила взаимодействия. Аутентификация. OpenAPI. Получение данных средствами API. Работа с пакетами rscopus, osmdata, nominatimlite. Знакомство с Протоколами и правилами взаимодействия отдельных ресурсов: vk.com, openstreetmap.org, scopus.com и др.

    Модуль 4. Технологии обработки больших данных.

    Сущность больших данных. Свойства больших данных. Проблемы и вызовы Big Data. Базовые принципы обработки больших. История развития технологий больших данных. Архитектура хранения и обработки данных. Параллельные вычисления в распределенных кластерах. Модель распределенных вычислений MapReduce. Фазы Map, Shuffle and Sort, Reduce. Принцип работы. Преимущества и недостатки. Фреймворк Spark для реализации распределенной обработки данных. Преимущества в сравнении с MapReduce. Архитектура Spark-приложения. Resilient distributed datasets (RDD). Трансформации (narrow, wide)/действия Google Colab – бесплатная среда для разработки и выполнения программного кода в облаке. Обработка данных методами и инструментами Apache Spark в Google Colab. 

    Модуль 5. Методы и инструменты бизнес-аналитики.

    Типы графиков – scatter plot, линейные, бок-плоты, хитмапы, диаграммы и картограммы. Пакет ggplot2 в R. Работа с палитрами, создание собственных палитр. Построение и модификация графиков в R. Нестандартные графики: круглый барплот, круглая дендрограмма, потоковая диаграмма, карты связанности и т.д. Построение интерактивных графиков в R. Показатели связи для различных типов бизнес-данных (корреляция, конкордация, ассоциация, контингенция, показатели взаимной сопряженности). Метод главных компонент и факторный эксплораторный анализ как методы комплексного анализа бизнес-данных. Создание Shiny-приложений. Понятия web-программирования. Клиентская и серверная часть приложения. Варианты виджетов, реализуемых в R. Разметка в R Markdown. Оформление отчета, вставка кода в отчет, работа с чанками, работа с формулами и графиками.  

    наши преподаватели

    Наша команда высококвалифицированных преподавателей готова оказать вам квалифицированную поддержку на каждом этапе прохождения курсов. Мы предлагаем не только тщательно разработанные учебные материалы, но и индивидуальный подход к каждому ученику. Наши преподаватели обладают большим опытом работы и глубокими знаниями в своей области, что позволяет им помогать вам разобраться с любыми вопросами и сложностями. Уверенно двигайтесь к своим целям вместе с нашей командой профессионалов!

    Преподаватель

    Лакман Ирина Александровна

    Кандидат технических наук, эксперт по машинному обучению в ИТ-компании, имеет опыт разработки и внедрения интеллектуальных решений на основе машинного обучения
    Преподаватель

    Тимирьянова Венера Маратовна

    Доктор экономических наук. Имеет опыт руководством проектов, разработки и внедрения решений на основе анализа больших высокочастотных данных
    Преподаватель

    Абзалилова Лия Рашитовна

    Кандидат физико-математических наук. Имеет опыт разработки и внедрения решений на основе глубокого статистического анализа данных
    Преподаватель

    Прудников Вадим Борисович

    Кандидат технических наук. Имеет опыт разработки и внедрения решений на основе анализа больших данных

    Контакты

    Подробная информация по телефону и электронной почте
    Телефон 8-800-200-35-68
    8-34727-3-28-60
    Email priemino@uust.ru

    CRM-форма появится здесь