не реализуется


Интеллектуальный анализ данных на основе машинного обучения

О ПРОГРАММЕ

Категория слушателей: граждане, имеющие высшее или среднее профессиональное образование.


Срок обучения: 2 недели (72  академических часа).

Группы приступают к занятиям по мере формирования. 
Программа включает в себя 3 модуля, которые проводятся в открытом формате.  

Для успешного прохождения курса слушатели должны на продвинутом уровне пользоваться компьютером, иметь базовые навыки в моделирование, знать основы теории вероятности и математической статистики, иметь представление о программировании на языках высокого уровня (на пороговом уровне). Для слушателей курсов предусмотрены входные контрольные задания по теории вероятности (теорема Байеса) и математической статистике (описательные дескриптивные статистики и проверка гипотез – ошибки первого и второго рода). 

ЦЕЛЬ ПРОГРАММЫ

Цель курса дать систематизированное представление о современных подходах к интеллектуальному анализу текста средствами машинного обучения, познакомить с основными принципами лингвостатистики, научить навыкам применения технологий интеллектуального анализа текста, относящегося к неструктурированной информации, в современных информационных средах (RStudio), в конечном итоге сформировать на базовом уровне компетенцию компетенции цифровой экономики: Управление информацией и данными. В рамках изучения курса у слушателей будет сформирована компетенция на базовом уровне: Способность управлять неструктурированной информацией и данными.

МЕТОДЫ ОБУЧЕНИЯ

Практико-ориентированный подход в обучении с применением специализированного программного обеспечения, применение дистанционных образовательных технологий.

стоимость

программы составляет  15 000 рублей

РЕЗУЛЬТАТЫ ОБУЧЕНИЯ

В результате освоения программы слушатель должен приобрести следующие знания и умения, необходимые для формирования компетенции цифровой экономики Управление информацией и данными:
  • основные метрики лингвостатистики; основные законы лингвостатистики; (Хипса, Ципфа);
  • основные принципы разметки текста;
  • способы векторного представления текста;
  • метрики по реляционному и атрибутивному сходству текста;
  • метрики ассоциации для измерения в коллакациях;
  • способы кластеризации текста;
  • инструмент TF-IDF для анализа главной темы; основные методы латентно-семантического анализа текста;
  • инструменты машинного обучения (наивный байесовский классификатор) для классификации текста;
  • основные метрики оценки качества классификации текстовых документов.
  • создавать терм-документную матрицу двумя способами;
  • использовать мешочек слов для анализа текста;
  • применять процедуру TF-IDF для анализа главной темы;
  • определять меру сходства текста и меру ассоциации в коллакациях;
  • применять латентно-семантический анализ текста.
  • навыками предподготовки к проведению анализа текста, используя средства среды RStudio;
  • навыками тематического моделирования, используя инструменты алгоритма TF-IDF.

ВАШИ
ПЕРСПЕКТИВЫ
Вы умеете

проводить классификацию текста (например спам/неспам) с помощью наивного байесовского классификатора.

Вы владеете

навыками оценки качества алгоритмов интеллектуального анализа текста. 

Вы можете

проводить качественную чистку текста, избавляться от стоп-слов и проводить лемматизацию и стеминг текста.

учебный план
и удостоверение


отзывы

руководитель и преподаватели

Image Description

Лакман Ирина Александровна

кандидат технических наук, заведующая лабораторией исследования


 
Image Description

Галямов Айрат Фаритович

кандидат технических наук, доцент кафедры автоматизации технологических процессов УГАТУ


 

оставить заявку

CRM-форма появится здесь