Научный вебинар «Методы обработки полуструктурированных текстов для задач классификации и генерации контента»

Вебинар состоялся 24 сентября 2020 г. В этот раз мы обсуждали методы обработки полуструктурированных текстов для задач классификации и генерации контента.

Во время данного вебинара были рассмотрены следующие вопросы:

Методы обработки полуструктурированных текстов для задач классификации и генерации контента

Генерация какого-либо текстового контента требует решения не только самой задачи генерации, но и первичного анализа имеющейся информации, которая зачастую сама представлена в текстовом виде. Последнее приводит к необходимости разработки sequence-to-sequence методов и подходов обработки данных. Ситуацию может усложнять большой объем входных данных, из которого нужно выделить действительно существенные части, обработав которые можно будет произвести необходимый контент. В свою очередь, это влечет необходимость разработки целых каскадов из вспомогательных и основных методов для получения хорошего результата. В докладе будут рассмотрены современные нейросетевые методы генерации текстового контента на примерах задач генерации рекламы и вопросно-ответных систем.

Докладчик:
Николай Бутаков, руководитель научной группы анализа социальных медиа в НЦКР Университета ИТМО

Оптимизация тематических моделей в рамках эксплоративного анализа и представления текстовых данных.

Тематическое моделирование - популярный метод для обработки текстов с целью эксплоративного анализа, позволяющий получить интерпретируемое представление документа без дополнительных затрат на разметку текста. Полученные распределения по темам могут использоваться как базис для обучения конечным задачам, например классификации. Однако, при работе с разнообразными наборами данных для получения желаемого качества требуется использование сложных моделей с большим числом регуляризаторов. Обилие настраиваемых параметров, а также необходимость их применения в определенном порядке приводит к возникновению задачи оптимизации стратегии построения тематических моделей.

Докладчик:
Мария Ходорченко, научный сотрудник группы инфраструктуры больших данных и анализа публичных источников в НЦКР Университета ИТМО

Методы работы с короткими (и не только) текстовыми данными без разметки с помощью нейронных сетей для автоклассификации текста.

Рост числа данных приводит к увеличения числа подзадач в работе с текстовыми данными, например, возникают новые доменные области. Обычно под эти задачи нет дополнительной разметки и необходимы методы, не требующие её. Применение тематических моделей в таких ситуациях не всегда подходит - тексты могут быть короткими, кроме того, классические тематические модели не учитывают связи между словами и не позволяют определять какие части текста соответствует выделенным тематикам. Последние разработки в области нейронных сетей для текстовых данных позволяют исправить эти недостатки.

Докладчик:
Тимур Сохин, научный сотрудник группы инфраструктуры больших данных и анализа публичных источников в НЦКР Университета ИТМО