Университет ИТМО

Быстрый и еще быстрее: машинное обучение идет на разгон

Каждый год разработчики ПО и специалисты в области Data Science собираются на конференции Machine Learning REPA (Reproducibility, Experiments and Pipelines Automation), чтобы поделиться опытом и обсудить новшества и проблемы в области машинного обучения (МО) и автоматизации процессов. В этом году конференция прошла с 5 по 11 апреля в режиме онлайн. Одним из спикеров стал Николай Никитин, к.т.н, старший научный сотрудник Национального центра когнитивных разработок Университета ИТМО (НЦКР).

Спектр тем, с которыми можно было выступить, весьма обширен: от больших данных до разработки программного обеспечения. Целевой аудиторией конференции являются как специалисты в Data Science, интересующиеся МО и обеспечением его автоматизируемости и воспроизводимости, так и представители бизнеса, которые хотят применять МО в своих задачах.

Николай представил два доклада, объединенных общей темой «Эволюционная автоматизация пайплайнов машинного обучения с помощью фреймворка FEDOT».

FEDOT является open-source разработкой НЦКР, предназначенной для эффективного решения задач автоматического машинного обучения (AutoML). Репозиторий проекта доступен на GitHub.

 

 

Одна из основных задач любого программиста – оптимизировать, автоматизировать и ускорить процесс. Именно этим и занимается автор доклада. Фреймворк FEDOT позволяет построить математические вычисления в современных процессорах таким образом, чтобы максимально увеличить их производительность. При чем структура входных данных может быть совершенно разнородной, начиная от блоков моделей МО и операций предварительной обработки информации, заканчивая нейронными сетями. Созданные композиции вычислений легко группируются между собой и могут быть экспортированы для внедрения их в эксперименты на основе AutoML, в процессе которых их можно так же легко разложить на изначальные составляющие.

В ходе выступления на конференции были продемонстрированы доработки и улучшения, внесенные командой разработчиков во фреймворк за последние несколько месяцев. Часть из них уже была освещена в публикациях и на других конференциях. Часть демонстрировалась впервые. Также был дан обзор современных тенденций в области AutoML и существующих инструментов для автоматического моделирования и продемонстрировано несколько примеров применения AutoML для реальных бизнес-задач.

«Конференция была достаточно интересной, участники представили много познавательных и содержательных докладов. Мне выделили два "слота" для выступлений: полчаса на доклад и час на практическую часть. После каждого из докладов проходила секция, в ходе которой участники задавали свои вопросы о различных аспектах фреймворка: алгоритмических, инфраструктурных, прикладных. Но из-за удалённого формата, конечно, не хватало прямого контакта с аудиторией. Также, хотелось бы поблагодарить организаторов за оперативную публикацию записей выступлений на YouTube» – комментирует Николай Никитин.

В ходе второго доклада в режиме реального времени было более детально разобрано несколько прикладных задач, решаемых с помощью AutoML: задача кредитного скоринга на табличных данных, регрессионная задача на медицинских данных, задача прогнозирования экономических процессов с помощью данных временных рядов и т.д. Разбирались и «технические» аспекты без привязки к предметной области: задача дизайна структуры композитной модели с рядом критериев, задача экспорта и импорта модели. Исходный код всех примеров выложен в открытый доступ.

 

 

Участники конференции встретили доклады с большим интересом. Было задано множество вопросов как про детали реализации фреймворка, так и про способы его прикладного применения. Некоторые моменты обсуждались уже после конференции: пользователи делились своими планами на «опробывание» фреймворка. Позитивные отзывы поступили и от организаторов, поэтому можно ожидать, что для представителей НЦКР данное выступление не станет последним в рамках Machine Learning REPA.