Университет ИТМО

Платформа поддержки жизненного цикла интеллектуальных объектов на основе промышленных больших данных

 

Платформа предназначена для организации жизненного цикла цифровых объектов искусственного интеллекта (ИИ), с использованием методов машинного обучения, инфраструктуры больших данных и единой облачной экосистемы для них. Платформа позволяет решать широкий спектр задач: от генерации (майнинга) новых знаний на больших данных - до быстрого создания собственных цифровых ИИ-объектов, путем агрегации существующих блоков искусственного интеллекта, их модернизации, обучения и дальнейшего создания на их основе практических сервисов.

Преимущества платформы:
— консолидация трех уровней абстракций в единой среде: данные в модели, модели в объекты;
— формирование методологии работы с данными при исследованиях гипотез и разработке методов с использованием подходов машинного обучения;
— полный цикл реализации сценария работы в платформе от задачи до результатов;
— механизмы безопасного и гибкого встраивания данных и их ограничений при обработке;
— построение моделей на основе начального ядра предобученных артефактов и отдельных элементов, сочетаний и их расширений;
— работа в едином вычислительном пространстве;
— интеграция механизмов биржи данных, моделей, аналитики и задач.

Платформа представляет собой  распределенную систему для управления жизненным циклом интеллектуальных объектов в качестве конечных сервисов, самостоятельных блоков и ИИ-элементов других систем. Разработка, обучение и развитие объектов выполняется на основе моделей и встроенных в платформу программных библиотек, а также множества массивов данных. Последние являются интегрированными внешними источниками различных провайдеров, поддерживающих определенные классы использования.

Поддерживаемые классы использования разделяются по принципу прямого и непрямого доступа. Для прямого доступа допускается выполнение операции непосредственно над данными и их срезами, полученными с помощью фильтрации. Непрямой доступ предоставляет возможность выполнять заранее определенный набор операций, согласованный с владельцем данных. К таким операциям относятся методы статистической обработки и анализа, а также блок операций машинного обучения. Класс непрямого доступа необходим для обеспечения гибкого доступа к критически чувствительным данным, которые не могут быть анонимизированы и не могут покинуть внутренний технический контур владельцев.

Платформа предполагает возможность организовывать процессы встраивания новых моделей или использования уже существующих в виде вычислительных сценариев, разрабатываемых пользователями. Также обеспечивается масштабный блок по интеграции массивов больших данных для продажи или анализа.

На текущий момент платформе доступны гибридные ресурсы общей производительностью более 4,1 ПФлопс и более 1,5 Пбайт хранения данных.

Высокая производительность и масштабируемость при работе с данными из разнородных источников обеспечивается за счет интеллектуальных алгоритмов планирования вычислений, основанных на предсказании изменений нагрузки в распределенной среде больших данных, включая потенциальную активность пользователей.

На основе среды управления данными автоматизируются основные процессы построения интеллектуальных моделей в различном виде — аналитических выражений, нейросетевых и семантических структур, правил и пр., в том числе моделей обучения профессиональных чат-ботов. Фактически, платформа агрегирует лучшие практики в части организации, подготовки и использования данных для создания основы современных систем поддержки принятия решений.

Платформа позволяет динамически (под конкретную задачу или пользовательский запрос) объединять источники данных, принадлежащих различным провайдерам. При этом целевое использование данных контролируется посредством технологии блокчейн, что формирует основу для биллинга и тарификации. Высокая производительность и масштабируемость при работе с данными из разнородных источников обеспечивается за счет интеллектуальных алгоритмов планирования вычислений, основанных на предсказании изменений нагрузки в распределенной среде больших данных, включая потенциальную активность пользователей. На основе среды управления данными автоматизируются основные процессы построения интеллектуальных моделей в различном виде - аналитических выражений, нейросетевых и семантических структур, правил и пр., в т.ч. моделей обучения профессиональных чат-ботов.

 

DataMall

DataMall - модуль, реализующий ряд функций платформы. DataMall позволяет организовать торговлю сущностью больших данных в форме основанных на них интеллектуальных моделей, благодаря чему владельцы данных сохраняют над ними контроль, а сама инфорамация остается защищенной и не теряет стоимость.

В основе DataMall лежит портал с выделеными цифровыми рынками: биржей задач, биржей данных и биржей аналитики; а также отдельной областью рабочих проектов и зоны администрирования.

Биржа задач является аукционом, на который попадают задачи, описанные в определенной форме, с выделенными ключевыми характеристиками: цель, ожидаемые результаты, сроки и бюджет.

Биржа данных также представляет собой аукцион, на котором отображаются витрины данных с информацией об их структуре и ценовой политике, мета-описаниями и прочими характеристиками, а также доступна возможность просмотра среза ожидаемых данных.

Биржа аналитики, в свою очередь, является пространством предложений на оказание услуг обработки больших данных и построения интеллектуальных моделей поверх них.

Цифровой рынок является двухэтапным:
— на первом этапе формируются проектные условия согласования работы, сроков, цен между всеми участниками рынка;
— на втором этапе запускаются работы по выполнению проекта по использованию больших данных.

Рабочее пространство пользователя представлено проектами, в которых он может участвовать в различных ролях: заказчика, владельца данных, аналитика и административного лица.

Заказчик осуществляет согласование условий запуска проекта (финансы, ресурсы, задачи), а также просматривает текущий процесс выполнения проекта, корректируя ход исследования путем уточнения результатов и целей.

Владелец данных определяет политику работы с собственными данными: какие данные и какими срезами (стратегии) можно реализовывать на цифровом рынке или какие данные могут быть обработаны и какими функциями. Также владелец данных следит за своевременным обновлением представленных массивов данных.

Аналитик — это специалист в области решения задач с использованием машинного обучения, который владеет информацией о текущем рынке данных, доступных в платформе ИИ моделях и методах обработки.

В основе DataMall лежит микро-сервисная архитектура, разработанная на базе современного технологического стека языков Scala, Python и JavaScript.

Основной сценарий применения DataMall:
— владельцы данных регистрируют данные для аналитики и продажи, аналитики регистрируют свои команды, специализирующиеся на выполнении МО проектов; 
— заказчики публикуют свои задачи, описывая цели, ресурсы, сроки; 
— группы аналитиков просматривают опубликованные задачи, витрины данных и формируют свои предложения по возможностям реализации проектов; 
— заказчики фильтруют и подтверждают в рамках своей задачи наиболее интересное предложение по времени, финансам, данным и ожидаемому результату, запуская проект в реализацию; 
— проект создается под задачу с сопутствующим окружением для аналитической группы, включая данные, ресурсы и пространство для разработки на основе Jupyter Hub; 
— разработка ведется поэтапно с генерацией сценариев для реализации процессинга и анализа данных, с дальнейшим построением моделей и получением финального результата.

Благодаря такому подходу к использованию интегрированных больших данных для решения различных задач на основе машинного обучения, торговля данными выходит на новый уровень, существенно преображая рынок Big Data.

 

Попробовать возможности DataMall прямо сейчас

Руководство для ознакомления

Для первого доступа к DataMall нужен пароль;
чтобы получить его, напишите нам

 

НА ЭТОЙ ПЛАТФОРМЕ СОЗДАНЫ:

АВТОМОЛЛ, сервис оценки автомобилей по агрегированным данных, предоставляющий набор интеллектуальных инструментов для быстрого подбора модели транспортного средства и его объективной оценки, исходя из предпочтений пользователя

АКСЕЛЕРАТОР ГОРОДА — СЕРВИС ПОИСКА СОБЫТИЙ — позволяет конечным пользователям, не обладающим глубокими знаниями в области компьютерных наук и не имеющим в своем распоряжении можных вычислительных ресурсов, выполнять аналитические запросы по поиску онлайн- и офлайн-событий в городе на основе актуальных данных социальных сетей

 

ИСПОЛЬЗОВАТЬ ПЛАТФОРМУ МОЖНО ТАК:

СЕРВИС СБОРА ДАННЫХ с публичных источников в Интернет:  унифицирует процедуру сбора данных с источников, имеющих разные форматы доступа и способы представления материала, имеет развитый API для разработчиков

 

Email для обратной связи: dnasonov@itmo.ru