Техническое описание платформы DataMall
DataMall представляет собой распределенную систему для управления жизненным циклом интеллектуальных объектов в качестве конечных сервисов, самостоятельных блоков и ИИ-элементов других систем. Она позволяет динамически (под конкретную задачу или пользовательский запрос) объединять источники данных, принадлежащих различным провайдерам. При этом целевое использование данных контролируется посредством технологии блокчейн, что формирует основу для биллинга и тарификации. Высокая производительность и масштабируемость при работе с данными из разнородных источников обеспечивается за счет интеллектуальных алгоритмов планирования вычислений, основанных на предсказании изменений нагрузки в распределенной среде больших данных, включая потенциальную активность пользователей. На основе среды управления данными автоматизируются основные процессы построения интеллектуальных моделей в различном виде: аналитических выражений, нейросетевых и семантических структур, правил и пр., в том числе моделей обучения профессиональных чат-ботов.
Состав платформы:
В основе DataMall лежит портал с выделенными цифровыми рынками: биржей задач, биржей данных и биржей аналитики, а также отдельной областью рабочих проектов и зоны администрирования.
Биржа задач является аукционом, на который попадают задачи, описанные в определенной форме, с выделенными ключевыми характеристиками: цель, ожидаемые результаты, сроки и бюджет.
Биржа данных также представляет собой аукцион, на котором отображаются витрины данных с информацией об их структуре и ценовой политике, мета-описаниями и прочими характеристиками, а также доступна возможность просмотра среза ожидаемых данных.
Биржа аналитики, в свою очередь, является пространством предложений на оказание услуг обработки больших данных и построения интеллектуальных моделей поверх них.
Структура и роли цифрового рынка:
— на первом этапе формируются проектные условия согласования работы, сроков, цен между всеми участниками рынка;
— на втором этапе запускаются работы по выполнению проекта по использованию больших данных.
Рабочее пространство пользователя представлено проектами, в которых он может участвовать в различных ролях: заказчика, владельца данных, аналитика и административного лица.
Заказчик осуществляет согласование условий запуска проекта (финансы, ресурсы, задачи), а также просматривает текущий процесс выполнения проекта, корректируя ход исследования путем уточнения результатов и целей.
Владелец данных определяет политику работы с собственными данными: какие данные и какими срезами (стратегии) можно реализовывать на цифровом рынке или какие данные могут быть обработаны и какими функциями. Также владелец данных следит за своевременным обновлением представленных массивов данных.
Аналитик — это специалист в области решения задач с использованием машинного обучения, который владеет информацией о текущем рынке данных, доступных в платформе ИИ моделях и методах обработки.
Архитектура DataMall
В основе DataMall лежит микро-сервисная архитектура, разработанная на базе современного технологического стека языков Scala, Python и JavaScript.
Рисунок 1 — Целевая архитектура платформы
В рамках платформы разрабатывается модульная система, со стороны клиентской части, каркас реализован с использованием технологий на основе JS React и Material UI с применением TypeScript. Со стороны серверной части реализована классическая трехуровневая логика, закрытая RestAPI (Swagger) с использованием технологий Akka, Persistance, Slick и Docker Compose.
Сценарий применения DataMall:
— владельцы данных регистрируют данные для аналитики и продажи, аналитики регистрируют свои команды, специализирующиеся на выполнении МО проектов;
— заказчики публикуют свои задачи, описывая цели, ресурсы, сроки;
— группы аналитиков просматривают опубликованные задачи, витрины данных и формируют свои предложения по возможностям реализации проектов;
— заказчики фильтруют и подтверждают в рамках своей задачи наиболее интересное предложение по времени, финансам, данным и ожидаемому результату, запуская проект в реализацию;
— проект создается под задачу с сопутствующим окружением для аналитической группы, включая данные, ресурсы и пространство для разработки на основе Jupyter Hub;
— разработка ведется поэтапно с генерацией сценариев для реализации процессинга и анализа данных, с дальнейшим построением моделей и получением финального результата.
Благодаря такому подходу к использованию интегрированных больших данных для решения различных задач на основе машинного обучения, торговля данными выходит на новый уровень, существенно преображая рынок Big Data.
Ресурсная база
На текущий момент платформе DataMall доступны гибридные ресурсы общей производительностью более 4,1 ПФлопс и более 1,5 Пбайт хранения данных.