Сервис сбора данных с публичных источников
Реализуется на основе программного комплекса автоматического интеллектуального сбора данных из различных Интернет-источников. Это интеллектуальный ассистент, обеспечивающий унифицированный подход к решению задачи сбора данных и избавляющий оператора от необходимости перебирать разные инструменты и форматы работы с данными в зависимости от источника информации.
Сервис может также использоваться для создания различных систем мониторинга сети Интернет.
Преимущества сервиса:
— Единый механизм сбора данных с собственным DSL для социальных сетей
— Мультиканальное использование со встроенными механизмами управления и квотирования (различные интерфейсы доступа)
— Применение технологии ИИ для распознавания элементов содержания новых источников и значимых ссылок переходов
— Распределенная масштабируемая система выполнения с оптимизацией функциональных блоков
— Уникальный интерфейс адаптивного сопровождения пользователя с возможностью построения цепочек заданий
Интеллектуальность решения заключается в автоматизации процесса сбора данных, в том числе, идентификации оптимальных траекторий сбора, обогащении и фильтрации массива обходных ссылок. Для этого используются две LSTM-модели, работающих в последовательном режиме. Первая модель обеспечивает корректность выбора переходов по имеющимся ссылкам. Вторая модель используется для выявления наиболее значимого контента на странице ресурса. Далее применяется механизм трансформации начального представления в единую структуру организации данных системы.
Сервис обеспечивает функции создания задач и сценариев сбора данных, тестирования задач и запуска различных сценариев их исполнения, локально и в распределенном режиме.
Можно использовать сервис через интерфейс Telegram, или посредством специального API (см. руководство).
Email для обратной связи: dnasonov@itmo.ru