Университет ИТМО

Сервис сбора данных с публичных источников

 

Реализуется  на основе программного комплекса автоматического интеллектуального сбора данных из различных Интернет-источников. Это интеллектуальный ассистент, обеспечивающий унифицированный подход к решению задачи сбора данных и избавляющий оператора от необходимости перебирать разные инструменты и форматы работы с данными  в зависимости от источника информации.

 

 

Сервис может также использоваться для создания различных систем мониторинга сети Интернет.

Преимущества сервиса:

— Единый механизм сбора данных с собственным DSL для социальных сетей
— Мультиканальное использование со встроенными механизмами управления и квотирования (различные интерфейсы доступа)
— Применение технологии ИИ для распознавания элементов содержания новых источников и значимых ссылок переходов
— Распределенная масштабируемая система выполнения с оптимизацией функциональных блоков
— Уникальный интерфейс адаптивного сопровождения пользователя с возможностью построения цепочек заданий

Интеллектуальность решения заключается в автоматизации процесса сбора данных, в том числе, идентификации оптимальных траекторий сбора, обогащении и фильтрации массива обходных ссылок. Для этого используются  две LSTM-модели, работающих в последовательном режиме. Первая модель обеспечивает корректность выбора переходов по имеющимся ссылкам. Вторая модель используется для выявления наиболее значимого контента на странице ресурса. Далее применяется механизм трансформации начального представления в единую структуру организации данных системы. 

Сервис обеспечивает функции создания задач и сценариев сбора данных, тестирования задач и запуска различных сценариев их исполнения, локально и в распределенном режиме.

Можно использовать сервис через интерфейс Telegram, или посредством специального API (см. руководство). 

 

Руководство для ознакомления

 

Email для обратной связи: dnasonov@itmo.ru