Solution
Команда практики
Market segment
  • • Практики для государства

  • • Практики для бизнеса

Practice description

Система интелектуального поиска по большим базам данных — это программное решение на основе технологий искусственного интеллекта, представленное в виде цифрового ассистента, которое разработано НИЦ АО «Швабе» в МФТИ. Цифровой ассистент реализует поиск по большим базам текстовых данных. В него встроен инструмент анализа естественной речи, а также инструмент коррекции опечаток и морфологии. Целью данного проекта является создание и внедрение наиболее быстрого и корректного поискового ассистента для больших архивов, таких как Государственный Архив РФ.

Проект находится на завершающей стадии, а именно на стадии внедрения системы в её законченном виде в Государственный Архив РФ. В рамках данного проекта был создан чат-бот на платформе Telegram для обработки входящих запросов по поиску и выдаче документов из архива.

Целевая аудитория проекта: 

  • Корпоративные базы данных

  • Архивы

  • Библиотеки

  • Музеи 

  • Образовательные учреждения

  • Государственные учреждения

Этапы внедрения проекта:

  • 1 этап: разработка методологии поиска запрашиваемой информации по большим базам данных

  • 2 этап: заключение соглашений с потенциальными партнерами проекта и сбор данных, необходимых для обучения модели

  • 3 этап: формирование достоверной и актуальной базы данных 

  • 4 этап: разработка искусственного интеллекта с учетом разработанной методологии

  • 5 этап: апробация системы искусственного интеллекта в ходе анализа новых текстовых данных

  • 6 этап: завершение внедрения и подведение итогов об эффективности проекта

Эффективность системы выражается в следующих показателях

  • Снижение времени ожидания ответа на запрос с 2 недель до 1 минуты

  • Увеличение количества подходящих под запрос данных на 20%

  • Снижение к минимуму затрат человеческих ресурсов при обработке запросов

  • Увеличение объема цифровых суперсервисов

Функциональные возможности цифрового ассистента:

  • Поиск документов, и приведение выдержек из них, соответствующих запросам пользователя

  • Построение иерархий тем

  • Возможность распознания естественной речи при входящем запросе

  • Семантический анализ текста и естественной речи, автоматическая коррекция опечаток и морфологических ошибок во входящих запросах

  • Ранжирование результатов поиска по релевантности

Максимально достигнутое в ходе тестирования значение чувствительности модели распознания естественной речи при входящем запросе — 0,8918. Была создана библиотека TopicNet — автоматическое построение тематических сетей в прикладных задачах текстовой аналитики и анализа финансовых транзакционных данных. Это необходимо для снижения порога входа при использовании иерархических интерпретируемых тематических моделей в прикладных задачах и получения автоматизировано-настраиваемых базовых моделей высокого качества.

Сравнение с аналогами по конкретным результатам:


Партнеры проекта:

  • ПАО Сбербанк

  • ГА РФ

  • ПАО Ростелеком

Среднегодовая стоимость лицензии для заказчика варьируется в районе 10 млн рублей. Точная цена составляется при согласовании технического задания.

Implementation cost: Up to 500 thousand ₽

Additional materials