• Практики для государства
• Практики для бизнеса
Practice description
Система интелектуального поиска по большим базам данных — это программное решение на основе технологий искусственного интеллекта, представленное в виде цифрового ассистента, которое разработано НИЦ АО «Швабе» в МФТИ. Цифровой ассистент реализует поиск по большим базам текстовых данных. В него встроен инструмент анализа естественной речи, а также инструмент коррекции опечаток и морфологии. Целью данного проекта является создание и внедрение наиболее быстрого и корректного поискового ассистента для больших архивов, таких как Государственный Архив РФ.
Проект находится на завершающей стадии, а именно на стадии внедрения системы в её законченном виде в Государственный Архив РФ. В рамках данного проекта был создан чат-бот на платформе Telegram для обработки входящих запросов по поиску и выдаче документов из архива.
Целевая аудитория проекта:
Корпоративные базы данных
Архивы
Библиотеки
Музеи
Образовательные учреждения
Государственные учреждения
Этапы внедрения проекта:
1 этап: разработка методологии поиска запрашиваемой информации по большим базам данных
2 этап: заключение соглашений с потенциальными партнерами проекта и сбор данных, необходимых для обучения модели
3 этап: формирование достоверной и актуальной базы данных
4 этап: разработка искусственного интеллекта с учетом разработанной методологии
5 этап: апробация системы искусственного интеллекта в ходе анализа новых текстовых данных
6 этап: завершение внедрения и подведение итогов об эффективности проекта
Эффективность системы выражается в следующих показателях
Снижение времени ожидания ответа на запрос с 2 недель до 1 минуты
Увеличение количества подходящих под запрос данных на 20%
Снижение к минимуму затрат человеческих ресурсов при обработке запросов
Увеличение объема цифровых суперсервисов
Функциональные возможности цифрового ассистента:
Поиск документов, и приведение выдержек из них, соответствующих запросам пользователя
Построение иерархий тем
Возможность распознания естественной речи при входящем запросе
Семантический анализ текста и естественной речи, автоматическая коррекция опечаток и морфологических ошибок во входящих запросах
Ранжирование результатов поиска по релевантности
Максимально достигнутое в ходе тестирования значение чувствительности модели распознания естественной речи при входящем запросе — 0,8918. Была создана библиотека TopicNet — автоматическое построение тематических сетей в прикладных задачах текстовой аналитики и анализа финансовых транзакционных данных. Это необходимо для снижения порога входа при использовании иерархических интерпретируемых тематических моделей в прикладных задачах и получения автоматизировано-настраиваемых базовых моделей высокого качества.
Сравнение с аналогами по конкретным результатам:
Партнеры проекта:
ПАО Сбербанк
ГА РФ
ПАО Ростелеком
Среднегодовая стоимость лицензии для заказчика варьируется в районе 10 млн рублей. Точная цена составляется при согласовании технического задания.