В 2016 году появится интеллектуальный анализатор спонтанной русской речи
Компания «ЦРТ-инновации» анонсировала появление экспериментального образца программного комплекса интеллектуального анализа спонтанной русской речи в 2016 году.
Как пояснил журналу RUБЕЖ Алексей Яковлев, исполнительный директор «ЦРТ - инновации», в настоящий момент компания завершила этап разработки алгоритмов, который начала еще в 2014 году, и приступила к созданию экспериментального образца программного комплекса, позволяющего решать такие задачи, как:
- Структурирование больших массивов необработанных данных методами иерархической кластеризации и тематической классификации. Решение этой задачи позволит получить представление о составе, структуре и содержании новой, незнакомой аналитику, базы данных.
- Поиск в массиве переговоров звукозаписей, нетипичных для конкретной выборки.
- Получение автоматических аннотаций переговоров, содержащих извлеченные из диалога смысловые паттерны и семантические связи.
- Выделение связных контекстов слов с использованием синтаксического и семантического парсинга для получения информации о том, в каких контекстах чаще всего употребляются интересующие эксперта персоны, организации, названия и другие именованные сущности.
Таким образом, разрабатываемый программный комплекс (ПК) предоставляет инструменты для решения задач структурирования, тематизации и понимания массивов текстовых данных, полученных в результате автоматического распознавания спонтанной русской речи. Программный комплекс снабжен интерактивным графическим интерфейсом, позволяющим пользователю активно взаимодействовать с системой: выбирать удобный режим исследования, изменять параметры системы, настраивать интерфейс визуализации.
ПК включает в себя следующие модули:
- Модуль иерархической кластеризации массивов текстов распознанной речи
- Модуль детектирования выбросов - звукозаписей, нетипичных (аномальных) для данной выборки
- Модуль определения тематики высказывания
- Модуль выявления ключевых (значащих) слов и семантических связей в текстах распознанной речи
- Модуль выделения связных контекстов для слов и именованных сущностей, содержащихся в речи
- Модуль автоматического аннотирования речевых сообщений
- Модуль визуализации результатов автоматического анализа
При разработке алгоритмов ПК использовалось совмещение наиболее успешных современных подходов речевой аналитики (проработанных, в основном, для иностранных языков, но не адаптированных ранее к анализу русского языка) с методами, учитывающими специфику русского языка и спонтанной диалоговой речи.
Пресс-служба компании «ЦРТ - инновации» пока не сообщает, сколько будет стоить программный комплекс при выходе на рынок. Однако журналу RUБЕЖ сообщили, что разрабатываемый ПК будет внедрен в продукты индустриального партнера ООО «Центр Речевых Технологий»: систему многоканальной записи «Незабудка 2» и систему речевой аналитики Speech Analytics Lab. Данные продукты уже имеют внедрения в крупные контактные центры и гос.службы, исходя из растущих потребностей которых и разрабатывались требования к новому ПК.