3i Technologies представил облачный сервис для обработки речевой информации

Интеграция Бизнес-приложения
мобильная версия
, Текст: Владимир Бахур

Консорциум 3i Technologies завершил формирование функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиа-контентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.

На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т. д. 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудио-информации, обрабатывая ее в несколько раз быстрее реального времени звучания. После выдает «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала, система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке. 

«Сервис ориентирован на специалистов, работающих с голосовой информацией. Например, он будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций. А также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров. Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп», - сказал председатель совета директоров консорциума 3i Technologies Алексей Любимов.

В сервисе используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU. 

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев. 

Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. В 3i Speech Recognition может быть интегрирован сервис машинного перевода.    

Тестовая версия сервиса доступна по ссылке.