С 18 декабря синтез и распознавание речи в Voximplant Kit стали быстрее и точнее.  Улучшения затронули блок IVR – интерактивного голосового меню. 


Блок IVR позволяет использовать синтез голоса или аудиозапись для сообщения информации. Ответы же клиента могут быть приняты как в устной форме (распознавание речи), так и посредством нажатия клавиш на телефоне (DTMF) – возможно настроить оба варианта ответов одновременно.

Какие произошли изменения?

ASR–распознавание  теперь перенаправляет ответ по ветке IVR-блока сразу, как только определит нужный ответ – нет необходимости дослушивать фразу клиента до конца, как это было ранее.  Распознавание теперь осуществляется по частям при помощи настройки interim.result. Если же данный подход оказывается неэффективным для конкретного звонка, то есть если система не находит в речи клиента ключевых слов, определенных словарем блока в сценарии, то автоматически включается старое распознавание asr.result. Аsr.result слушает всю фразу целиком, ищет в ней триггерное слово или часть слова и только после этого маршрутизирует звонок по нужной ветке.   

Такой алгоритм позволяет минимизировать паузу после получения нужного триггера, так как распознавание ответа прекращается сразу после совпадения произнесенного слова с заданным в словаре. Длинные ответы, содержащие ключевое слово в начале фразы, обрабатываются в среднем в два и более раза быстрее, чем раньше.

Но это не единственные изменения. Улучшения затронули и синтез речи. TTS-синтез раньше озвучивал текст только после того, как обработает его весь. Теперь запись скачивается частями, и после того как первая часть обработана, робот начинает проговаривать текст. Параллельно скачивается вторая часть – и так далее до конца текста. Это позволяет сократить паузы перед началом воспроизведения.

В результате улучшения ASR-распознавания и TTS-синтеза  блок IVR Voximplant Kit стал работать более чем в два раза быстрее.