Мы постоянно взаимодействуем с поисковыми системами и различными устройствами: ищем маршруты до определенных мест, заказываем еду, проверяем почту, отправляем файлы и пр. Голосовое управление позволяет нам тратить на это минимум времени. В его основе лежит технология распознавания речи. Как же она работает?

Мы уже рассказывали о синтезе речи, сегодня поделимся принципами работы технологии Speech-to-Text и способами ее использования в бизнесе.

Что такое распознавание речи

Распознавание речи или Speech-to-Text (STT) — технология преобразования речи в текст. Это многоуровневый процесс анализа акустических сигналов, их структурирования в слова, фразы, предложения и преобразования в текстовый формат. Технологию распознавания речи можно также называть технологией распознавания голоса. 

Speech-to-Text используется, когда необходимо создавать много письменного контента, но при этом не использовать ручной набор текста. Также распознавание речи помогает людям с ограниченными возможностями, которым сложно печатать текст вручную.

Технология распознавания голоса существует уже около 70 лет. Раньше это все сводилось к распознаванию простых слов и построению акустической модели. Речь представлялась статично и сравнивалась с готовыми шаблонами в словарях, что часто вело к ошибкам. Сейчас уровень точности и использование Speech-to-Text в повседневной жизни вышли на новый уровень. Благодаря машинному обучению системы распознавания постоянно совершенствуются. Каждое новое распознавание определяет точность следующего. 

Как работает Speech-to-Text 

Когда голосовой запрос поступает в систему, она воспринимает это как сигналы, которые плавно переходят друг в друга без четких границ. Распознавание речи — это процесс восстановления того, что было сказано, по этим сигналам.

Обычно этот процесс делится на несколько этапов:

  1. Анализ сигнала. Компьютер отправляет полученный запрос на сервер, где он очищается от шумов и помех. После этого запись сжимается: делится на фрагменты длиной 25 миллисекунд. Каждый фрагмент пропускается через акустическую модель, которая определяет, какие именно звуки были произнесены, для последующего распознавания.
  2. Распознавание сигнала. Эталонные произношения, которые хранятся в акустической модели, сравниваются с каждым речевым фрагментом записи. Система с помощью машинного обучения подбирает варианты произнесенных слов и их контекст и собирает из звуков предполагаемые слова.
  3. Преобразование сигнала в текст. После этого, используя языковую модель, система определяет порядок слов и подбирает нераспознанные слова по контексту. Полученная информация поступает декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст с наиболее вероятной последовательностью слов.

Как распознавание речи используется в бизнесе

Использование распознавания речи сегодня помогает бизнесу развиваться в следующих направлениях: 

  • Интерактивные голосовые системы (IVR). Голосовые роботы позволяют автоматизировать общение с клиентами, снижают нагрузку на операторов и экономят средства компании на расширение контакт-центров. 

СБЕР использует решения Voximplant для автоматизации работы колл-центра: робот самостоятельно отвечает на простые вопросы клиентов или помогает оператору найти нужную информацию. В процессе диалога оператора с клиентом происходит онлайн-транскрибация (распознавание речи) речи клиента и поиск подходящих ответов.

  • Аналитика телефонных звонков. Аналитика телефонных разговоров развита хуже других каналов коммуникаций с клиентами. Это связано с тем, что звонки нужно записывать, прослушивать и после этого анализировать. С помощью технологии распознавания речи звонки можно анализировать автоматически.
  • Проведение маркетинговых исследований. Система может самостоятельно обзванивать клиентов и узнавать их мнение о товарах или услугах. Для человека это не является трудной задачей, но автоматизация освобождает сотрудников от незначительных рутинных дел, а компании помогает сократить возможность человеческого фактора. 

Например, проект «Совесть» модернизировал систему голосового взаимодействия в контактном центре с помощью Voximplant. Технологии синтеза и распознавания речи позволяют боту без оператора общаться с клиентами в двух направлениях: реагировать на обращения и помогать в решении проблем на входящей линии; проводить опросы при исходящих звонках. Благодаря боту проект контролирует качество обслуживания, оценивает уровень лояльности и удовлетворенности клиентов продуктом (NPS и CSI). Так, регулярно проводятся опросы по определенной выборке потребителей для сбора обратной связи.

  • Персонализация предложений. С помощью технологий распознавания речи система может определить пол, возраст и другие данные о клиенте. Анализ этих данных позволяет выявить его потребности и предоставить соответствующие уникальные предложения о товарах или услугах.
  • Сбор информации. Когда оператор получает информацию от клиента, ему необходимо занести ее в базу данных. Это действие можно автоматизировать, если настроить систему распознавания речи. 

Проект «Совесть» с помощью технологий распознавания и синтеза речи также настроил голосовые уведомления и автоматизировал сбор информации. Бот совершает исходящие звонки, чтобы напомнить о необходимости внесения ежемесячного платежа или уточнить детали доставки карты. При этом количество исходящих звонков может достигать 2 тысяч в минуту, а режим работы позволяет задействовать его при необходимости 24/7.

  • Найм сотрудников. Однообразный процесс в виде первичного отбора кандидатов технологии распознавания речи позволяют проводить без участия сотрудников HR-отдела. Система может задать кандидатам простые вопросы, проанализировать их ответы и оценить удовлетворенность.  кандидата условиями работы. Мы уже писали о том, как компания KFC настроила автоматическую верификацию заявок, в статье о технологиях синтеза речи.

Помимо этого технологии распознавания речи активно используются и в других сферах: 

  • Голосовая почта. Позволяет диктовать и отправлять сообщения.
  • Голосовой интерфейс. «Умный дом», голосовое управление бытовой техникой, навигацией в автомобиле и т. д.
  • Социальные сервисы. Сервисы для людей с ограниченными возможностями.

Решение от Voximplant

Voximplant позволяет настраивать распознавание речи для автоматизированной обработки входящих звонков. Благодаря распознаванию речи и обработке естественного языка абоненты могут общаться с системой, как с живым человеком. Это избавляет от необходимости использовать ввод в тональном режиме и чрезмерно сложные подсказки меню. А передовая технология Voximplant способна понимать, что имеет в виду говорящий, ориентируясь не только на точные формулировки и ключевые слова, но и на контекст. Так, многие обращения могут обрабатываться без участия живого оператора.

Первая система распознавания речи появилась в 1952 году. Она преобразовывала названные числа в текст. Сейчас система распознавания речи есть почти у каждого в руках, так как установлена на многих смартфонах. Голосом мы можем управлять различными приложениями и девайсами, упрощающими нашу жизнь. Технологии распознавания речи вышли на новый уровень, и сейчас продолжают активно развиваться, являясь одним из самых важных направлений в сфере ИИ.