Мы постоянно взаимодействуем с поисковыми системами и различными устройствами: ищем маршруты до определенных мест, заказываем еду, проверяем почту, отправляем файлы и пр. Голосовое управление позволяет нам тратить на это минимум времени. В его основе лежит технология распознавания речи. Как же она работает?
Мы уже рассказывали о синтезе речи, сегодня поделимся принципами работы технологии Speech-to-Text и способами ее использования в бизнесе.
Что такое распознавание речи
Распознавание речи или Speech-to-Text (STT) — технология преобразования речи в текст. Это многоуровневый процесс анализа акустических сигналов, их структурирования в слова, фразы, предложения и преобразования в текстовый формат. Технологию распознавания речи можно также называть технологией распознавания голоса.
Speech-to-Text используется, когда необходимо создавать много письменного контента, но при этом не использовать ручной набор текста. Также распознавание речи помогает людям с ограниченными возможностями, которым сложно печатать текст вручную.
Технология распознавания голоса существует уже около 70 лет. Раньше это все сводилось к распознаванию простых слов и построению акустической модели. Речь представлялась статично и сравнивалась с готовыми шаблонами в словарях, что часто вело к ошибкам. Сейчас уровень точности и использование Speech-to-Text в повседневной жизни вышли на новый уровень. Благодаря машинному обучению системы распознавания постоянно совершенствуются. Каждое новое распознавание определяет точность следующего.
Как работает Speech-to-Text
Когда голосовой запрос поступает в систему, она воспринимает это как сигналы, которые плавно переходят друг в друга без четких границ. Распознавание речи — это процесс восстановления того, что было сказано, по этим сигналам.
Обычно этот процесс делится на несколько этапов:
- Анализ сигнала. Компьютер отправляет полученный запрос на сервер, где он очищается от шумов и помех. После этого запись сжимается: делится на фрагменты длиной 25 миллисекунд. Каждый фрагмент пропускается через акустическую модель, которая определяет, какие именно звуки были произнесены, для последующего распознавания.
- Распознавание сигнала. Эталонные произношения, которые хранятся в акустической модели, сравниваются с каждым речевым фрагментом записи. Система с помощью машинного обучения подбирает варианты произнесенных слов и их контекст и собирает из звуков предполагаемые слова.
- Преобразование сигнала в текст. После этого, используя языковую модель, система определяет порядок слов и подбирает нераспознанные слова по контексту. Полученная информация поступает декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст с наиболее вероятной последовательностью слов.
Как распознавание речи используется в бизнесе
Использование распознавания речи сегодня помогает бизнесу развиваться в следующих направлениях:
- Интерактивные голосовые системы (IVR). Голосовые роботы позволяют автоматизировать общение с клиентами, снижают нагрузку на операторов и экономят средства компании на расширение контакт-центров.
СБЕР использует решения Voximplant для автоматизации работы колл-центра: робот самостоятельно отвечает на простые вопросы клиентов или помогает оператору найти нужную информацию. В процессе диалога оператора с клиентом происходит онлайн-транскрибация (распознавание речи) речи клиента и поиск подходящих ответов.
- Аналитика телефонных звонков. Аналитика телефонных разговоров развита хуже других каналов коммуникаций с клиентами. Это связано с тем, что звонки нужно записывать, прослушивать и после этого анализировать. С помощью технологии распознавания речи звонки можно анализировать автоматически.
- Проведение маркетинговых исследований. Система может самостоятельно обзванивать клиентов и узнавать их мнение о товарах или услугах. Для человека это не является трудной задачей, но автоматизация освобождает сотрудников от незначительных рутинных дел, а компании помогает сократить возможность человеческого фактора.
Например, проект «Совесть» модернизировал систему голосового взаимодействия в контактном центре с помощью Voximplant. Технологии синтеза и распознавания речи позволяют боту без оператора общаться с клиентами в двух направлениях: реагировать на обращения и помогать в решении проблем на входящей линии; проводить опросы при исходящих звонках. Благодаря боту проект контролирует качество обслуживания, оценивает уровень лояльности и удовлетворенности клиентов продуктом (NPS и CSI). Так, регулярно проводятся опросы по определенной выборке потребителей для сбора обратной связи.
- Персонализация предложений. С помощью технологий распознавания речи система может определить пол, возраст и другие данные о клиенте. Анализ этих данных позволяет выявить его потребности и предоставить соответствующие уникальные предложения о товарах или услугах.
- Сбор информации. Когда оператор получает информацию от клиента, ему необходимо занести ее в базу данных. Это действие можно автоматизировать, если настроить систему распознавания речи.
Проект «Совесть» с помощью технологий распознавания и синтеза речи также настроил голосовые уведомления и автоматизировал сбор информации. Бот совершает исходящие звонки, чтобы напомнить о необходимости внесения ежемесячного платежа или уточнить детали доставки карты. При этом количество исходящих звонков может достигать 2 тысяч в минуту, а режим работы позволяет задействовать его при необходимости 24/7.
- Найм сотрудников. Однообразный процесс в виде первичного отбора кандидатов технологии распознавания речи позволяют проводить без участия сотрудников HR-отдела. Система может задать кандидатам простые вопросы, проанализировать их ответы и оценить удовлетворенность. кандидата условиями работы. Мы уже писали о том, как компания KFC настроила автоматическую верификацию заявок, в статье о технологиях синтеза речи.
Помимо этого технологии распознавания речи активно используются и в других сферах:
- Голосовая почта. Позволяет диктовать и отправлять сообщения.
- Голосовой интерфейс. «Умный дом», голосовое управление бытовой техникой, навигацией в автомобиле и т. д.
- Социальные сервисы. Сервисы для людей с ограниченными возможностями.
Решение от Voximplant
Voximplant позволяет настраивать распознавание речи для автоматизированной обработки входящих звонков. Благодаря распознаванию речи и обработке естественного языка абоненты могут общаться с системой, как с живым человеком. Это избавляет от необходимости использовать ввод в тональном режиме и чрезмерно сложные подсказки меню. А передовая технология Voximplant способна понимать, что имеет в виду говорящий, ориентируясь не только на точные формулировки и ключевые слова, но и на контекст. Так, многие обращения могут обрабатываться без участия живого оператора.
Первая система распознавания речи появилась в 1952 году. Она преобразовывала названные числа в текст. Сейчас система распознавания речи есть почти у каждого в руках, так как установлена на многих смартфонах. Голосом мы можем управлять различными приложениями и девайсами, упрощающими нашу жизнь. Технологии распознавания речи вышли на новый уровень, и сейчас продолжают активно развиваться, являясь одним из самых важных направлений в сфере ИИ.