Пока опробовать технологию могут некоторые пользователи мобильного приложения соцсети
В социальной сети «ВКонтакте» появилась функция расшифровки голосовых сообщений длительностью до 30 секунд. За распознавание речи отвечает новая нейросеть, которая учитывает высокую нагрузку платформы, а также русскоязычный сленг и сложные условия записи.
«Расшифровка аудиосообщений — уникальная и по-своему интересная задача, которая значительно отличается, например, от распознавания речи в голосовых помощниках. С другом в чате общаются совсем не так, как с умной колонкой: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений. Нейросеть должна не просто понять речь, но и сформулировать связный текст. Поэтому на самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке», —отметил директор по исследованиям в области искусственного интеллекта «ВКонтакте» Павел Калайдин.
Благодаря функции расшифровки речи голосовые сообщения (как полученные, так и отправленные) теперь можно находить в переписке при помощи поиска по тексту.
Пока нововведение могут испробовать некоторые пользователи мобильного приложения соцсети, всем оно станет доступно в ближайшую неделю. В будущем функция распознавания речи будет добавлена в веб-версию «ВКонтакте», а расшифровать можно будет как более длинные, так и пересланные сообщения.
Ранее «ВКонтакте» представила сервис для создания вертикальных видеороликов «Клипы», которым можно управлять жестами с помощью AR-механик.