Новую систему для распознавания речи представили разработчики из Оксфордского университета и лаборатории Google DeepMind. Они обучили нейросеть «понимать» речь ведущих, используя телепрограммы BBC, вроде Newsnight, BBC Breakfast и Question Time.
Всего нейросетью было «просмотрено» 5 000 часов эфира, которые содержат 118 116 предложений человеческой речи. Предварительно эти записи были обработаны: ученым пришлось синхронизировать звук и видео в каждом видеоролике, чтобы система смогла найти соответствие. Также в помощь был разработан модуль для распознавания речи WLAS (Watch, Listen, Attend and Spell).
После завершения обучения нейросеть протестировали на незнакомых ей программах. В итоге она смогла прочесть по губам речь телеведущих с точностью 46,8%. Отмечается также, что многие ошибки, сделанные системой, были крайне незначительны и не влияли на общее восприятие текста. При этом такое же задание человек, профессионально занимающийся чтением по губам, выполнил на 12,4%.