Microsoft сообщила об очередных доработках системы распознавания речи и снижении частоты появления ошибочных слов при обработке голосовых данных до рекордного показателя 5,1 %. В октябре прошлого года группе исследователей компании удалось достичь отметки 5,9 %, что обозначило паритет с человеком.
В обоих исследованиях сотрудники проводили транскрибирование записей с корпуса бесед Switchboard. Он включает примерно 2,4 тысячи диалогов и используется для тестирования систем распознавания голоса с начала 90-х годов XX века.
Новое исследование было проведено с целью достижения уровня точности, соответствующего уровню профессиональных наборщиков текста из аудиофайлов. У них была возможность прослушать материал несколько раз и определить его разговорный контекст, параллельно работая со своими коллегами.
По сравнению с прошлогодним достижением исследователи снизили частоту ошибочных слов приблизительно на 12 %. Они смогли достичь нового показателя благодаря улучшению акустических и языковых моделей на базе нейронных сетей. Также исследователи сумели заставить систему использовать цельные диалоги. Это позволило ей адаптировать транскрипции к контексту и прогнозировать слова и фразы — примерно так же, как и разговаривающие друг с другом люди.
Система распознавания речи Microsoft используется в таких сервисах как Cortana, Presentation Translator и Microsoft Cognitive Services.