Microsoft добилась наилучшего в истории ИТ распознавания речи компьютером

/
/ Microsoft добилась наилучшего в истории ИТ распознавания речи компьютером

Компьютер Microsoft стал рекордсменом по распознаванию человеческой речи с долей неправильно идентифицированных слов всего в 6,3% случаев. Успех принесло использование нейронных сетей и нового инструментария к ним, а также нешаблонный подход к возможностям графических процессоров.

Microsoft установила рекорд в распознавании человеческой речи

Microsoft добилась лучшего в ИТ-отрасли распознавания человеческой речи компьютером. Об этом компания сообщает в своем официальном блоге. Долю неправильно идентифицированных слов удалось сократить до 6,3%. Это на 0,3% меньше, чем рекорд компании IBM, о котором она сообщила на конференции Interspeech в Сан-Франциско на прошлой неделе. Microsoft отмечает, что путь к этому достижению был долгим — 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%.

По словам Сюэдона Хуана (Xuedong Huang), главного специалиста по данной теме в Microsoft, оценка результатов проводилась согласно Плану оценки распознавания речи, разработанному Национальным институтом стандартов и технологий США в 2000 г. Показатель Microsoft может считаться рекордным для систем распознавания, не основанных на системных комбинациях.

Технические основы распознавания речи в Microsoft

И Microsoft, и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г.

Microsoft поставила рекорд по компьютерному распознаванию речи

По словам Джеффри Цвейга (Geoffrey Zweig), руководителя исследовательской группы Speech & Dialog в Microsoft, еще одним критически важным компонентом исследования оказался нейросетевой инструментарий CNTK, который позволяет запускать глубинные обучающие алгоритмы. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи.

Сатья Наделла (Satya Nadella), генеральный исполнительный директор Microsoft, считает, что рекорд в распознавании речи — это шаг вперед в реализации новой стратегии компании «Общение как основа» (CaaP). Основная задача стратегии — добиться как можно более полного и непосредственного взаимодействия человека и компьютера, что невозможно без устного общения.

Виртуальный помощник Cortana

Распознаванием речи в Microsoft занимается виртуальный помощник с элементами искусственного интеллекта Cortana, который был представлен в ОС Windows 10, Windows 10 Mobile и Windows Phone 8.1. Работа Cortana как раз и основана на комбинации технологий CNTK и GPU. На сегодняшний день помощник владеет английским, французским, немецким, итальянским, испанским, китайским и японским языками. Cortana конкурирует с виртуальными помощниками других брендов — Siri компании Apple и Google Now компании Google.

Источник: Cnews


ИНТЕРЕСНЫЕ МАТЕРИАЛЫ В IT-СФЕРЕ
СМОТРЕТЬ ВСЕ