Голосовой прогресс

Речевые интерфейсы встанут в один ряд с тачскринами и сенсорами движения

Технологии распознавания голоса быстро эволюционируют. По мнению западных экспертов, близится время, когда примитивный голосовой набор на телефоне будет вспоминаться с улыбкой, а бытовые приборы начнут исправно управляться голосовыми командами, научившись в совершенстве распознавать то, что им между делом скажет человек.

Идея голосового управления предметами, воспетая, в частности, в сериале Star Trek, продолжает волновать исследователей. Ведь возможность подойти к кофеварке, сказать ей: «Двойной эспрессо» — и в ответ получить чашку с напитком выглядит чертовски привлекательной. Особенно в сравнении с голосовым набором в мобильниках, которым из-за его «непонятливости» мало кто пользуется.

Между тем, если верить сторонникам технологий распознавания речи, до момента, когда хорошо функционирующие устройства с голосовым управлением получат широкое распространение, уже рукой подать. «Я думаю, что мы являемся свидетелями настоящей эпохи возрождения в данной области», — отмечает Билл Mейсел, давний пропагандист систем голосового управления, редактор информационного бюллетеня Speech Strategy News. Он прогнозирует, что уже довольно скоро мобильные телефоны начнут выполнять функцию универсального пульта дистанционного управления, который позволит нам контролировать и программировать все — от микроволновки до будильника — исключительно при помощи голоса.

В свою очередь, Тодд Мозер, глава калифорнийской компании Sensory, считает, что в будущем получат распространение интернет-девайсы с голосовым управлением. Одним из примеров такого рода устройств мог бы стать радиоприемник с таймером, который не только сообщал бы текущее время, если его об этом спросить, но и рассказал бы о прогнозе погоды в любом месте земного шара, куда вы вскоре собираетесь отправиться.

Популяризаторы голосовых технологий говорят, что наступление эры таких технологичных помощников гораздо ближе, чем считает большинство людей. По их словам, голосовая идентификация — это уже не фантазии, а практичная технология, которая в последние годы ощутимо продвинулась вперед и исправно работает в определенных сферах. Они признают, что, действительно, широкое проникновение устройств, понимающих голос, было отсрочено во времени проблемами с точностью распознавания речи. Однако благодаря закону Мура производительность компьютеров и микропроцессоров при обработке произносимых слов постоянно улучшается. Продвинутые речевые системы в состоянии производить целенаправленный отбор соответствий сочетаниям звуков и сравнивать то, что произносится, со все большими базами данных слов и понятий.

Также точность распознавания речи улучшается методом сужения словарного запаса. Суть в том, что часто разумнее пойти по пути ограничения числа слов, которые должно понимать устройство. Скажем, Bluetooth-наушники смогут понять только считаные команды. Зато они будут понимать их настолько хорошо, что среагируют на команды, несмотря на акцент человека, а также смогут успешно их отфильтровывать, например, от болтовни радиоведущего. Другой способ сужения, улучшающего качество работы устройства, состоит в том, чтобы категоризировать информацию или сосредоточиться на отраслевых словарях. Некоторые программы перевода речи в текст, например, специально разработаны для медицинских профессий, таких как рентгенология.

Кроме того, нынешние достижения — это больше, чем просто улучшенная аккуратность распознавания, которой восторгаются финансово заинтересованные фирмочки-разработчицы. Технология стала большим бизнесом, и ее продвигают такие корпорации, как Apple, Microsoft и Google. Распознавание речи стало общим местом не только в сотовых телефонах, но также и в решении специфических задач, таких как расшифровка медицинской документации.

Помочь переместить речевые технологии в дома потребителей могут и две другие тенденции. Одна из них — требование «более естественных» способов взаимодействия с технологичными продуктами, такими как сенсорные экраны или датчики движения. Некоторые аналитики считают, что «речь» хорошо работала бы в связке с другими «естественными» интерфейсами. Другая тенденция — растущее число домашних сетей и устройств, подключенных к Интернету. Это обстоятельство позволило бы приборам загружать обновления, которые могут улучшить их способности к распознаванию речи и тем самым существенно продлить срок их эксплуатации.

Эксперты отмечают, что широкое внедрение управляемой речью техники — это уже не столько вопрос технологий, сколько решение потребителя. «Чем больше покупателей обзаведутся положительным опытом общения с одними устройствами, тем вероятнее, что они будут искать речевые интерфейсы и в других областях, — говорит Билл Mейсел. — Пока что опыт пользования данной опцией негативный, но это отношение изменится».

АНДРЕЙ СЕРДЕЧНОВ

27.07.2009

Голосовать: 
0
Голосов пока нет