Будущее наступало на этом блоге уже столько раз, что впору задуматься куда оно каждый раз это делает. Однако сегодня нам приготовили кое–что действительно интересное. Компания Google сделала значительный шаг в популяризации голосовых интерфейсов, предоставив пользователям смартфонов с прошивкой Android версии 2.2 и выше бесплатное приложение, позволяющее совершать многие из привычных нам действий с помощью голоса. А именно, доступны: голосовой набор текстовых сообщений и е–мейлов, установка напоминаний, будильников, поиск контента как в памяти телефона, так и в сети, и многое другое.
Желающие могут посмотреть короткую и наглядную презентацию данного приложения, ну а критики приглашаются в комментарии, где я сам начну с небольшой ложки дегтя.
 в фейсбук
 в твиттер
вы смотрите все комментарии
Голосовые команды вообще признаны одной из самых неудачных функций в мобильниках. Ими почти никто не пользуется, и не из–за неудобства интерфейса, а банально из–за отсутствия приватности, конфуза управлять голосом на людях, неточности распознавания..
my_underside: согласен, но мне кажется, что на первом месте здесь все–таки неразвитость технологии. Я лично не имею телефона с распознаванием голоса, но насколько мне представляется, голосовое управление выглядит сейчас примерно так: человек держит телефон в руке микрофоном максимально близко ко рту в неестественной позе, потом неестественным голосом робота произносит что–нибудь вроде "Набрать Андрей сотовый", и потом напряженно ждет, поймет ли его телефон. Если представить, что "общение" с мобильником происходит настолько же ненапряжно, как и с человеком, то я лично могу вообразить себя пользующегося таким приложением.
Hinfa: Через гарнитуру это делается. Мобильник даже доставать не надо. По сути это удобно, на практике получается плохо. Но на мотороле голосовой набор из списка контактов работает.
JFH: и все же, мне кажется, что доступность широким массам технологий с такими широкими возможностями использования приближает нас к доступному рядовому пользователю "Дому 21 века", вроде тех, что мы видели в фантастических фильмах (из последнего — в Железном Человеке). И здесь вопрос не в том, надо ли оно нам, а в том, насколько скоро мы можем увидеть это в нашей с Вами жизни.
Hinfa: Если бы работало хорошо, то мне было бы удобно. И вызывать из списка контактов голосом, и песни переключать, и СМС–ки писать.
Hinfa: и еще. Я вижу возможность использования голосового набора текстовых сообщений как минимум для водителей. Будем объективны — куча автолюбителей любит "написать смсочку" за рулем, и мы знаем как часто это заканчивается плачевно. Уверен, что других вариантов использования можно придумать массу, нужно просто мыслить чуть шире прошлых стандартов.
Позвольте вставить свои пять копеек человеку, который занимается этим по долгу службы.

На данный момент приложение поддерживает только язык US English. То есть даже в случае успеха приложения пройдет немало времени, прежде чем оно научится распознавать сначала акценты английского, а затем и наш родной русский язык.

С этим никаких проблем нет. Компьютеру все равно, что распознавать, он не знает, какой акцент правильный. Все дело в том, на каких речевых базах данных тренировали акустические модели.

Кстати, гугл тут Америку не открыл, просто его презентация заметнее. Есть такая контора, Nuance, она на сегодня пожалуй лидер в этой сфере. Так у нее это уже давно все есть: http://nuance.com/mobiledevices/

И тот же Ньюанс уже успешно продает настольные решения для голосового ввода и управления для английского (британский, американский, австралийский, индийский акценты) и немецкого.
И до русского дойдет, просто сейчас вся разработка распознавания речи сконцентрирована в основном в США и Европе.


Любая презентация показывает все в идеальном свете, на деле же можно только представить то количество доработок которое потребуется приложению до того момента, пока его можно будет спокойно использовать, без необходимости по тридцать раз перепроверять его интерпретацию твоих слов.

А вот это напрямую тема моего диссера. Коротко говоря, нужно делать адаптацию под конкретного пользователя. Пройдя короткую тренировку, компьютер адаптирует акустические модели под ваше произношение, а в долгосрочной перспективе — под особенности вашей речи (словарь, построение фраз).


Ну и задумайтесь, наконец, сколько нервов может уйти у человека с плохим произношением, который благодаря мощи искусственного интеллекта начнет звонить совершенно не тем людям, отправлять е–мейлы другим адресатам и получать в поисковых запросах что–нибудь вроде такого, когда искал он на самом деле такое.

Пизду вместо плаката он вряд ли найдет. Для этого есть такая штука, как языковая модель, где задаются вероятности для цепочки слов. И выбирается самая вероятная. Как вы думаете, какая фраза более расхожая: "мы не сможем этого сделать" или "мы пизда это делать"?


Голосовые команды вообще признаны одной из самых неудачных функций в мобильниках. Ими почти никто не пользуется, и не из–за неудобства интерфейса, а банально из–за отсутствия приватности, конфуза управлять голосом на людях, неточности распознавания..

Мне кажется, есть одна сфера, где эти функции могут себя реально проявить — голосовое управление в автомобиле. Там нет особых шумов (а те что есть, легко устранить), сохраняется приватность и порой нельзя отвлекаться от дороги.

Еще есть автоматические

От себя добавлю — я искренне надеюсь что речевые технологии пойдут в жизнь. Гугл запустил свой Google Voice, авось что–то получится.
kometa_triatlon: Крупная слеза падает на ентер и отправляет комментарий :)

*Еще есть автоматические call–центры, которые уже работают в штатах и в ближайшем будущем будут незаменимы из–за огромного числа пользователей. Люди все просто физически не смогут обработать.
kometa_triatlon: В начале XX столетия английские футурологи предсказали, что через 20 лет Лондон погрязнет в лошадином навозе, потому что все улицы будут заполнены повозками.
Многие презентации продуктов и сервисов Гугла склонны вызывать нердгазм у IT–ориентированных масс, однако, особенно после печально известного случая с Гугл–Вейв, думаю, что нужно добавить немножко скепсиса.

1) На данный момент приложение поддерживает только язык US English. То есть даже в случае успеха приложения пройдет немало времени, прежде чем оно научится распознавать сначала акценты английского, а затем и наш родной русский язык.
2) Любая презентация показывает все в идеальном свете, на деле же можно только представить то количество доработок которое потребуется приложению до того момента, пока его можно будет спокойно использовать, без необходимости по тридцать раз перепроверять его интерпретацию твоих слов.
3) Ну и задумайтесь, наконец, сколько нервов может уйти у человека с плохим произношением, который благодаря мощи искусственного интеллекта начнет звонить совершенно не тем людям, отправлять е–мейлы другим адресатам и получать в поисковых запросах что–нибудь вроде такого, когда искал он на самом деле такое.
Hinfa: Можно было бы просто сделать пост по предпоследней ссылке. :)

размер 330x34, 0.67 kb

Oracle не обобряет этот пост
картавый заика ковбой дядя Пекос проклинает гугл.
Это — неправда.
Никакого скачка, никакого прорыва. Всё как всегда, просто Гугл умеет ПиАр.
Android 2.2 а что может быть выше? ))