Ожидается, что рынок технологии распознавания речевых команд увеличится в четыре раза к 2010 году. Однажды каждым устройством, механизмом или компьютером можно будет управлять при помощи голоса. Очередное соревнование между человеком и компьютером прошло осенью 2006 года на конференции, посвященной новинкам в области технологии распознавания речевых команд. Человечество представлял 17-тилетний Бен Кук, внесенный в книгу рекордов Гиннеса как человек, быстрее всех в мире набирающий текстовые сообщения (смс). Компьютеры же представлял не сверхсовременный монстр, а вполне обычный мобильный телефон. Самое удивительное было в том, что аудитория, собравшаяся на конференции, жаждала победы...телефона. Кто быстрее преобразует предложение в текст на экране: быстрые пальцы Кука или элегантные алгоритмы новой речевой технологии от компании Nuance Communications? Тестовая фраза «Острозубые пираньи из семейств Serrasalmus и Pygocentrus считаются самыми свирепыми пресноводными рыбами в мире. На самом деле они редко атакуют человека» появилась на огромном экране проектора. Пальцы Кука бешено залетали над кнопками. Представитель Nuance Communications спокойно продиктовал фразу в микрофон мобильного телефона, и...Посетители конференции были ошеломлены. Технологии компании Nuance помогли распознать фразу и напечатать ее на экране мобильного телефона в виде текстового сообщения всего за...16 секунд! Куку потребовалось целых 48 секунд (на самом деле, нечеловеческая скорость набора), и он только и мог, что упавшим голосом повторять: «Я не понимаю, как вы это сделали!..» Они сделали это при помощи недавно разработанной технологии Mobile Dictation, которую собираются выпустить на рынок в первой половине 2007 года. Технология распознавания голосовых команд, появления которой ждали со дня на день, наконец-то громко заявила о себе. Усовершенствованный процесс распознавания, новый программный алгоритм и улучшенные микрофоны - вот что позволило корпорации Nuance создать систему, которая действительно работает и распознает голосовые команды с точностью до 100 процентов! Такие показатели создают головокружительный потенциал для роста рынка речевых технологий во многих отраслях жизни, начиная от управляемых голосом диктофонов и мобильных телефонов, и заканчивая автомобильными устройствами и военными радиопередатчиками. Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года. Внутри этого огромного рынка присутствуют более мелкие сегменты, к примеру, рынок речевых технологий для обслуживания информационно справочных служб, служб экстренной помощи и подобных услуг достиг в 2006 году показателя в 600 млн. долларов. Ожидается, что к 2009 году эти показатели удвоятся. Рынок речевых технологий, внедренных в мобильные телефоны или приборные доски автомобилей, на настоящий момент оценивается в 125 млн. долларов, а к 2010 году ожидается его удвоение до 500 млн. долларов за счет увеличения спроса на товары, управляемые голосовыми командами: мобильные телефоны, GPS-навигаторы в автомобилях, музыкальные плееры и пр. Многие эксперты склоняются к выводу, что вскоре технологиями распознавания речи будут оснащены практически все используемые человеком приборы. Резко выросший спрос на продукцию как компаний, уже зарекомендовавших себя на рынке речевых технологий, так и компаний-новичков, помогает им инвестировать свои капиталы. К примеру, в 2006 году Nuance приобрела компанию Dictaphone, чтобы усилить свое присутствие на рынке индустрии здравоохранения, в то время как продажи Nuance выросли на 20% и составили 300 млн. долларов. Новая операционная система компании Microsoft под названием Windows Vista была разработана с внедрением технологии распознавания речи, которую после серии досадных поломок и дефектов наконец отладили так, что теперь она заслуживает только восторженные рецензии экспертов. Известный Интернет-портал Google разрабатывает технологию, позволяющую совершать поиск при помощи речевых технологий. Таким образом, речевые технологии из необычного развлечения превращаются в серьезный бизнес. Точкой отсчета для развития речевых технологий стал 1952 год, когда исследователи из Bell Labs создали довольно примитивную систему, которая могла распознавать цифры, переданные голосом по телефону. С тех самых пор прогресса в этой области не наблюдалось, но теперь, с появлением значительно более мощных вычислительных компонентов, после многих лет проб и ошибок, система наконец-то научилась работать с огромным количеством акцентов, диалектов и дефектов речи. В 2004 году компания VoiceBox Technologies представила прототип разработанного ею устройства, который пришлось доставлять на место демонстрации в чемодане. Сегодня такая же система имеет размеры и толщину кредитной карты и вскоре будет установлена в приборной доске новой модели Toyota. Система VoiceBox настолько умна, что может анализировать речь в контексте всей фразы, чтобы, к примеру, понять, относится ли команда «трафик» к затруднению на дорогах, к музыкальному произведению Стива Винвуда или к фильму, в котором сыграл Майкл Дуглас. Современные системы распознавания речи отличаются высоким уровнем самообучения. Компания Tellme Networks создала систему, которую используют в информационных центрах. Платформа Tellme's за год распознает более 10 миллиардов слов и выражений и постоянно анализирует их, улучшая точность работы день за днем. «Распознавание речи полностью зависит от качества распознавания отдельных сегментов речи. Чем больше у вас данных, тем лучше работает система», - говорит исполнительный директор компании Джефф Кунинс. Технологии распознавания речевых команд становятся более ценными с точки зрения обслуживания клиентов. Информационные центры и службы поддержки давно пользуются дурной славой из-за навязшего на зубах «нажмите или произнесите цифру один» (наследие старых технологий распознавания речи). Но недовольство клиентов - это не единственный аргумент в пользу внедрения новых, современных технологий распознавания голосовых команд. Стоимость одного звонка в информационный центр составляет пять долларов, если с клиентом работал оператор, и всего пятьдесят центов, если клиент получил ответы на вопросы самостоятельно, используя новейшие технологии распознавания речи! Сетевой брокер E-Trade Financial использует технологию Tellme для обработки более чем 50 000 звонков в день. Более половины из них никогда не доходят до сотрудников-операторов на телефоне. Компания утверждает, что система Tellme помогает экономить 30 млн. долларов ежегодно. Пока рынок информационных центров и автомобильных приборных досок только начинает развиваться, настоящей «золотой жилой» становится улучшенная система распознавания голоса для всех видов мобильных устройств. Взять хотя бы мобильные телефоны: телекоммуникационные компании уверены, что пользователи будут готовы платить за дополнительные услуги - возможность диктовать письма для отсылки по электронной почте, искать нужную информацию и пр. - если в их мобильный телефон будет интегрирована простая в использовании технология распознавания голосовых команд. Эксперты предсказывают телекоммуникационным компаниям дополнительный доход в размере от 5 до 15 долларов с каждого клиента, готового пользоваться новой технологией. Речевые технологии можно использовать и в мп3-плейере, и в ноутбуке, и в управляемой голосом портативной системе навигации. Бывший инженер компаний Microsoft и Amazon Алекс Кастро создал компанию Pluggd, которая успешно занимается разработкой механизма Интернет-поиска, который соединяет в себе технологии распознавания речи и семантический анализ слова. Компания Vocera Communications около двух лет назад привлекла к себе внимание, создав и внедрив в производство электронный жетон - удостоверение личности, соединяющий в себе технологию распознавания голоса и технологию беспроводной связи. Среди клиентов компании - медицинские работники, которые пользуются своим удостоверением личности для подсоединения к базе больницы при помощи беспроводных технологий и поиска соответствующего специалиста для пациента, или для внесения записей в его учетную карту с помощью технологии распознавания речевых команд. Компания Vocera рассчитывает начать приносить прибыль не позже начала будущего года. Ее продукт VoxTec International's Phraselator, карманный переводчик размером с чековую книжку, прослушивает фразу на незнакомом языке, анализирует ее и выдает перевод. Эту разработку уже использовали американские войска в Ираке и Афганистане. Многие эксперты ожидают, что когда-нибудь технологии распознавания речи полностью вытеснят привычный для нас способ введения информации: печать на клавиатуре, нажатие на кнопки интерактивного интерфейса, запись от руки. Глава отдела технологий распознавания речи компании Microsoft считает, что придет день, и речевые технологии станут настолько развитыми, что смогут самостоятельно исправлять грамматические и стилистические ошибки. Технология компании Nuance, положившая на лопатки Бена Кука, на 25% лучше, чем аналогичная система, представленная компанией в прошлом году, а версия для продажи будет делать еще на 20% ошибок меньше, чем нынешняя версия программы. «Техника печати Бена невероятна, но он вряд ли сможет ускориться. А наша технология будет только улучшаться", - заявил глава отдела маркетинга компании Питер Махоуни. |