"Яндекс" представил мобильное приложение для перевода речи в текст и обратно
31.10.2014
На ежегодной конференции для разработчиков Yet Another Conference в Москве "Яндекс" представил разработку, которую с нетерпением ожидали пользователи. С ее помощью можно переводить речь в текст и наоборот - озвучивать тексты.
Ранее технология по распознаванию и синтезу речи под названием Yandex SpeechKit была доступна только сторонним разработчикам, а теперь ей могут пользоваться в мобильном приложении "Яндекс.Диктовка" обычные пользователи.
С помощью программы пользователи смогут диктовать заметки, СМС-сообщения, письма и комментарии в соцсетях. При этом программа сама расставит между словами необходимые знаки препинания. Благодаря новинке вскоре журналисты смогут экономить временя, которое они тратили на снятие записи с диктофона, а водители получат возможность слушать печатные тексты с любимых интернет-площадок, не отвлекаясь на чтение.
Приложение "Яндекс.Диктовка" работает с использованием трех новых функций технологии распознавания речи, разработанной компанией. Эти функции обеспечивают голосовую активацию работы приложения, выделение смысловых объектов в тексте и синтез речи из записанного текста.
Возможности приложения просто фантастические. Голосовая активация позволяет включить приложение голосовой командой, не нажимая никаких кнопок. После этого программа начинает записывать в текстовом виде произносимую речь. Текстовую запись можно редактировать также с помощью голосовых команд, например, "Удали последнюю фразу" или "Сотри последнее предложение". После записи сохраненный текст может быть преобразован обратно в речь. Кроме того, технология умеет выделять в распознанном тексте стандартные понятия - дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.
Пока система распознает русский и турецкий языки, в планах - английский. При этом демо-версия не способна распознавать спонтанную речь, а только тексты произвольной тематики от одного человека. Демонстрационное приложение доступно для скачивания в интернет-магазине в "Яндекс.Store", позднее разработчики намерены выложить его в Google Play и App Store.
Подобные технологии есть и у других интернет-компаний. Так, у Apple есть программа Dragon Dictation, которая распознает текст, позволяет скопировать и вставить его в другое приложение, а также сразу отослать в электронном письме или SMS, отправить в Twitter или Facebook. Есть голосовой поиск Dragon Search. В устройствах с операционной системой Android (разработчик - Google) есть голосовой поиск, возможность перевода речи в текст. С 2013 года функция распознавания речи появилась и в браузере Google Chrome: система умеет переводить устную речь в печатный текст. Разработчики благодаря Web Speech API могут встраивать функции, связанные с распознаванием речи и выполнением голосовых команд, в свои приложения.
Технологии обеих компаний (Apple и Google) умеют распознавать русский язык. Однако в русском "Яндексе" уверяют, что их разработка в отличие от зарубежных конкурентов лучше распознает русский язык.