Созданы очки, которые с помощью ИИ читают шепотную речь

Ученые из Корнельского университета создали девайс с интерфейсом на основе искусственного интеллекта, который использует анализ акустических колебаний и движений губ и рта для распознавания шепота.

Легкому, носимому интерфейсу, который назвали EchoSpeech, для обучения на данных пользователя необходимо всего несколько минут, и он уже может распознавать команды и его можно запустить в мобильном приложении на смартфоне.

Ведущий автор исследования доктор Жуйдун Чжан считает, что созданная технология позволяет с помощью девайса в виде очков непрерывно распознавать тихую речь.

Это особенно актуально для людей, у которых есть проблемы с речью и разработанная технология анализа тихой речи может быть использована как входная информация для голосового синтезатора. Это позволит пациентам вернуть речевые функции.

В настоящее время EchoSpeech может быть использован для общения с другими людьми через смартфон в местах, где громкая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Речевой интерфейс также возможно использовать вместе со стилусом и с помощью программного обеспечения заниматься проектированием, что позволит практически полностью исключить необходимость в клавиатуре и мыши.

Маломощный носимый интерфейс EchoSpeech может быть запущен на смартфоне и для обучения на данных пользователя ему необходимо только несколько минут.

Очки EchoSpeech оснащены парой микрофонов и динамиков маленького размера и представляют собой переносную гидролокационную систему с искусственным интеллектом, которая принимает и отправляет звуковые волны по лицу и воспринимает движения рта. Затем полученные эхо-профили анализируются в режиме реального времени алгоритмом ИИ с точностью почти 95%.

Существующие технологии распознавания немой речи имеют ограничения, так как требуется, чтобы пользователь носил камеру или смотрел в нее, что не всегда целесообразно или выполнимо. Кроме того, носимые камеры создают проблемы с конфиденциальностью.

Технология акустического восприятия EchoSpeech позволяет избавиться от ношения видеокамер. Кроме того, обработка аудиоданных требует значительно меньше ресурсов, чем видеоданные и это позволяет передавать данные в режиме реального времени через беспроводную связь Bluetooth на смартфон. Данные от пользователя обрабатываются на его смартфоне и, таким образом, сохраняется конфиденциальность информации.