Ученые из Корнельского университета создали девайс с интерфейсом на основе искусственного интеллекта, который использует анализ акустических колебаний и движений губ и рта для распознавания шепота.
Легкому, носимому интерфейсу, который назвали EchoSpeech, для обучения на данных пользователя необходимо всего несколько минут, и он уже может распознавать команды и его можно запустить в мобильном приложении на смартфоне.
Ведущий автор исследования доктор Жуйдун Чжан считает, что созданная технология позволяет с помощью девайса в виде очков непрерывно распознавать тихую речь.
Это особенно актуально для людей, у которых есть проблемы с речью и разработанная технология анализа тихой речи может быть использована как входная информация для голосового синтезатора. Это позволит пациентам вернуть речевые функции.
В настоящее время EchoSpeech может быть использован для общения с другими людьми через смартфон в местах, где громкая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Речевой интерфейс также возможно использовать вместе со стилусом и с помощью программного обеспечения заниматься проектированием, что позволит практически полностью исключить необходимость в клавиатуре и мыши.
Маломощный носимый интерфейс EchoSpeech может быть запущен на смартфоне и для обучения на данных пользователя ему необходимо только несколько минут.
Очки EchoSpeech оснащены парой микрофонов и динамиков маленького размера и представляют собой переносную гидролокационную систему с искусственным интеллектом, которая принимает и отправляет звуковые волны по лицу и воспринимает движения рта. Затем полученные эхо-профили анализируются в режиме реального времени алгоритмом ИИ с точностью почти 95%.
Существующие технологии распознавания немой речи имеют ограничения, так как требуется, чтобы пользователь носил камеру или смотрел в нее, что не всегда целесообразно или выполнимо. Кроме того, носимые камеры создают проблемы с конфиденциальностью.
Технология акустического восприятия EchoSpeech позволяет избавиться от ношения видеокамер. Кроме того, обработка аудиоданных требует значительно меньше ресурсов, чем видеоданные и это позволяет передавать данные в режиме реального времени через беспроводную связь Bluetooth на смартфон. Данные от пользователя обрабатываются на его смартфоне и, таким образом, сохраняется конфиденциальность информации.