智能眼镜可识别无声语言指令

EchoSpeech是一款低功耗的可穿戴眼镜,采用声纳技术识别无声命令,通过深度学习算法实现约95%的准确性。这款设备无需摄像头,保护用户隐私,适合在各种场合与智能手机配合使用,为无法发声的人提供语音合成输入的可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一款名为EchoSpeech的低功耗可穿戴设备只需要几分钟的用户训练数据,就可以识别命令,并在智能手机上运行。

信息科学博士生Ruidong Zhang是“EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”的主要作者,该论文将于本月在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems )计算机协会会议上发表。

“对于无法发声的人来说,这种无声语音技术可能是语音合成器的绝佳输入。它可以让患者重新发声。“Zhang谈到该技术在进一步发展中的潜在用途。

在目前的形式下,EchoSpeech可以用于在不方便或不合适说话的地方通过智能手机与他人交流,如嘈杂的餐厅或安静的图书馆。无声语音系统还可以与触控笔配对,并与CAD等设计软件一起使用,几乎完全不需要键盘和鼠标。

EchoSpeech眼镜配备了一对麦克风和比铅笔橡皮擦还小的扬声器,成为一种可穿戴的人工智能声纳系统,在面部发送和接收声波并感应嘴部运动。然后,深度学习算法实时分析这些回波剖面,准确率约为95%。

“我们正在将声纳转移到身体上,”信息科学助理教授兼康奈尔大学未来交互智能计算机接口(SciFi)实验室主任Cheng Zhang说。

“我们对这个系统感到非常兴奋。”他说,“因为它推动了该领域的性能和隐私。它体积小、功耗低且隐私性高,这些都是在现实世界中部署新的可穿戴技术的重要功能。”

他表示无声语音识别的大多数技术仅限于一组选定的预定命令,并要求用户面对或佩戴摄像头,这既不实用也不可行。而且还存在涉及可穿戴相机的主要隐私问题——对于用户和与用户互动的人来说。

像EchoSpeech这样的声学传感技术消除了对可穿戴摄像机的需求。由于音频数据比图像或视频数据小得多,因此需要更少的带宽来处理,并且可以通过蓝牙实时中继到智能手机,信息科学教授François Guimbretière说。“而且由于数据是在智能手机上本地处理的,而不是上传到云端。隐私敏感信息不会离开用户的控制。”

信息源于:康奈尔大学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值