聋哑人双向交流系统实现

主要包括模型,数字人,前后端三大块。

双向交流过程如图。

手语主要分为静态手语和动态手语。刚开始项目的时候以为只有静态手语,决定用yolov7目标检测图片中的手语,因为要做数据集,拉框标注,但团队成员还不会做数据集,所以我决定改用mobilenetv3和resnet50模型做图像分类。

前后拉着拍了三次数据集,大部分都是我的图(所以大概14000+张图片了?真没想到这么多),所以这模型识别我的准确度奇高。

虽然没做,但是我们项目中还是要会吹的,比如,在未来我们也会使用数据增强(加噪点,旋转等等),在后端中提供个性化模型微调功能以提升识别准确度。

当然到这里还没完,现在只识别了单个词,聋哑人的语序和中文语序不一样,所以还需要nlp模型把词变成句子,最后通过文字转语音模型,才能使用麦克风进行播放。

至此从左往右的流程就结束了。

现在开始从右往左,麦克风录音健听人说的句子Whisper模型转文字,然后nlp模型进行分词,我们想自己实现一个数字人模型,这玩意一开始觉得没啥难度吧,真到实现的时候又卡住了,简单来说,我们需要自己建一个模型(maya),然后对模型进行绑定,绑定甚至还需要学人体,当然对于我们来说就需要重点了解嘴,胳膊,手的关节。绑定好之后,就是制作每个词对应的动作,呃.........就是需要一帧一帧自己来调模型,或者也可以用3d动捕来制作,当然买不起设备,就没有这种方法了。

这时候我们了解了手语不仅是手上的动作,有时嘴和整个胳膊都是信息,还好我们的模型可以提取到这些特征,只需对数据集进行改进。

是不是感觉模型非常的多,是的,我一开始使用tf2,然后又用了pytouch,最后呢又用了百度飞浆,一开始不愿意用感觉一更新代码就可能用不成,但是模型还是很全,都是现成的。

前端树莓派其实也好搞,只需要烧录镜像到sd卡,我烧的带图像化界面,通过vnc Viewer可以远程连接到树莓派,基本上其他硬件设备都是免驱使用的,支持python,所以前端使用了pyqt编写,注意使用多线程防止界面卡顿,使用http和后端进行通讯,所有的模型都上云部署,用了flask部署的,我那个时候GitHub还没有花里胡哨的模型部署方法。

看看ppt

同时还使用了vue3写后台管理系统,介绍产品和卖,后端就是ruoyi,因为我们项目叫基于多场景应用XXXXX,所以需要Saas多租户权限管理,我们也设计了两套产品,上面的基于计算机视觉,还有一个手套,基于多模态传感器,用stm32拿到数据之后也是传后端,让模型分析。

我们发现还有动态手语,所以识别手语一直做的不好。

而最近考研初试结束后,我又重看了项目,觉得可以先用mobilenet提取特征,然后用滑动窗口,把多帧特征送给transformer做分类,类似的手套也可以这么做,把多传感器的数据一起送给transformer做分类。但静态手语和动态手语混一起的时候,怎么分词是一个问题,大概我想,可以类似llm的token一样,其实一个token也并不一定是一个单词,数据集可以一句话,一个词这样去录视频。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值