语音助手小记

背景

最近在装修,网上看米家磁吸灯测评视频的时候,看到了有人打印了Moss装了小爱音箱挂轨道上。

有了一个想法,自己做个语音助手,能够装在Moss里,家里也组一套设备,能搞些事情。

网上搜了下稚晖君做了个Pico个人语音助手,有点意思,那就搞起。

调研

在我理解,这东西无非是语音识别、然后处理、然后文字转语音。

First of All, 得先能识别语音,看了Pico音箱,还有他参考的开源的悟空语音助手,都是拿大厂的在线语音API来做ASR,所以他们都要先有个唤醒词,然后再录音再转换再执行。

这里想起来之前看的大狸子的视频,小鹏汽车的车机语音助手,可以不需要唤醒词开头,可以把唤醒词放在最后甚至不用唤醒词。

所以既然做了,我想做的是:实时的语音检测,把带唤醒词的话拿来执行,做到小鹏那样的效果,不带唤醒词的以后再说。

既然如此,那用在线API就不现实了,不可能实时都调用,要钱的,而且断句感觉也是个问题,Pass。

于是乎去探寻有没本地能做的实时语音转文字方案,找到了一些,最后目标锁定在Wenet,打算开始折腾一下看看。

开搞

网上找了一些wenet的教程文章啥的,感觉很奇怪,基本没怎么找到靠谱的教程,GitHub上的文档也比较模糊,也可能我是新手,背景知识不足?事后看也确实是。。

反正先动起来试试,首先是搭环境,手上就一台多年前的win本,先装了个virtualbox,准备整个Ubuntu环境来搞,选择版本上,看到有教程建议18.04,GitHub上也没说明版本,那就先试试18.04,后来装了conda,跟这个版本也没啥关系了,当然这是后话,这里主要想记录下过程

Ubuntu坑

这里踩了不少坑,大概记录下,从装了18.04开始

看了Wenet介绍要求Python3.6+,然后可以直接pip安装,于是也没思考,就先在Ubuntu上给装了个3.8,装完发现原来就有自带3.6了,也蛮用,整了个pip后就打算安装,结果这个版本的pip提示找不到wenetruntime,这就很尴尬了。

于是另辟蹊径,打算直接拉源码然后python3 setup,接着给我提示缺cmake,那就装,apt-get了一个,继续编译又提示cmake版本太低。。

只能卸了apt的cmake,去网上找了cmake高版本源码,然后编译、安装,折腾。。。

继续setup,整个过程动不动就失败,感觉是一开始python版本的原因,放弃了,又换了python3.8跑,应该是没换python3软链接的原因,还是各种失败,又看到conda也没有python3.6的版本,放弃,推倒重来吧。。。

于是打算直接提高ubuntu版本先,搜了下,20.04默认python是3.8,那就先搞这个。
先装了个desktop版本,不知道为什么一直打不开terminal,商店下了个power shell也打不开,淦!欺负我胖虎!

最后又装了个Server版的,总算能开始了。

跑起来

搞完系统,离跑起来还有段距离。

前面踩了些坑,装完系统,先看了下python版本,3.8,很棒,再apt-get了一个cmake,看版本,满足。

然后装了pip3,就直接pip3 install 了,然后发现速度奇慢,我想着慢就慢吧,多等等,发现后面还要下载torch,900MB,太慢了,放弃

网上找了下,换源,换了阿里的源,很棒。

装完之后准备开跑,其实怎么跑我也完全没概念,网上教程乱七八糟,GitHub上也看不明白,更多好像是在教你怎么训练?但我并不打算训练啊。

后面发现里面那个web啥的例子,用gradio来搭了简单的例子,试试看!

运行就提示缺libcuu啥的,网上找了下,就是缺N卡的驱动,淦!我这破电脑没显卡啊!

网上找了一番,pytorch有纯cpu版的,于是用pip把之前自动安装的torch卸了,装了对应版本的纯cpu版,再尝试run一个,居然真的起来了。

接着就是自动下载中文模型,等了一会就起来了

网页连上gradio,点击录音,没反应,也停不下来,搞不懂了。。。。

算了,我就想先跑一个试试,不要gradio了

了解了一番,看着需要输入音频pcm的数据,用win自带的录音录了一段话,存完发现是m4a,不满足,又不知道怎么转。。。。

网上找了个在线转换,试了下,转成了pcm,然后照着别人的样子,读取传入解析,扑街,淦!
然后又看到有能传入wav文件的接口,再试试,还是用在线转换,转成wav,读取传入解析,扑街!!

提示说因为nchannel=1所以不可以,查了下是单通道音频的意思,我就不理解了,做语音转换干啥要多通道啊!

找了各种方法,想把单通道合成多通道,怎么都不成功,想放弃了。。

后面可算网上找到了个别人录的音频,拿去解析,没报错!就是卡住了好像,等了一分多钟,居然吐字了,可算是成功翻译了点东西出来,虽然慢了点。

End

总算第一步跑起来了,CPU看着慢了点,但还是有希望,下一步不如先攒个机吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值