提前1个月完成听说功能,对话也刚刚调通了。
1)听是用的科大讯飞的二麦“阵列”,usb口的,alsa api接口。当听到说话时,自动录下来存成文件。
2)语音识别stt用的讯飞的cloud,扔进去一会正常的话就会返回文本。现在有个问题是,网络稍微不好时,这个接口经常出问题。
3)语音合成tts也是用的讯飞cloud,这个很少出问题,主要原因是我扔出去的是text,很小。
4)对话用的alicebot这套,加个python解释器。没想到他用这么简单的路子居然实现了全世界效果很优秀的chatbot,也是奇葩了。
现在robi会根据我们说什么找到相应的句子回复我们。足球、宗教、性都可以聊了
代码已上传到github: https://github.com/NickQian/Robi-Transform-Project/
下一步是让它可以看,以及最主要的,更智能(智能=记忆+预测)。
所以刚下单买了块Raspberry 3,估计今明两天就能到。准备上ROS(装ubuntu系统算了,省得趟坑),虽然人们抱怨ROS有很好的替代品,ROS框架没搭好后面会很苦逼,但是以我的智商估计看不出框架问题;又因为真的开源(让我们嘲笑一下软银以及其它各种据说“开源”但只放了个API接口的玩意儿),我看好它的未来------想想当初linux在unix面前的屌丝样。以前用过高大上的unix,现在用linux,我也没看出linux蠢在哪里。
对本项目感兴趣可加微$信:ckingcfx并说明想做哪一块