零基础入门语音识别-食物声音识别Task6

零基础入门语音识别-食物声音识别

Task6 语音识别基础知识介绍

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。
baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

不知不觉,这次学习的尾声已经到来,在进行最后的学习总结前,我先回顾了一边此前学习的内容。

零基础入门语音识别-食物声音识别Task1
零基础入门语音识别-食物声音识别Task2
零基础入门语音识别-食物声音识别Task3
零基础入门语音识别-食物声音识别Task4
零基础入门语音识别-食物声音识别Task5

语音识别基础与发展

其实,在日常生活里,语音识别的应用已经十分多样,听歌识曲、语言识别,声纹解锁等功能让声音的力量更进一步。

语音识别基础

语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题,给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为:
在这里插入图片描述
其中P(O|W) 叫做声学模型,描述的是给定词W时声学观察为O的概率;P(W)叫做语言模型,负责计算某个词序列的概率;P(O)是观察序列的概率,是固定的,是固定的,所以只看分母部分即可。

语音识别的发展

传统机器学习,基于统计的GMM-HMM,其中HMM (隐马尔可夫模型,Hidden Markov Model)用来描述信号动态特性(即语音信号相邻帧间的相关性),GMM(高斯混合模型,Gaussian Mixed Model)用来描述HMM每个状态的静态特性(即HMM每个状态下语音帧的分布规律);

与深度学习结合,DNN-RNN、DNN-HMM,可引入LSTM(长短期记忆网络,Long Short-Term Memory),DNN(深度学习网络,Deep Neural Networks),RNN(循环神经网络,Recurrent Neural Network);

迁移学习(Transfer learning)算法、以及注意力(Attention)机制的基于语音频谱图的CNN(卷积神经网络,Convolutional Neural Network)模型的兴起。

学习总结

第一次参加这类型的比赛,也第一次发现,原来工作中的人或是在忙碌的人,面对自己喜欢的事物,都在努力着,在群里的各路大牛,看直播时的醍醐灌顶,成为大学生差不多一年了,第一次有以前那种学习的兴奋感,而不是功利性的。
我希望再接下来的日子里,可以打好基础,将喜欢的事物完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值