模型浅谈
学习别人怎么理解模型
zx超
这个作者很懒,什么都没留下…
展开
-
NLP中的Tokenization(subword BPE--WPM--ULM )
NLP中的Tokenization转载 2022-04-11 23:21:31 · 205 阅读 · 0 评论 -
计算机工程与应用期刊投稿经验
计算机工程与应用期刊投稿经验直接上图:经历了两个多月的时间终于录用了,可能是因为十月一放假了,拖了很长时间。主要经过了两次外审,两次复审。其实论文没有太多进行修改,外审专家询问的较多,这时候只要把他们的问题回答清楚即可。录用的时候外审专家说的是:论文已按照要求进行了回复,建议录用。。。。。。。。怎么说呢,投稿建议是:这个期刊只要有自己的创新点即可,不管大小,一定解释清楚。虽然没赶上奖学金评审,但还是很开心的。。...原创 2021-10-27 15:03:36 · 6314 阅读 · 79 评论 -
speaker embeddings中的embeddings什么意思
转:链接:https://www.zhihu.com/question/267879982/answer/331017287来源:知乎做说话人识别,首先要获得每句话的一个低维表征向量,这个向量是要富含说话人信息,同时要少含有信道或噪声等无关信息,可用于做分类,称之为speaker representation。而常见的i-vector,就是属于speaker representation之一。而题主所问embedding,我认为是以网络中某层的输出,提取出一个低维固定向量,而这个向量能表征当前输入的fe转载 2021-05-25 17:05:34 · 1169 阅读 · 0 评论 -
基于RNN的CTC loss
CTC loss依据RNN网络的性质,每个时刻输出一个字符,RNN的最终输出是字符序列S ,需要后处理才能得到标签T 。在实际应用中,例如文字识别过程中,S 和T 的长度是变化的,且不是等长的,那么就需要一种算法来完成对齐操作。CTC算法能够自动地完成S 和T 对齐。为什么用前向后向算法?在隐马尔可夫HMM中,使用前向后向算法主要解决问题是:给定HMM模型λ,以及观测序列O,求输出观测序列概率P(O|λ)。使用直接计算法是不能计算出来的,计算量太大。而这个就是面临的就是这个问题。使用前向后向算转载 2021-04-23 21:36:53 · 497 阅读 · 0 评论 -
语音特征:mfcc、fbank和语谱图概述
语谱图一般口语上说的是语音的log谱特征,就是你用audition或者Audacity看到的横轴是时间,纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了:对语音序列做STFT,其中包括分帧,加窗和对每一帧的DFT变换,一般在语音识别里面会在加窗之后加一步预加重,输出的结果是复数(DFT的原因)。STFT的结果取模称为线性谱,再加log称为log谱,此处对应语谱图的概念。对线性谱做mel滤波,即乘上一组mel滤波系数(就是一组三角滤波器,放大了低频的成分),结果称为filte原创 2021-04-15 10:57:06 · 3768 阅读 · 0 评论