自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 一些知识点的理解

RVQ::什么是残差矢量量化? (chinasem.cn)

2024-10-09 12:33:50 202

原创 环境报错日记

解决方案:pip install setuptools==59.5.0。解决方案:pip install protobuf==3.20.*

2024-04-09 21:51:25 1168 1

原创 学习笔记(LSA,CTC,RNN-T,)

下图中encoder将语言的噪音移除,只提取与语音识别相关的内容。encoder可以用RNN、CNN、self-attention Layers等方法来实现。

2023-08-26 00:10:33 112

原创 学习笔记(GMM,HMM)

隐马尔可夫模型是关于时间序列的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态序列,再由各个状态生成一个观测而产生观测序列的过程。举个例子,加入科学家们需要根据小明每天吃冰激凌的数量1,2,3来判断那天的天气,那么观测序列O可以是O=(3,1,3)对应的天气的状态序列Q则为Q=(hot,cold,hot),观测序列就是可以直观感受到的,状态序列则需要通过观测序列推理得到。

2023-08-25 04:23:20 1664 1

原创 语音特征提取笔记

分帧:因为语音信号有短时平稳的属性,且在语言识别时,识别过程也是以比较小的发音单元为单位进行识别。下图中,将频域信号分解成了谱包络和谱细节,谱包络信号变化慢,谱细节信号变化剧烈,频域信号等于谱包络和谱细节的乘积。如下图蓝色信号为原始信号,红色信号为预加重后的信号。下图是语谱图的生成过程。下图中彩色的图为语谱图,它是个三维图像,图形的颜色是第三个维度。傅里叶变换将上一步分帧后的语音帧,由时域变换到频域,去DFT系数的模,得到谱特征。预加重滤波器是一个一阶高通滤波器,给定时域信号x[n],预加重后的信号为。

2023-08-11 23:15:27 176 1

原创 离散傅里叶变换(DFT)

通过计算得出X[2]=X[38]=20,X[0]=X[1]=X[3]=X[4]=..........=X[37]=X[39]=0,可以看出基信号2和基信号38与原信号有相关性,其余基信号与原信号不相关。可以看到该公式是将原信号与基信号做了內积,与余弦信号做內积相当于将原信号投影在了余弦轴上。具体计算过程如下图,这里我们计算基信号7和原信号的相关程度,右边信号是基信号7的信号图。,对于40个信号点,计算机会选出40个基信号(40是原信号的采样数),其中第一个信号在40个采样中振动0个周期,函数为。

2023-08-11 22:28:33 1572 1

原创 语音笔记(1)

对于语音生成的过程可以简单理解成一个源滤波器的模型,发音由信号源(声门)经过滤波器(口腔、鼻腔、嘴型等)产生。音素可具化为实际的音,该过程称为音素的语音体现。1. 音素(phoneme):也称音位,是能够区别意义的最小语音单位,同一音素由不同人/环境阅读,可以形成不同的发音。语音识别框架如下图,将音频进行特征提取,将提取到的结果放到解码器中,根据声学模型、语言模型、发音词典最终识别出结果。在说一段话时,每个音会因为惯性作用,发每个音可能会受到前面后后面音的影响,这个影响就是协同发音的作用。

2023-08-05 13:22:56 230 1

原创 李宏毅2022机器学习笔记(7)——self attention~

之前学习过的模型都是输入一个向量,输出一个类型或者数值。但平时遇到的问题中,输入可能是多个向量,并且每个向量的长度不同。当向模型输入的是词汇时,词汇需要用向量来表示,向量表示词汇的方法有以下两种。一种是one-hot Encoding,这种方法会开一个很长很长的向量,向量的长度等于全世界词汇的数量,向量中不同的位代表一个词汇,这种方法有个弊端就是看不出每个词汇的类型。word embedding则会给每个词汇一个向量,向量中包含有语义性质的信息。

2023-08-04 18:14:21 156 1

原创 李宏毅2022机器学习笔记(6)——RNN

将arrive单词进行训练,得到a1和y1,y1作为输出表示了arrive单词属于某类型的可能性,a1作为memory存储在a1中,当下一个单词Taipei需要训练时,会将输入x2和a1同时考虑,得到了a2和y2,y2作为输出表示了单词类型的可能性,a2作为memory存储在a2中供下一个单词使用。接下来input3,-1,0.得到g=3,input gate≈0,forget gate≈0,output gate≈0 因此输出0,memory=0。首先input3,1,0。当输入为[1,1]时。

2023-07-28 15:44:09 108 1

原创 李宏毅2022机器学习笔记(5)——CNN

Fully connected layer会观察整个图像,加入receptive field后限制了neuro的弹性,neuro加入参数共享后会变成convolutional layer,此时model bias会更大,但model bias大不一定是件坏事。neuro在对数据的处理时所作的操作都是相同的,不同的是所守卫的receptive field不同。例如上图将neuro负责的receptive field展开成一个 3*3*3的向量,将 该27位向量作为输入进行处理,并将输出给下一层。

2023-07-28 13:40:06 86 1

原创 李宏毅2022机器学习笔记(4)

根据下图,我们可以看出随着更新次数的增加,loss越来越小直至不再改变。但根据norm of gradient发现当loss下降到不能bun下降时,gradient并不是不变的,它可能遇到了左边曲线的情况。gradient在error surface的山谷的两边来回震荡,这是loss不再下降,但此时并不是critical point。如下图,×处为最低点,要从初始点(黑点)做gradient decent,learning rate 设为10‾²,参数在两边震荡,loss不能降低;为什么会出现这种现象。

2023-07-28 03:13:52 92 1

原创 李宏毅2022机器学习笔记(3)

下图是一个training loss,在training loss上可能有很多个local minima,这些local minima还是有好坏之分的,在峡谷里像右边的点那样就是好的minima,在平原上的点,像左边的点那样就是坏的minima。找一个初始参数,假设前一步参数量为0,计算g,移动的方向是gradient加上前一步的方向,再计算g¹,新的更新方向是m²,移动的方向走⊖¹和m²的折中⊖²,以此类推。找一个初始值,计算g,更新⊖¹,向gradient 的反方向移动参数。大小batch的比较。

2023-07-28 02:26:36 78

原创 李宏毅2022机器学习笔记(2)

在训练模型时可能遇到以下问题。

2023-07-27 23:43:23 104

原创 李宏毅2022机器学习笔记(1)

机器学习可以看做是寻找一个函数。上图损失函数中θ 表示函数的的全部变量:b, w, c。损失函数定义中e有两种定义方法分别为MAE和MSE,下图是它们的函数式。

2023-07-27 17:35:16 183

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除