自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 问答 (3)
  • 收藏
  • 关注

原创 AAC ADTS格式分析

AAC⾳频格式:Advanced Audio Coding(⾼级⾳频解码),是⼀种由MPEG-4。标准定义的有损⾳频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主。AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。

2023-09-07 15:43:40 49

原创 kaldi的源码(一):关于prepare_lang的L.fst的个人理解

kaldi的prepare_lang和lang文件讲解

2022-02-13 21:09:39 1641

原创 HMM的个人理解

HMM的个人理解HMM的定义组成和基本假设分类HMM的全称为隐马尔科夫模型,是由一个隐藏的马尔科夫链生产不可观测的状态序列,再由各个状态生成一个观测产生观测序列的过程。序列的每一个位置看作一个时刻。(官方解释)在我看来隐马尔可夫在语言识别解决的问题是通过特征提取出的音频信息找到状态的过程,当然这个状态可以看作音素等。像音频信息是一个可以观测的已知的信息,而状态是未知的,HMM就是通过已知的信息找到未知信息的模型。HMM三个重要的参数,状态转移矩阵(A),观测概率矩阵(B),初始状态向量(Π)。又称H

2021-10-14 19:50:08 1295

原创 GMM与EM个人的理解

GMM与EM个人的理解本文GMM和EM是个人的粗浅理解,并不一定是正确的,欢迎大家批评指正。1.GMMGMM在语音识别的有大的作用。全名叫高斯混合分布,通俗的理解是多个高斯分布模型构成的。GMM为后面的HMM提供了一个概率分布,将不完全数据的边缘分布转换为完全数据的联合分布。单独的高斯模型有两个重要参数,一个是均值,另一个就是协方差矩阵。pi为各个高斯模型在混合模型的权重。我们设置观测变量为x,隐藏变量为z,在语言识别中,观测变量就是通过MFCC提取的每一帧的音频信号的特征,隐藏变量就是一个状态,

2021-10-14 15:56:23 440

原创 蜥蜴书第一章

第一篇博客为了记录学习的知识并与他人进行交流,本人准备进行java、机器学习等知识的学习,一起勉励。机器学习实战(蜥蜴书第二版)第一章1.1什么是机器学习机器学习是一个领域,让计算机无须进行明确编程就具备学习能力。通过经验E学习T,任务T的性能P随着E的经验增长,则成为机器学习。1.2机器学习的类型有监督学习K-邻近算法线性回归逻辑回归支持向量机(SVM)决策树和随机森林神经网络(部分)无监督学习1.聚类算法K-均值算法DBSCAN分层聚类分析(HCA)2.异常检测和

2021-09-01 22:04:51 331

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除