xmdxcsj
码龄16年
关注
提问 私信
  • 博客:925,692
    社区:62
    925,754
    总访问量
  • 132
    原创
  • 1,196,144
    排名
  • 819
    粉丝
  • 1
    铁粉

个人简介:毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2009-02-23
博客简介:

xmdxcsj的专栏

查看详细资料
个人成就
  • 获得315次点赞
  • 内容获得118次评论
  • 获得954次收藏
创作历程
  • 3篇
    2021年
  • 1篇
    2020年
  • 31篇
    2017年
  • 44篇
    2016年
  • 53篇
    2015年
  • 9篇
    2014年
成就勋章
TA的专栏
  • python
    2篇
  • 工具
    7篇
  • sphinx
    3篇
  • linux相关
    3篇
  • 机器学习
    10篇
  • 杂谈
    3篇
  • htk
    8篇
  • android
    2篇
  • 语音识别
    10篇
  • mapreduce
  • 神经网络
    21篇
  • torch
    8篇
  • gpu
    3篇
  • 语言模型
    7篇
  • theano
    1篇
  • audio
  • kaldi
    15篇
  • 声学模型
    20篇
  • c/c++
    2篇
  • 线性代数库
    4篇
  • 语音合成
    5篇
兴趣领域 设置
  • 人工智能
    语音识别深度学习
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

自监督预训练(三)wav2vec 2.0原理剖析

一、整体流程二、feature encoder理解Conv1dnn.Conv1d(in_channels=5, out_channels=20, kernel_size=3, stride=2)假设输入input=(batch, in_channels, in_len)batch=1in_channels=5,对应向量大小,比如word embeddingin_len=10,对应word的个数cnn内部kernel=(in_channels, kernel_size)=(5,3),相当
原创
发布博客 2021.04.17 ·
18476 阅读 ·
40 点赞 ·
5 评论 ·
119 收藏

自监督预训练(一) 语义部分

pre-training技术在NLP领域得到了很好的应用,比如最近几年比较火的谷歌的BERT模型、OpenAI的GPT模型,在NLP各种类型的任务中都取得了很大的突破,大幅刷新了公开数据集的SOTA结果,由于最近在做语音预训练的一些工作,所以最近简单梳理了一下NLP领域pre-training技术的发展脉络。NLP领域的预训练技术主要有两大方向:第一个是基于feature的方法,这个是比较早期的一个做法,代表技术是ELMo技术第二个是基于finetune的方法,这个是最近几年大家都在用的方法,也是这
原创
发布博客 2021.04.17 ·
2620 阅读 ·
5 点赞 ·
0 评论 ·
16 收藏

自监督预训练(二) 语音部分

一、Predictive Coding系列CPC[4][8]Contrastive Predictive Coding包含三部分:编码网络多层CNN,将输入wave进行降采样,映射为隐层表示zt=genc(xt)z_t=g_{enc}(x_t)zt​=genc​(xt​)自回归网络多层GRU,从隐层表示提取context信息,ct=gar(z≤t)c_t=g_{ar}(z_{\le t})ct​=gar​(z≤t​)打分函数fk(xt+k,ct)=exp(zt+kTWkct)f_k(x_
原创
发布博客 2021.04.17 ·
2916 阅读 ·
6 点赞 ·
3 评论 ·
20 收藏

重新开始写点东西

好长时间没有更新博客了,有些问题没有来得及回复大家,抱歉!最近国庆节好好反思了一下,感觉技术博客这种总结形式对个人的成长帮助还是蛮大的,所以打算重新捡起来。后面的文章打算在微信公众号上面更新了,更方便实时交流,主要包括以下内容:-平时技术的总结-语音方向的资讯-个人的胡思乱想欢迎大家关注,一起讨论进步...
原创
发布博客 2020.10.11 ·
323 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

生成对抗网络GAN(二) 语音相关

生成对抗网络GAN(二) 语音相关@(gan)多任务对抗学习[1] 为了获得对噪音的鲁棒性,引入多任务学习,分为三个网络: - 输入网络(绿色),用作特征提取器 - senone输出网络(红色),用作senone分类 - domain输出网络(蓝色),domain这里指噪音的类型,总共17种噪声为了增加对噪音的鲁棒性,增加了GRL层(gradient reversal layer),网络在反
原创
发布博客 2017.11.12 ·
12026 阅读 ·
1 点赞 ·
5 评论 ·
18 收藏

生成对抗网络GAN(一) 简介和变种

基本概念[1]目标函数零和游戏(zero-sum game) 纳什均衡 minimax算法 GAN借鉴了零和游戏的思想,引入生成网络和辨别网络,让两个网络互相博弈,当辨别网络不能辨别数据来自于真实分布还是生成网络的时候,此时的生成网络可以当做一个数据分布到另一个数据分布的转化器。 假设生成网络GG,辨别网络DD,noise数据zz,noise分布pz(z)p_z(z),data数据xx,da
原创
发布博客 2017.11.12 ·
4199 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

声学特征转换 kaldi工具

基本工具1.transform-featstransform-feats <transform> <input-feats> <output-feats>其中transform是对应的特征转化矩阵,如果transform是rxfilename形式,认为是speaker-independent;如果transform是rspecifier形式,有-utt2spk选项,认为是per-speaker,没有
原创
发布博客 2017.11.12 ·
3507 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

声学特征变换 LDA

含义Linear Discriminant Analysis 线性判别式分析是一种降维算法,特征经过映射以后,在新的空间有最大的类间距离和最小的类内距离;LDA降维的维度跟类别的个数有关 相关公式推导可以参考这篇博客kaldi实现特征降维特征做完splice以后进行降维steps/train_lda_mllt.shacc-lda #使用pdf-id作为类别,获得统计量est-lda #获得ld
原创
发布博客 2017.11.12 ·
2898 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

声学特征变换 STC/MLLT

背景Global Semi-tied Covariance (STC)/Maximum Likelihood Linear Transform (MLLT) estimation gmm建模方差使用对角矩阵的前提是假设特征之间相互独立,使用full或者block-diagonal矩阵可以对相关性的特征建模,但是参数增多。为了解决使用这个问题,有两种方法: - feature-space 使用DC
原创
发布博客 2017.11.12 ·
2728 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

声学特征变换 fMLLR

含义 当测试数据YY和模型Λx\Lambda_x不匹配的时候,可以通过变换的方式进行匹配[1]: - model-space 也就是Λx\Lambda_x转化为Λy\Lambda_y - feature-space 也就是YY转化为XX其中model-space的变换又可以分为两种: - unconstrained: 均值和方差无关 - constrained: 均值和方差变换是相同的形式
原创
发布博客 2017.11.12 ·
7297 阅读 ·
3 点赞 ·
1 评论 ·
6 收藏

声学特征 ivector

提取流程1.UBMuniversal background model[1] 使用GMM建模,UBM的训练通过EM算法完成,有两种方法: - 所有的数据训练出来一个UBM,需要保证训练数据的均衡 - 训练多个UBM,然后合在一起,比如根据性别分成两个,这样的话可以更有效的利用非均衡数据以及控制最后的UBM。2.supervector 使用MAP adaptation对UBM的高斯进行线性插值
原创
发布博客 2017.11.12 ·
19917 阅读 ·
10 点赞 ·
1 评论 ·
31 收藏

声学特征 PNCC

特点power-normalized cepstral coefficients相比于MFCC特征: - 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候 - 相比于MFCC,计算量提升34.6%使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升细节 和MFCC/PLP特征的整体对比如上图filter bank相比于MFCC的triangular fi
原创
发布博客 2017.11.12 ·
9654 阅读 ·
3 点赞 ·
1 评论 ·
34 收藏

声学特征 PLP

PLP的由来Linear prediction可以用来获得语音功率谱P(ω)P(\omega)的全极点模型A(ω)A(\omega),也可以把LP看做获取P(ω)P(\omega)的频谱包络的手段,参考前面的文章 由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。 为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱P
原创
发布博客 2017.11.12 ·
5408 阅读 ·
1 点赞 ·
0 评论 ·
16 收藏

语音合成vocoder(五) synthesis

基本概念最小相位脉冲响应[1]可以保证波形在时域上基本不变。 根据频谱包络求出最小相位响应(减弱时域信号的相位失真),然后IFFT还原为语音信号 其中AA跟频谱包络有关合成流程合成[2]分为三步 1. 根据f0f_0确定脉冲的位置 对分帧的频谱插值获得脉冲对应的频谱spectrumspectrum 2. 时域周期信号 2.1 求出频谱包络中周期部分,然后过最小相位脉冲响应 peri
原创
发布博客 2017.05.17 ·
3666 阅读 ·
2 点赞 ·
1 评论 ·
9 收藏

语音合成vocoder(四) aperiodicity参数

基本概念 “aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。PLANTINUM[1]使用exci
原创
发布博客 2017.05.17 ·
4442 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏

语音合成vocoder(三) spectral envelope参数

基本概念[1] spectral envelope的三个性质: - 包络线连接峰值,并且紧紧包裹幅度谱 - 包络线不能震荡太剧烈,需要平滑 - 包络线不能有corner语音信号可以模拟为激励脉冲序列与声道冲激响应的离散卷积,对于浊音信号 y(t)y(t)可以简化为基音周期为T0T_0脉冲串δ\delta和声道冲激响应h(t)h(t)的卷积: y(t)=h(t)∗∑n=−∞∞δ(t−nT0)
原创
发布博客 2017.05.17 ·
6333 阅读 ·
5 点赞 ·
3 评论 ·
17 收藏

语音合成vocoder(二) 基频参数

基本概念声带每开启和关闭一次的时间就是基音周期(pitch period),倒数即为音频频率(pitch frequency)[1]。 基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。最低可达80Hz,最高可达500Hz,老年男性偏低,小孩女性偏高。它反映了声调的变化。常用方法常用的有自相关方法和倒谱方法 Autocorrelation Function(ACF)运算
原创
发布博客 2017.05.17 ·
5766 阅读 ·
5 点赞 ·
0 评论 ·
17 收藏

语音合成vocoder(一) 概况

Question1: vocoder在合成中的角色???合成概况语音合成主要有波形拼接和参数合成两种方法[1]。波形拼接方法 使用原始语音波形替代参数,合成的语音清晰自然,质量相比于参数合成方法要好。PSOLA(pitch synchronous overlap add)算法可以对拼接单元的韵律特征进行调整。参数合成方法提取参数->HMM建模->合成参数->波形重建 合成中的vocoder
原创
发布博客 2017.05.17 ·
16336 阅读 ·
9 点赞 ·
2 评论 ·
60 收藏

boost库使用

boost C++库简介 linux下载安装大部分库不需要编译,使用的时候只需要include相应的hpp文件即可,少数库需要提前编译。 假设下载的库文件解压到目录/path/to/boost 使用boost数学库中的expint函数(matlab)#include "boost/math/special_functions/expint.hpp"#include <iostream>int
原创
发布博客 2017.04.22 ·
2316 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

端到端语音识别(四) raw wavform

现在的端到端语音识别的第一个“端”大部分还是使用人为设定的语音特征,比如FBANK/PLP,更高级的端到端语音识别输入是语音波形,输出是文字。 近几年也有一些工作是使用神经网络(比如CNN)来学习传统的特征提取步骤,取得了跟使用传统的语音特征相当的结果,当前这部分工作绝大多数还是基于传统的HMM框架来做,还没有跟CTC或者encoder-decoder相结合。CNNGoogle[1]分析了CNN跟
原创
发布博客 2017.04.20 ·
4577 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏
加载更多