尚歌
码龄8年
关注
提问 私信
  • 博客:238,614
    238,614
    总访问量
  • 60
    原创
  • 2,160,092
    排名
  • 7,886
    粉丝
  • 90
    铁粉

个人简介:一步一脚印,在代码的世界创出自己的路

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-06-23
博客简介:

暮木的博客

博客描述:
在代码的世界越走越远
查看详细资料
个人成就
  • 获得192次点赞
  • 内容获得40次评论
  • 获得1,323次收藏
  • 代码片获得3,002次分享
创作历程
  • 23篇
    2021年
  • 32篇
    2020年
  • 22篇
    2019年
  • 1篇
    2018年
成就勋章
TA的专栏
  • 深度学习笔记
    14篇
  • paper阅读
    2篇
  • 语音识别
    33篇
  • 机器学习
    1篇
  • 数据增强
    1篇
  • 人工智能
    10篇
  • 团队协作
    1篇
  • 牛客,leetcode刷题
  • 语音增强
    4篇
  • 语音合成
    2篇
  • socket网络编程
    1篇
  • 前端
    1篇
  • LINUX
    8篇
  • 软件工程
    3篇
  • python
    15篇
  • eclipse
    3篇
  • python基础
    7篇
兴趣领域 设置
  • 大数据
    mysqlredis
  • 服务器
    linux
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

语音方向论文阅读

1.Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts摘要面对中英文混合数据稀疏性问题,提出Bi-Encoder Transformer network以及加入gating network进行语种判定模型结构实验结果...
原创
发布博客 2021.10.08 ·
628 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

语音方向论文阅读

1.Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition摘要模型结构实验结果BABELAishell-1结论利用BERT预训练模型来做语音识别,引入嵌入注意模块将声学信息融入到bert,促进表征学习...
原创
发布博客 2021.09.30 ·
523 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

音频数据增强

引言尽管调整模型架构和超参数是一个搭建完美模型的成功因素,数据科学往往需要关注数据。无论你搭建的模型多么amazing,但是GIGO(garbage in,garbage out)必须是我们需要考虑的。同时,在实际的数据工程中,数据的缺乏往往是一个很常见的问题。数据增强方法可以通过已有的数据来产生相似的数据,从而提高模型的鲁棒性和泛华能力。本文旨在介绍一些论文的语音增强方法,语音增强工具。数据增强常规增强方法1参考文献:https://blog.csdn.net/wudibaba21
原创
发布博客 2021.08.17 ·
4847 阅读 ·
4 点赞 ·
0 评论 ·
59 收藏

Python实现K-means聚类算法

K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,该算法试图将数据划分为聚类,使得聚类内部具有较高的相似性,聚类与聚类之间具有较低的相似性。算法原理1. 初始化聚类中心,或者在输入数据范围内随机选择,或者使用一些现有的训练样本(推荐)2. 直到收敛将每个数据点分配到最近的聚类。点与聚类中心之间的距离是通过欧几里德距离测量得到的。 通过将聚类中心的当前估计值设置为属于该聚类的所有实例的平均值,来更新它们的当前估计值。目标函数聚类算法的
原创
发布博客 2021.08.14 ·
14959 阅读 ·
15 点赞 ·
4 评论 ·
136 收藏

Python并发编程

多线程:threading,利用CPU和IO可以通知执行的原理,让CPU不再干巴巴等待IO完成 多进程:multiprocessing,利用多核CPU的能力,真正的并行执行任务。 异步IO:asyncio,在单线程利用CPU和IO同时执行的原理,实现函数异步执行 使用Lock对资源加锁,防止冲突访问 使用Queue实现不同线程/进程之间的数据通信,实现生产者,消费者模式 使用线程池Pool/进程池Pool,简化线程/进程的任务提交、等待结束、获取结果 实现subprocess启动外部程序的进程,
原创
发布博客 2021.07.25 ·
289 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

语音论文阅读:U2

摘要提出一种双路方法将流式和非流式端到端语音识别模型统一到一个模型中,模型采用混合CTC/attention架构,其中encoder中的conformer结构被修改w
原创
发布博客 2021.05.31 ·
1123 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

语音识别中的WFST和语言模型

导读在语音识别系统中,有限加权状态转换机(Weighted Finite State Transducers, WFST)扮演着重要角色。本文主要介绍发音词典、语言模型和WFST的原理,以及在实践过程中的一些优化方法。背景目前的实际场景中的语音识别系统更多是基于HMM的传统语音识别框架,如:DNN-HMM,这种框架是由声学模型、发音词典、语言模型和解码器构成的pipeline结构,其中声学模型建模粒度为比音素还小的三音素状态,而语言模型和WFST在其中扮演着重要的角色。本文将主要围绕三个问题
转载
发布博客 2021.05.10 ·
2647 阅读 ·
11 点赞 ·
0 评论 ·
37 收藏

语音论文阅读:使用无监督的预训练改善基于Transformer的语音识别

摘要语音识别技术在各种工业应用中取得了巨大的普及。然而,建立良好的语音识别系统通常需要大量的转录数据,这是昂贵的收集。为了解决这个问题,提出了一种被称为掩蔽预测编码的无监督的预训练方法,其可以应用于与基于Transformer的模型的无监督预传真预测。 HKUST的实验表明,使用相同的训练数据,我们可以实现23.3%,超过最佳端到端模型超过0.2%的绝对CER。通过更多的预训练数据,我们可以进一步将CER降低到21.0%,或相对CER减少11.8%的基线。引言及相关工作最近,无监督的预训练已经显
原创
发布博客 2021.05.05 ·
747 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

语音论文阅读TINY TRANSDUCER: A HIGHLY-EFFICIENT SPEECH RECOGNITION MODEL ON EDGE DEVICES

摘要本文提出了一种极其轻质的通信连接换能器模型,在边缘设备上具有微小解码图。首先,首先使用基于空白标签跳跃的电话同步解码(PSD)算法来加速换能器解码过程。然后,为了减少高空白得分引入的删除误差,提出了一个空白标签脱模方法。为了降低参数和计算,在换能器编码器中使用深馈通顺序存储器网络(DFSMN)层,并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的(CI)音素,后断作为输入,并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,
原创
发布博客 2021.04.19 ·
457 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第三代语音识别技术初探

全国声学大会语言声学分论坛上的现场报告知识总结原文地址
转载
发布博客 2021.04.10 ·
453 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

语音识别基础

语音识别架构组成基础概念自动语音识别(Automatic Speech Recognition,ASR)技术是一种将人的语音转换为文本的技术。这项技术被当做是可以使人与人、人与机器更顺畅交流的桥梁,已经在研究领域活跃了50多年。系统分类研究领域分类识别任务分类应用帮助人与人的交流 HHC:应用场景如,如翻译系统,微信沟通中的语音转文字,语音输入等功能。语音到语音(speech-to-speech,S2S)翻译系统,可以整合到像Skype这样的交流工具中,实现自由的
转载
发布博客 2021.04.09 ·
1547 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

CTC相关知识

简介在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者O
原创
发布博客 2021.04.07 ·
819 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

语音论文:用于端到端语音识别的简化完全量化的Transformer模型

论文题目 A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION摘要 讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重...
原创
发布博客 2021.04.04 ·
2358 阅读 ·
0 点赞 ·
0 评论 ·
19 收藏

使用Docker 搭建 GitLab中文版--1

目录系统环境步骤安装docker系统环境Ubuntu docker (Docker version 19.03.12, build 48a66213fe) docker-compose步骤1.安装docker1.在一个新的宿主机安装docker之前先设置docker的仓库$ sudo apt-get update $ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ g
原创
发布博客 2021.04.03 ·
1041 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

论文: EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING摘要文本提出了Eesen框架,该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求,本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式,该方法可将词典和...
原创
发布博客 2021.03.14 ·
1201 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别

论文:Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions摘要:许多端到端自动语音识别(ASR)系统仍依赖于经过预处理的频域特征,这些特征是手工制作的以模仿人类的听力。集成可学习特征提取的最新进展推动了我们的工作。为此,文本提出了将Sinc卷积与深度卷积相结合的轻型Sinc卷积(LSC),作为端到端ASR系统的低参数机器学习特征提取。本文将LSC(轻型Sinc卷积)融合进C.
原创
发布博客 2021.03.10 ·
1398 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

用于端到端语音识别的文本数据多任务训练

论文 CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION摘要提出一个新颖的软单调对齐机制,它受尖峰神经网络中的“积分并发射”模型的启发,并在编码器-解码器框架中使用,它由连续函数组成,因此被称为:连续积分并发射(CIF)。 CIF应用于ASR任务,不仅显示简洁的计算,还支持在线识别和声边界定位,因此适用于各种ASR场景。还提出了几种支持策略来缓解基于CIF模型的独特问题引言...
原创
发布博客 2021.03.04 ·
1034 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MFCC/HMM/GMM/EM/LM基本知识

语音识别的基本流程语音的识别对于人类来说是很自然的一个过程,但要让机器“听懂”却十分困难。一段音频文件,机器怎么才能知道它代表的是什么意思呢?语音识别要做的事,就是组CP:根据音频文件来判断对应的文本。当然,要让机器真正的“听懂”和“理解”,还涉及到很多其他的知识,语音识别只是其中一个环节。那么机器接收到左边这段语音之后,是怎么把它一口口吞下去,最后吐出来一个“two”呢?下图中,我们以最经典的基于GMM-HMM的语音识别框架为例,可以看到,经过数据准备、特征提取、训练、再到解码,就可以获取最终
转载
发布博客 2021.01.23 ·
2041 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏

ffmpeg相关操作总结

0.FFmpeg 库及其作用libavcodec:提供了一系列编码器的实现。 libavformat:实现了流协议、容器格式和基础的 IO 访问。 libavutil:包括了哈希器、解码器和各种工具函数。 libavfilter:提供了各种音视频过滤器。 libavdevice:提供了访问捕获设备和回放设备的接口。 libswresample:实现了混音和重采样。 libswscale:实现了色彩转换和缩放功能。1.改变采样率,音频格式转换将.mp3转为采样率为16000,通道数为1,
原创
发布博客 2021.01.23 ·
338 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

论文阅读(通用CNN和RNN建模的经验评估)

论文 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling摘要最近的一些研究表明卷积神经网络在像语音合成以及机器翻译的任务上超过了循环神经网络。给定一个新的序列建模任务或者数据集,应该选用哪种架构,简单的卷积体系结构在各种任务和数据集上的表现优于常规递归网络(如LSTM),同时表现出更长的有效内存。我们得出结论,应该重新考虑序列建模与递归网络之间...
原创
发布博客 2021.01.15 ·
678 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多