自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 问答 (1)
  • 收藏
  • 关注

原创 RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment

解决方案:输入指令sudo shutdown -r now即可重新启动驱动。如果还是无法解决则需要重新安装驱动。

2022-09-04 15:50:17 1306

原创 c++ :指针

#include <iostream>using namespace std;int main() { //1、定义指针 int a = 10; //指针定义的语法:数据类型 * 指针变量名 int * p; //让指针记录变量a的地址 p = &a; cout<<"a的地址:"<<&a<<endl; cout<<"指针p维:"<<p<<endl; //2、使用指针

2022-05-03 22:30:45 795

原创 c++:二维数组

#include <iostream>using namespace std;int main() { //二维数组定义方式 int arr[2][3] = { {1,2,3}, {4,5,6} }; //外层循环打印行数,内层循环打印列数 for (int i=0;i<2;i++) { for (int j=0;j<3;j++) { cout<<arr[i][j]<<" "; } cout<&l

2022-04-27 15:26:52 808

原创 c++冒泡排序

#include <iostream>using namespace std;int main() { int arr[9] = {4,2,8,0,5,7,1,3,9}; cout<<"排序前"<<endl; for (int i =0;i<9;i++) { cout<<arr[i]<<" "; } cout <<endl; for (int i = 0;i<9-1;i++) { fo..

2022-04-27 15:12:18 656

原创 Kaldi 提取40维MFCC

# config for high-resolution MFCC features, intended for neural network training.# Note: we keep all cepstra, so it has the same info as filterbank features,# but MFCC is more easily compressible (because less correlated) which is why# we prefer this me

2021-04-28 13:19:19 222

原创 Ubuntu18.04系统在训练深度学习模型时自动重启

我用的是2080Ti 最大功率250sudo nvidia-smi -pl 200nvidia-settings

2021-04-27 14:56:51 842

原创 基于WFST的非自回归流式端到端语音识别

摘要:近年来,基于注意的编解码器端到端(E2E)模型在自动语音识别领域受到越来越多的关注。然而,AED模型在商业应用中部署时仍然存在缺点。自回归波束搜索译码使其在高并发应用中效率低下。集成外部词级语言模型也很不方便。最重要的是,由于存在全局注意机制,AED模型难以进行流式识别。在本文中,我们提出了一个新的框架,即WNARS,使用混合CTC注意AED模型和加权有限状态传感器(WFST)来解决这些问题。我们从自回归波束搜索切换到CTC分支译码,CTC分支译码以分块流的方式使用WFST进行首通译码。然后,解码

2021-04-09 13:11:29 471

转载 Ubuntu20下Pycharm20中文无法输入问题

搞了一下午,终于找到一个有用的,之前的方法统统试过了,都没有用!!!有用链接https://blog.csdn.net/song696969/article/details/108910588#_2

2021-04-01 18:27:30 135

原创 个性化语言模型的高效动态WFST解码

摘要:我们提出了一种两层缓存机制来加速个性化语言模型下的动态WFST解码。第一层是一个公共缓存,它存储图形的大部分静态部分。这在所有用户中是全局共享的。第二层是私有缓存,用于缓存表示个性化语言模型的图形,该模型仅由特定用户的话语共享。我们还提出了两种简单而有效的预初始化方法,一种是基于广度优先搜索的方法,另一种是基于数据驱动的方法,利用先前的语句来探索解码器的状态。通过一个使用个性化联系人列表的呼叫语音识别任务的实验表明,与不进行预初始化的解码相比,所提出的公共缓存将解码时间缩短了三倍。使用私有缓存可提

2021-03-21 23:04:12 378

原创 模式识别

模式识别与人工智能文章目模式识别与人工智能前言一、人工智能的基本知识二、知识和知识的表示1.基本概念2.一阶谓词逻辑表示法总结新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入录)前言主要记录和复习人工智能与模式

2021-03-14 15:32:22 92

原创 问题:首选项文件 /etc/apt/preferences.d/cuda-repository-pin-600 中发现有无效的记录,无 Package 字段头

解决:https://zhuanlan.zhihu.com/p/211347629

2021-03-14 13:33:06 683

原创 Rescoring

思路:使用小的构建,然后使用来构建静态图,然后使用小的和大的来构建(中的权重为的权重减去的权重)解码时根据和的使用方式,又可以细分:常规的Rescoring:利用先全部解码,生成词图或者N-best,然后在上做词图和N-best的Rescoring on-the-fly Rescoring:使用做解码,在解码过程中,每当解码出的word时,立即加上中权重,完成实时的Rescoring。...

2021-03-11 22:09:23 165

原创 使用波束搜索的端到端神经网络系统中的上下文语音识别(论文翻译)

摘要最近的研究表明,端到端(E2E)语音识别体系结构(如Listen-attent和Spell,LAS)可以在LVCSR任务中获得最先进的质量结果。这种体系结构的一个优点是它不需要单独训练的发音模型、语言模型和声学模型。但是,这个属性也引入了一个缺点:不可能将语言模型的贡献与整个系统分开进行调整。因此,将动态的上下文信息(如附近的餐馆或即将发生的事件)纳入识别需要一种不同于传统系统的方法。我们介绍了一种技术,通过在波束搜索的每一步调整神经网络的输出似然度来调整推理过程以利用上下文信号。我们将所提出的

2021-03-11 21:52:59 262

原创 kaldi例子thchs30笔记(二)

数据准备由于我们已经下载过数据了,直接进行数据准备。根据注释,我们知道,数据准备就是要产生四个文件分别是text,wav.scp,utt2pk,spk2utt打开s5/local/thchs-30_data_prep.sh

2021-03-11 13:24:59 424 1

原创 基于类语言模型和令牌传递解码器的端到端上下文语音识别(论文翻译)

Title:END-TO-END CONTEXTUAL SPEECH RECOGNITION USING CLASS LANGUAGE MODELS AND A TOKEN PASSING DECODER摘要: 自动语音识别(ASR)的端到端建模(E2E)将传统语音识别系统的所有组件融合到一个统一的模型中。尽管它简化了ASR系统,但在训练和测试数据不匹配时很难适应统一模型。在这项工作中,我们专注于上下文语音识别,这对E2E模型尤其具有挑战性,因为上下文信息仅在推理时间可用。为了在训练...

2021-03-11 10:51:02 678

原创 kaldi例子thchs30笔记(一)

thchs30数据集是清华大学30小时的中文数据集可以在http://www.openslr.org/18/上下载。一、数据准备首先你需要下载语料库:data_thchs30.tgz [6.4G] ( speech data and transcripts )test-noise.tgz [1.9G] ( standard 0db noisy test data )resource.tgz [24M] ( supplementary resources, incl. lexicon for

2021-03-10 14:26:25 612

原创 论文撰写

论文撰写1、标题(title)反应核心技术尽量简练简洁与关键字区别保护知识产权不能太大采用规范格式,如:“xx系统下针对xx问题的xx算法”“基于xx原理在xx系统下针对xx问题的解决方法”2、摘要(abstract)标题的扩充覆盖文章的出发点、亮点、效果200字左右套路化3、引言(introduction)摘要的扩充研究背景提出问题及原因文献调研:内容相关,缺点进行研判本文贡献4、问题建模(problem formulation)数学语言描述选取

2021-02-23 16:02:06 92

原创 隐马尔可夫模型

一、HMM应用1、人脸识别2、语音识别3、入侵识别二、HMM模型定义1、隐马尔可夫模型是关于时序的概率模型。2、由一个隐藏时为马尔可夫链随机生成序列,再由各个状态生成一个可观测而产生的观测随机序列的过程。三、隐马尔可夫模型初始概率分布状态转移概率分布观测概率分布Q:所有可能状态的集合V:所有可能观测的集合I:长度为T的状态序列O:对应的观测序列A:状态转移概率矩阵B:观测概率矩阵也称为发射矩阵Pai:初始状态概率向量三要

2021-02-11 14:08:08 194 1

原创 pytorch学习(一)

# 构造一个5x3矩阵,不初始化x = torch.empty(5,3)print(x)# 构造一个随机初始化矩阵x = torch.rand(5,3)print(x)# 构造一个矩阵全为0,而且数据类型是longx = torch.zeros(5, 3, dtype=torch.long)print(x)# 构造一个张量,直接使用数据x = torch.sensor([5.5, 3])print(x)# 构造一个tensor,基于已经存在的tensorx = torch.rand

2021-02-02 21:08:15 206

原创 Dynamic Decoders with On-the-fly WFST Operations(动态解码器与动态WFST操作)

前言导师让搞语音识别的后端处理技术,就是关于解码方面的,但是现在很迷茫,就打算从最基本的动态解码处理开始,由于静态解码好多博主都已经写过了,由自己开始读关于动态解码部分,所以开始自己记录自己学习的过程,希望能够坚持下来。首先来说明WFST静态解码相比于传统的方法有哪些问题,一是识别网络内存消耗大,识别网络通常是WFST形式的大型静态网络。另一个是组合和优化的WFST的在线操作的计算成本。换句话说,当我们修改一个知识源时,即使是一个小的修改,例如在词汇表中增加一个新单词,我们也必须重构整个识别网

2021-02-02 18:58:36 406 1

原创 Python简单实现BP算法

激活函数为relu函数import numpy as npN = 64 # 样本数D_in = 1000 # 输入维度H = 100 # 隐藏层维度D_out = 10 # 输出维度# 随机创建一些训练数据X = np.random.randn(N, D_in)Y = np.random.randn(N, D_out)# 随机初始权重w1 = np.random.randn(D_in, H)w2 = np.random.randn(H, D_out)# 设置学习率le

2021-02-01 17:12:24 572

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除