(四)kaldi thchs30数据准备

下载地址

THCHS30语音数据集

  • data_thchs30.tgz [6.4G] ( 语音数据和语录 )
  • test-noise.tgz [1.9G] ( 标准0db噪声测试数据 )
  • resource.tgz [24M] ( 补充资源,包括训练数据的词库、噪声样本 )

上传数据

用一切可能的方式上传数据到远程服务器,比如Xtfp,或者sftp,这里使用sftp

只需要四条命令

sftp登录
上传data_thchs30.gzip
上传test-noise.gzip
上传resource.gzip

sftp常用命令

登录

#密码登录
sftp -P 22 zhangsan@192.168.0.100
#秘钥登录
sftp -P 22 -i ~/.ssh/id_rsa zhangsan@192.168.0.100

更改远程工作目录

cd /abc

更改和/或打印本地工作目录

lcd /abc

列出远程目录的内容

ls

列出本地目录的内容

lls

打印远程工作目录

pwd

打印本地工作目录

lpwd

浏览您的本地目录,即打开本地目录

explore

将文件从服务器下载到本地计算机

# 把sftp服务器上test.txt文件下载到本地
get /tmp/test.txt ~/
# 把sftp服务器上test文件下载到本地
get -r /tmp/test/ ~/

将文件从本地计算机上载到服务器

# 把本地文件test.txt上传到ftp服务器/tmp目录下
put ~/test.txt /tmp/
# 把本地文件test上传到sftp服务器/tmp目录下
put -r ~/test /tmp/

在远程服务器上创建一个目录abc

mkdir abc

移动或重命名远程服务器上的文件

mv /test.txt /abc.txt

移动或重命名远程服务器上的文件

rename /test.txt /abc.txt

删除远程服务器上的文件abc.txt

rm abc.txt

删除远程服务器上的目录abc

rmdir abc

帮助

help

清屏

clear

断开连接

bye、exit、quit、!

解压数据到指定路径

在/usr/local/kaldi/egs/thchs30/s5下创建一个文件夹thchs30-openslr

cd /usr/local/kaldi/egs/thchs30/s5
mkdir thchs30-openslr

将数据解压到thchs30-openslr

tar zxvf data_thchs30.gzip的路径  -C /usr/local/kaldi/egs/thchs30/s5/thchs30-openslr
tar zxvf resource.gzip的路径  -C /usr/local/kaldi/egs/thchs30/s5/thchs30-openslr
tar zxvf test-noise.gzip的路径  -C /usr/local/kaldi/egs/thchs30/s5/thchs30-openslr
基于深度学习识别THCHS30数据集 深度学习(Deep Learning,简称DL)是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,其目标是让机器能够像人一样具有分析学习能力,识别文字、图像和声音等数据。深度学习通过学习样本数据的内在规律和表示层次,使机器能够模仿视听和思考等人类活动,从而解决复杂的模式识别难题。 深度学习的核心是神经网络,它由若干个层次构成,每个层次包含若干个神经元。神经元接收上一层次神经元的输出作为输入,通过加权和转换后输出到下一层次神经元,最终生成模型的输出结果。神经网络之间的权值和偏置是神经网络的参数,决定了输入值和输出值之间的关系。 深度学习的训练过程通常涉及反向传播算法,该算法用于优化网络参数,使神经网络能够更好地适应数据。训练数据被输入到神经网络中,通过前向传播算法将数据从输入层传递到输出层,然后计算网络输出结果与实际标签之间的差异,即损失函数。通过反向传播算法,网络参数会被调整以减小损失函数值,直到误差达到一定的阈值为止。 深度学习中还包含两种主要的神经网络类型:卷积神经网络(Convolutional Neural Networks,简称CNN)和循环神经网络(Recurrent Neural Networks,简称RNN)。卷积神经网络特别擅长处理图像数据,通过逐层卷积和池化操作,逐步提取图像中的高级特征。循环神经网络则适用于处理序列数据,如文本或时间序列数据,通过捕捉序列中的依赖关系来生成模型输出。 深度学习在许多领域都取得了显著的成果,包括计算机视觉及图像识别、自然语言处理、语音识别及生成、推荐系统、游戏开发、医学影像识别、金融风控、智能制造、购物领域、基因组学等。随着技术的不断发展,深度学习将在更多领域展现出其潜力。 在未来,深度学习可能会面临一些研究热点和挑战,如自监督学习、小样本学习、联邦学习、自动机器学习、多模态学习、自适应学习、量子机器学习等。这些研究方向将推动深度学习技术的进一步发展和应用。
### 如何在 Kaldi 中使用 THCHS-30 数据集 #### 准备工作 为了能够在 Kaldi 中顺利使用 THCHS-30 数据集,需先完成一系列准备工作。这包括获取并解压数据集至指定位置。 THCHS-30 是清华大学发布的30小时中文语音数据集,可以从 http://www.openslr.org/18/ 下载[^1]。下载完成后,在 `/thchs30` 文件夹下,应将三个压缩包解压到 `thchs30-openslr` 文件夹内,该文件夹应当与 `/s5` 目录处于同一级别[^2]。 #### 配置环境 配置好开发环境对于后续操作至关重要。确保已经安装了最新版本的 Kaldi 工具箱,并熟悉其基本命令结构。由于 THCHS-30 的处理方式借鉴自 WSJ S5 GPU 训练流程,因此建议参照类似的设置来调整参数和路径[^3]。 #### 处理音频文件 针对 THCHS-30 特有的格式,可能需要编写特定脚本来转换原始录音为适合 Kaldi 输入的形式。通常涉及提取特征向量(如 MFCC)、分割音轨以及创建必要的索引文件等预处理步骤。 ```bash # 假设当前位于 kaldi/egs/thchs30/s5/ utils/prepare_data.sh data/train data/local/dict steps/make_mfcc.sh --nj 4 --cmd "run.pl" data/train exp/make_mfcc/train mfcc ``` 上述代码片段展示了如何调用 Kaldi 提供的标准工具来进行特征提取。这里假设训练数据存放在 `data/train` 路径下;通过运行 `make_mfcc.sh` 可以生成用于模型训练所需的声学特性表示形式——梅尔频率倒谱系数 (MFCC)[^3]。 #### 构建语言模型 构建有效的语言模型也是实现高精度 ASR 系统不可或缺的一部分。可以利用 ARPA 或者其他格式的语言资源配合 SRILM 等外部库一起工作,最终形成适用于目标域的话语模式描述。 ```bash local/tg_graph.sh --arpa data/lang/G.arpa.gz \ --lexicon data/local/dict/lexicon.txt \ data/lang_test_tgsmall ``` 这段 shell 脚本说明了怎样根据给定的概率分布表 (`G.arpa.gz`) 和词典定义(`lexicon.txt`) 来建立测试阶段使用的有限状态语法图(FSG),从而指导解码过程更贴近实际应用场景的需求。 #### 开始训练 一切准备就绪之后就可以启动正式的训练环节了。依据具体硬件条件合理分配计算资源数量(比如线程数),并通过监控日志了解进度情况直至收敛结束。 ```bash steps/train_mono.sh --boost-silence 1.25 --nj 4 --cmd "run.pl" \ data/train data/lang exp/tri1 ``` 此段指令体现了单声道 HMM-GMM 模型训练的核心逻辑,其中设置了静默帧权重因子 (`--boost-silence`) 并指定了多进程执行策略 (`--nj`). 更复杂的拓扑结构则可以通过逐步增加混合成分数目及引入上下文依赖关系等方式迭代优化性能表现.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值