kaldi utils/filter_scp.pl脚本解释

最新推荐文章于 2024-05-22 17:43:08 发布

zhulinniao

最新推荐文章于 2024-05-22 17:43:08 发布

阅读量691

点赞数

分类专栏：语音文章标签： linux awk kaldi

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/107058026

版权

语音专栏收录该内容

47 篇文章 15 订阅

订阅专栏

kaldi utils/filter_scp.pl脚本解释

1 用法

# This script takes a list of utterance-ids or any file whose first field
# of each line is an utterance-id, and filters an scp
# file (or any file whose "n-th" field is an utterance id), printing
# out only those lines whose "n-th" field is in id_list. The index of
# the "n-th" field is 1, by default, but can be changed by using
# the -f <n> switch

用法：utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
也可以这么写，加了一个<
新写法：utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk

utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk

2 中文解释

输入参数【utt.list】 每行是一个utterance-id
输入参数【utt2spk_all 】 每行是一个含有很多field字段的文本，其中第n序号字段是utterance-id
-f <n> 默认n为1，即utt2spk_all 中的第1个字段就是utterance-id，可以自己指定

3 作用

将utt2spk_all 中 满足utterance-id在utt.list中 的行给导出并重新生成给utt2spk文件

而 utt.list生成 可以从文本转写txt中得到，用以下命令：

awk '{print $1}' transcripts.txt > utt.list

transcripts.txt内容
transcripts.txt是一个以空格隔开的含有两个字段（分别是utterance-id、text）的多行文本
通过awk打印出第一个字段（utterance-id）到utt.list

4 注意

awk 列数下标默认从1开始
其实utils/filter_scp.pl的作用是，utt2spk_all表和 utt.list表(id表)【取交集】

zhulinniao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
kaldi utils/filter_scp.pl脚本解释

kaldi utils/filter_scp.pl脚本解释# This script takes a list of utterance-ids or any file whose first field# of each line is an utterance-id, and filters an scp# file (or any file whose "n-th" field is an utterance id), printing# out only those lines whose
复制链接

扫一扫

专栏目录