kaldi utils/filter_scp.pl脚本解释

kaldi utils/filter_scp.pl脚本解释

1 用法

# This script takes a list of utterance-ids or any file whose first field
# of each line is an utterance-id, and filters an scp
# file (or any file whose "n-th" field is an utterance id), printing
# out only those lines whose "n-th" field is in id_list. The index of
# the "n-th" field is 1, by default, but can be changed by using
# the -f <n> switch

用法:utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
也可以这么写,加了一个<
新写法:utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk

utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk

2 中文解释

输入参数【utt.list】 每行是一个utterance-id
输入参数【utt2spk_all 】 每行是一个含有很多field字段的文本,其中第n序号字段是utterance-id
-f <n> 默认n为1,即utt2spk_all 中的第1个字段就是utterance-id,可以自己指定

3 作用

将utt2spk_all 中 满足utterance-id在utt.list中 的行给导出并重新生成给utt2spk文件

utt.list生成 可以从文本转写txt中得到,用以下命令:

awk '{print $1}' transcripts.txt > utt.list

transcripts.txt内容
transcripts.txt是一个以空格隔开的含有两个字段(分别是utterance-id、text)的多行文本
通过awk打印出第一个字段(utterance-id)到utt.list

4 注意

awk 列数下标默认从1开始
其实utils/filter_scp.pl的作用是,utt2spk_all表 和 utt.list表(id表)【取交集】

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值