全外显子组测序的bed文件如何制作

bed文件的第一列(序列名称)、第四列(起始位置)、第五列(终止位置)。下面是在Linux系统中的操作步骤:

我用的是hg19的参考基因组,先下载对应的gtf文件:

wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_40/GRCh37_mapping/gencode.v40lift37.annotation.gtf.gz

然后用gtf文件处理

gunzip -c gencode.v40lift37.annotation.gtf.gz | awk '($3=="exon") {printf("%s\t%s\t%s\n",$1
,int($4)-1,$5);}' | sort -T . -t $'\t' -k1,1 -k2,2n | bedtools merge > hg19.bed

注:因为gtf的第一个碱基记为1,但是bed文件的第一个碱基记为0,所以从gtf转化为bed的碱基位置需要-1;而终止位置碱基没有-1是因为终止位置的碱基对不被包含在内,即bed文件的碱基位置是前闭后开的。后面是对最终的结果进行排序,先按照第一列进行排序(-k1,1)再按照第二列以数值的方式进行排序(-k2,2n)。最后,再用bedtools把可能有重叠的部分整合之后,就能得到我们想要的结果。

输出结果如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值