基因组数据注释常用的文件-Bed文件和GFF文件

原文:http://blog.sina.com.cn/s/blog_80572f5d0102x5m7.html


genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示,用UCSC Genome Browser进行可视化比较。

Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。    


两种文件的区别在于,
 BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 等等

BEDTools主要使用BED格式的前三列,BED可以最多有12列。BED格式的常用列描述如下:

  • chrom: 染色体信息, 如chr1, III, myCHrom, contig1112.23, 必须有
  • start: genome feature的起始位点,从0开始, 必须有
  • end: genome feature的终止位点,至少为1, 必须有
  • name: genome feature的官方名称或者自定义的一个名字
  • score: 可以是p值等等一些可以刻量化的数值信息
  • strands: 正反链信息


这些列的数据,也可以用在circos上,进行基因组信息可视化。

求两个bed文件中描述的基因组区段的重叠区域
intersectBed可以   用来求两个BED或者BAM文件中的overlap,overlap可以进行自定义是整个genome features的overlap还是局部。

bamToBed可以   用来把比对产生的bam文件转化为Bed文件,可以配合coverageBed命令使用。

参考  https://github.com/Population-Transcriptomics/pairedBamToBed12

在Bedtools 2.8版本中, five bedtools -  intersect ,  coverage ,  genomecob ,  bamToBed , and  bed12ToBed6  常用来处理bed文件
在Bedtools 2.16版本中,用的是 intersectBed,bamToBed,以及coverageBed,genomeCoverageBed命令
在Bedtools 2.26版本中,又用会原来的简短的命令了,比如intersect,coverage,genomecov等等,不过还是保留了genomeCoverageBed 的用法

参考:
https://media.readthedocs.org/pdf/bedtools/latest/bedtools.pdf

用coverage或coverageBed 计算覆盖度的时候,要提供两个bed文件。

参考:
http://bedtools.readthedocs.io/en/latest/content/example-usage.html

用genomecov或genomeCoverageBed的时候,要提供一个bam和一个基因组染色体或contigID 以及长度的信息
也可以用samtools pileup 或 samtools depth 获得测序深度

参考:
https://www.biostars.org/p/5165/
http://bedtools.readthedocs.io/en/latest/content/tools/genomecov.html
https://www.biostars.org/p/75207/

另外还有一个软件 qualimap可以做这些事
http://qualimap.bioinfo.cipf.es

参考文献:
Comparison of Custom Capture for Targeted Next-Generation DNA Sequencing
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值