Blat The BLAST-Like Alignment Tool

  blat database query [-ooc=11.ooc] output.psl  

  1.   
  2. where:  
  3.   
  4.    database and query are each either .fa .nib or .2bit file,  
  5.   
  6.    or list these files one file name per line.  
  7.   
  8.    -ooc=11.ooc tells the program to load over-occurring 11-mers from  
  9.   
  10.                and external file.  This will increase the speed  
  11.   
  12.                by factor of 40 in many cases, but is not required  
  13.   
  14.    output.psl is where to put the output.  
  15.   
  16.    Subranges of nib and .2bit files may specified using the syntax:  
  17.   
  18.       /path/file.nib:seqid:start-end  
  19.   
  20.    or  
  21.   
  22.       /path/file.2bit:seqid:start-end  
  23.   
  24.    or  
  25.   
  26.       /path/file.nib:start-end  
  27.   
  28.    With the second form, sequence id of file:start-end will be used.  
  29.   
  30. options:  
  31.   
  32.    -t=type     Database type.  Type is one of:  
  33.   
  34.    库序列        dna DNA sequence  
  35.   
  36.                  prot protein sequence  
  37.   
  38.                  dnax DNA sequence translated in six frames to protein  
  39.   
  40.                The default is dna  
  41.   
  42.    -q=type     Query type.  Type is one of:  
  43.   
  44.   查询序列       dna DNA sequence  
  45.   
  46.                  rna RNA sequence  
  47.   
  48.                  prot protein sequence  
  49.   
  50.                  dnax DNA sequence translated in six frames to protein  
  51.   
  52.                  rnax DNA sequence translated in three frames to protein  
  53.   
  54.                The default is dna  
  55.   
  56.    -prot       Synonymous with -t=prot -q=prot  
  57.   
  58.    -ooc=N.ooc  Use overused tile file N.ooc.  should correspond to  
  59.   
  60.                the tileSize  
  61.   
  62.    -tileSize=N sets the size of match that triggers an alignment.  
  63.   
  64.                Usually between and 12  
  65.   
  66.                Default is 11 for DNA and for protein.  
  67.   
  68.    -stepSize=N spacing between tiles. Default is tileSize.  
  69.   
  70.    -oneOff=N   If set to this allows one mismatch in tile and still  
  71.   
  72.                triggers an alignments.  Default is 0.  
  73.   
  74.    -minMatch=N sets the number of tile matches.  Usually set from to  
  75.   
  76.                Default is for nucleotide, for protein.  
  77.   
  78.    -minScore=N sets minimum score.  This is the matches minus the  
  79.   
  80.                mismatches minus some sort of gap penalty.  Default is 30  
  81.   
  82.    -minIdentity=N Sets minimum sequence identity (in percent).  Default is  
  83.   
  84.                90 for nucleotide searches, 25 for protein or translated  
  85.   
  86.                protein searches.  
  87.   
  88.    -maxGap=N   sets the size of maximum gap between tiles in clump.  Usually  
  89.   
  90.                set from to 3.  Default is 2. Only relevent for minMatch 1.  
  91.   
  92.    -noHead     suppress .psl header (so it's just tab-separated file)  
  93.   
  94.    -makeOoc=N.ooc Make overused tile file. Target needs to be complete genome.  
  95.   
  96.    -repMatch=N sets the number of repetitions of tile allowed before  
  97.   
  98.                it is marked as overused.  Typically this is 256 for tileSize  
  99.   
  100.                12, 1024 for tile size 11, 4096 for tile size 10.  
  101.   
  102.                Default is 1024.  Typically only comes into play with makeOoc.  
  103.   
  104.                Also affected by stepSize. When stepSize is halved repMatch is  
  105.   
  106.                doubled to compensate.  
  107.   
  108.    -mask=type  Mask out repeats.  Alignments won't be started in masked region  
  109.   
  110.                but may extend through it in nucleotide searches.  Masked areas  
  111.   
  112.                are ignored entirely in protein or translated searches. Types are  
  113.   
  114.                  lower mask out lower cased sequence  
  115.   
  116.                  upper mask out upper cased sequence  
  117.   
  118.                  out   mask according to database.out RepeatMasker .out file  
  119.   
  120.                  file.out mask database according to RepeatMasker file.out  
  121.   
  122.    -qMask=type Mask out repeats in query sequence.  Similar to -mask above but for query rather than target sequence.  
  123.   
  124.    -repeats=type Type is same as mask types above.  Repeat bases will not be  
  125.   
  126.                masked in any way, but matches in repeat areas will be reported  
  127.   
  128.                separately from matches in other areas in the psl output.  
  129.   
  130.    -minRepDivergence=NN minimum percent divergence of repeats to allow  
  131.   
  132.                them to be unmasked.  Default is 15.  Only relevant for  
  133.   
  134.                masking using RepeatMasker .out files.  
  135.   
  136.    -dots=N     Output dot every sequences to show program's progress  
  137.   
  138.    -trimT      Trim leading poly-T  
  139.   
  140.    -noTrimA    Don't trim trailing poly-A  
  141.   
  142.    -trimHardA  Remove poly-A tail from qSize as well as alignments in  
  143.   
  144.                psl output  
  145.   
  146.    -fastMap    Run for fast DNA/DNA remapping not allowing introns,  
  147.   
  148.                requiring high %ID  
  149.   
  150.    -out=type   Controls output file format.  Type is one of:  
  151.   
  152.                    psl Default.  Tab separated format, no sequence  
  153.   
  154.                    pslx Tab separated format with sequence  
  155.   
  156.                    axt blastz-associated axt format  
  157.   
  158.                    maf multiz-associated maf format  
  159.   
  160.                    sim4 similar to sim4 format  
  161.   
  162.                    wublast similar to wublast format  
  163.   
  164.                    blast similar to NCBI blast format  
  165.   
  166.                    blast8- NCBI blast tabular format  
  167.   
  168.                    blast9 NCBI blast tabular format with comments  
  169.   
  170.    -fine       For high quality mRNAs look harder for small initial and  
  171.   
  172.                terminal exons.  Not recommended for ESTs  
  173.   
  174.    -maxIntron=N  Sets maximum intron size. Default is 750000  
  175.   
  176.    -extendThroughN Allows extension of alignment through large blocks of N's  


Blat,全称The BLAST-Like Alignment Tool, 可以称为“类BLAST比对工具”,由W.James Kent于2002年开发。当时随着人类基因组计划的进展,把大量的基因和ESTs快速定位到较大的基因组上称为一种迫切需要。blast相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示包含intron的基因定位。Blat就是再这种形势下应运而生了。

Blat的主要特点是:速度快,共线性输出结果简单易读。对于比较小的序列(如cDNA等)对大基因组的比对,blat无疑是首选。Blat把相关的呈共线性的比对结果连接成更大的比对结果,从中也可以很容易的找到exons和introns。因此,在相近物种的基因同源性分析和EST分析中,blat得到了广泛的应用。

如下图所示,blast会把每一个比对作为一个输出,而blat会把一些符合共线性关系的比对连接起来作为一个输出。

 

Blat的输入文件必须满足fasta格式,运行时非常的简单,不需要进行建库就可以直接比对。Blat的基本命令:

blat      database  query [-参数]  output

程序正常运行时,会在读完database中的所有subject序列时在屏幕输出database的统计结果:

Loaded 1493629 letters in 486 sequences###486条序列中有1493629个letters

Searched 1493629 bases in 486 sequences###自己和自己比对

默认的输出结果是列表形式的文本文件,即psl格式。

psl格式的结果包含了详细的比对位置信息,每一列的意义都在文件开头列出。第1~8列是通体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数与gap总长等;第9~17列是比对位置信息,包括比对方向、query和subject的名字、长度、比对起止位置;18~21列是显示每一个精确比对的block的信息,包括blocks数、每个block的长度和在query、subject上的位置。

对psl输出结果,需要注意一下几点:

1.blat的结果在subject上允许存在很大的gap(intron区域),所以同一个结果在query和subjects上覆盖的区域可能会相差很多,这一点与blast不同。

2.在基因对基因组的比对中,block的个数不能等同于exon的个数。因为blat对block的定义是一个没有插入缺失的比对,任何插入或者缺失的碱基都会使一个block终止,所以一个exon很可能是有很多block构成的。因此exon和intron的个数要通过足够大的gap来判断。

3.psl结果里面碱基位置的计算是从0开始的而不是1.

 

做不同类型的比对时候需要注意一个问题,就是 “-t”和“-q”的定义必须为同一类型。比如database和query都是蛋白序列,并且两者同时定义为 “prot”的时候,比对能够正常进行;如果database是DNA序列而query序列是蛋白序列,那么在定义 “-q=prot”的同时还需要定义 “-tdnax”.下面就用同一个基因的DNA和蛋白序列举几个例子。

运行命令1:

blat  cdna.seq  pro.seq  -q=prot  out.psl

程序报错退出:

 and  q  must both be either protein or dna

运行命令2:

blat  cdna.seq  pro.seq  -t=dnax  -q=prot  -noHead  out.psl

ok, right

注意蛋白比对和核酸比对在输出上的不同点,在显示方向的位置显示了2个“+”,表示query和subject都是正向比对。

运行命令3,核酸序列的蛋白级别比对:

blat  cdna.seq  cdna.seq  -t=dnax  -q=dnax  -noHead out.psl


http://blog.sina.com.cn/s/blog_959d22480101k348.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值