基因序列分析(生物信息学论坛)

          基因序列分析,其实说白了就是核酸和蛋白质的序列分析,分析上使用的主要是计算机的算法理论和工具,但是也必须具有生物学的背景知识,在对序列进行分析时,首先应当明确序列的性质,mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 


(一)核酸序列分析 

          1
、双序列比对(pairwise alignment 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对(代表算法:Needleman-Wunsch算法)和局部比对(代表算法:Smith-Waterman算法)两类。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。
       

            
除了利用BLASTFASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(
http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST http://www.ncbi.nlm.nih.gov/BLAST/)。 

            
以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。
 

          
1BLAST
FASTA 

            FASTA
http://www.ebi.ac.uk/fasta33/BLASThttp://www.ncbi.nlm.nih.gov/BLAST/是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTABLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTNBLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

            (2) NeedlePairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列

          3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。 


         2、多序列比对和进化树 

          
研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的多序列比对工具为ClustalW
http://www.ebi.ac.uk/clustalw/),多用于比较蛋白序列。 

             ClustalW
用法:
 

         
1)输入:序列以FastA格式输入。
 

         
2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。


        3、基因结构分析 根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLASTBLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。 


(二) 蛋白质序列分析 

             1
、跨膜区预测
 

             
各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用


             推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。 

            
方法:输入待分析的蛋白序列即可。
 

            2
、信号肽预测
 

           
信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3-1位为小而中性氨基酸。
 

            
推荐使用SignalP软件2.0版(
http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

            方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。 

             3
、亚细胞定位预测
 

             
亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。
 

             
推荐使用PSORT
http://psort.nibb.ac.jp/II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页