TransDecoder安装与使用-TransDecoder-v5.7.1(bioinfomatics tools-008)

21 篇文章 0 订阅
11 篇文章 0 订阅
01 背景

TransDecoder(在转录本中查找编码区域),寻找ORF区域。ORF是“开放阅读框架”的缩写,它指的是在核酸序列(如DNA或RNA)中,从起始密码子(通常是ATG,编码甲硫氨酸)到终止密码子(例如TAA,TAG或TGA)之间的连续序列,它们可以被翻译成蛋白质。ORF的长度通常以碱基对或氨基酸数量来度量,它们在基因组学和蛋白质组学中被用来预测可能的编码序列。

1.1 ORF与CDS

ORF(开放阅读框架)和CDS(编码序列)之间有一些区别

1. ORF(开放阅读框架):
   - ORF是核酸序列中的一段连续序列,从起始密码子到终止密码子,可以被翻译成蛋白质。
   - ORF的长度通常以碱基对或氨基酸数量来衡量。
   - 它是在基因组或转录本水平上识别的可能的编码序列。

2. CDS(编码序列):
   - CDS是完整的编码蛋白质的序列,即包含在mRNA中,从起始密码子到终止密码子之间的序列。
   - CDS通常是在已知基因或转录本中定义的,而不是在全基因组水平上进行预测。
   - 它是已知或已注释的编码蛋白质的实际序列。

总的来说,ORF是在基因组或转录本水平上预测的可能的编码序列,而CDS是已知或已注释的真实编码蛋白质的序列。

1.2 TransDecoder功能实现

TransDecoder可以识别转录本序列中的候选编码区域,例如由Trinity生成的de novo RNA-Seq转录组装序列,或者基于RNA-Seq对基因组的序列比对构建的序列。

TransDecoder适用于整个单一生物体的转录组,涉及数千个转录本序列作为输入。

如果您提供少量序列作为输入,TransDecoder可能无法正常工作,因为它需要基于从输入中派生的数百个候选项来训练一个物种特异性模型。

TransDecoder根据以下标准确定可能的编码序列:

- 在转录本序列中找到最小长度的开放阅读框架(ORF)。
- 计算与GeneID软件类似的对数似然分数 > 0。
- 当在第一个读框架中评分时,上述编码分数最高,与其他两个正向读框架中的分数相比。
- 如果发现一个候选ORF完全被另一个候选ORF的坐标所包含,则报告较长的那个。然而,单个转录本可以报告多个ORF(允许操纵子,嵌合体等)。
- 构建/训练/使用PSSM来优化起始密码子预测。
- 可选的,推测的肽段与Pfam域的匹配超过噪声截止分数。

02 参考
https://github.com/TransDecoder/TransDecoder   #官网
03 安装
wget -c https://github.com/TransDecoder/TransDecoder/archive/refs/tags/TransDecoder-v5.7.1.tar.gz   #下载
tar -zxvf TransDecoder-v5.7.1.tar.gz    #解压
mv TransDecoder-TransDecoder-v5.7.1 TransDecoder-v5.7.1    #修改名字
04 使用
#1 第一步
./TransDecoder.LongOrfs -h
Translation:

Transdecoder.LongOrfs - 转录组蛋白质预测
必需项:

-t <string> 文件名为 transcripts.fasta 的转录本

可选项:

--gene_trans_map <string> 基因到转录本标识符的映射文件(制表符分隔,gene_id<制表符>trans_id<回车>)

-m <int> 最小蛋白质长度(默认值:100)

-S 特定链(仅分析顶链)

--output_dir | -O <string> 意图输出目录的路径

--version 显示版本标签(5.7.1)

--genetic_code | -G <string> 遗传密码(默认值:普遍;见 PerlDoc;选项:Euplotes, Tetrahymena, Candida, Acetabularia) 遗传密码(来源于:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)
Acetabularia;Candida;纤毛虫;Dasycladaceae;Euplotid;Hexamita;Mesodinium;线粒体-海鞘;
线粒体-绿藻;线粒体-棘皮动物;线粒体-扁形动物;线粒体-无脊椎动物;线粒体-原生动物;线粒体-Pterobranchia;线粒体-Scenedesmus obliquus;线粒体-Thraustochytrium;线粒体-吸虫;线粒体-脊椎动物;线粒体-酵母;Pachysolen tannophilus;Peritrich;SR1_Gracilibacteria;Tetrahymena;普遍;
--complete_orfs_only 只产出完整的 ORFs(peps 以 Met (M) 开始,以 stop (*) 结束)

#2 第二步
./TransDecoder.Predict -h

Transdecoder.LongOrfs - 转录组蛋白质预测

必需项:

-t <string> 文件名为 transcripts.fasta 的转录本

常用选项:

--retain_long_orfs_mode <string> 'dynamic' 或 'strict'(默认:dynamic) 在动态模式下,根据同 GC 含量的随机序列中的 1%FDR 设置范围。

--retain_long_orfs_length <int> 在 'strict' 模式下,保留所有找到的等于或长于这么多核苷酸的 ORF,即使没有其他证据将其标记为编码(默认:1000000),因此默认情况下基本上是关闭的。

--retain_pfam_hits <string> 从运行 hmmscan 搜索 Pfam 而得到的域表输出文件(详见 transdecoder.github.io) 任何具有 pfam 域命中的 ORF 将被保留在最终输出中。

--retain_blastp_hits <string> 以 '-outfmt 6' 格式的 blastp 输出。 任何具有 blast 匹配的 ORF 将被保留在最终输出中。

--single_best_only 仅保留每个转录本的单个最佳 ORF(优先考虑同源性然后是 ORF 长度)

--output_dir | -O <string> 与 TransDecoder.LongOrfs 相同的输出目录

--no_refine_starts 开始细化使用 PWM 识别 5' 部分 ORF 的潜在起始密码子,默认情况下开启此过程。

高级选项

-T <int> 用于训练马尔可夫模型(六聚体统计)的最长 ORF 数量(默认:500) 注意,首先选择 10 倍的这个值来去除冗余,然后从非冗余集中选择这个 -T 值的最长 ORF。

--version 显示版本(5.7.1)

--genetic_code | -G <string> 遗传密码(默认:普遍;见 PerlDoc;选项:Euplotes, Tetrahymena, Candida, Acetabularia, ...) 遗传密码(来源于:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)
Acetabularia;Candida;纤毛虫;Dasycladaceae;Euplotid;Hexamita;Mesodinium;线粒体-海鞘;
线粒体-绿藻;线粒体-棘皮动物;线粒体-扁形动物;线粒体-无脊椎动物;线粒体-原生动物;线粒体-Pterobranchia;线粒体-Scenedesmus obliquus;线粒体-Thraustochytrium;线粒体-吸虫;线粒体-脊椎动物;线粒体-酵母;Pachysolen tannophilus;Peritrich;SR1_Gracilibacteria;Tetrahymena;普遍;
4.1 官方protocol
#运行 TransDecoder 注意,TransDecoder 现在可以在 Galaxy 工具上使用

从转录本 fasta 文件预测编码区域
“TransDecoder”工具在包含目标转录本序列的 fasta 文件上运行。最简单的用法如下:

步骤 1:提取长的开放阅读框
TransDecoder.LongOrfs -t target_transcripts.fasta
默认情况下,TransDecoder.LongOrfs 将识别至少有 100 个氨基酸长的 ORFs。您可以通过 '-m' 参数降低这个长度阈值,但请知道,随着最小长度标准的缩短,错误阳性 ORF 预测的比率会急剧增加。

如果转录本按照正义链定向,则包括 -S 标志以仅检查顶链。完整的使用信息如下。

如果你想排除部分 ORF,请包含 --complete_orfs_only,但请注意,在 5' 部分的情况下,所选的起始密码子可能不正确,因为 ORF 向上游延伸。同样,3' 部分和完全读通(没有起始和没有停止)的转录本序列将被排除。

步骤 2:(可选)
可选地,通过 blast 或 pfam 搜索识别与已知蛋白质同源的 ORFs。

见下方的包含同源性搜索作为 ORF 保留标准的部分。

步骤 3:预测可能的编码区域
TransDecoder.Predict -t target_transcripts.fasta [ 同源性选项 ]
最终的候选编码区域集可以在扩展名包括 .pep、.cds、.gff3 和 .bed 的文件 '.transdecoder.' 中找到

从基于基因组的转录本结构 GTF 文件开始(例如,cufflinks 或 stringtie)
这里的过程与上述相同,不同之处在于我们必须首先生成对应于转录本序列的 fasta 文件,并且最后,我们重新计算描述基因组背景下预测编码区域的 GFF3 格式的基因组注释文件。

使用基因组和转录本.gtf 文件构建转录本 fasta 文件,如下所示:

util/gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta 
接下来,将转录本结构 GTF 文件转换为 alignment-GFF3 格式的文件(这样做只是因为我们的过程是基于 gff3 而不是起始的 gtf 文件操作的 - 没有什么大不了的)。使用 cufflinks GTF 输出作为示例,将 gtf 转换为 alignment-gff3,如下所示:

util/gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3
现在,按照上述过程运行以生成您最佳的候选 ORF 预测:

TransDecoder.LongOrfs -t transcripts.fasta
(可选地,识别与已知蛋白质同源的肽段)
TransDecoder.Predict -t transcripts.fasta [ 同源性选项 ]
最后,生成一个基于基因组的编码区域注释文件:

util/cdna_alignment_orf_to_genome_orf.pl \
     transcripts.fasta.transdecoder.gff3 \
     transcripts.gff3 \
     transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
4.2如何与BLAST等连用

blast使用详见Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

 如何确定自己得到的unigene为真实基因,结合数据库检索是一个好的方法,使用swiss或者Pfam数据库进行初步匹配,提高序列的真实性!这也为后续qPCR或者PCR能出现条带奠定基础。

将同源性搜索包含为 ORF 保留标准
为了进一步提高捕获可能具有功能意义的 ORFs 的灵敏度,不论上述的编码可能性得分如何,您可以扫描所有 ORFs 以寻找与已知蛋白质的同源性,并保留所有这类 ORFs。这可以通过两种流行的方式完成:针对已知蛋白质数据库进行 BLAST 搜索,以及搜索 PFAM 以识别常见的蛋白质结构域。在 TransDecoder 的上下文中,这是这样完成的:

运行 TransDecoder.LongOrfs 后,您会找到一个名为 '${transcripts_file}.transdecoder_dir/longest_orfs.pep' 的多 fasta 蛋白质文件。使用以下方法搜索这些候选肽段的同源性:

BlastP 搜索
使用 BLAST+ 搜索如 Swissprot(快速)或 Uniref90(慢但更全面)这样的蛋白质数据库

一个示例命令可能如下所示:

```bash
blastp -query transdecoder_dir/longest_orfs.pep  \
    -db uniprot_sprot.fasta  -max_target_seqs 1 \
    -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6
```

如果您可以使用计算网格,考虑使用 HPC GridRunner 进行更高效的并行计算。

有些人更喜欢使用 diamondblast 而不是 NCBI blast 以大大提高速度 - 但要注意潜在的灵敏度差异。

Pfam 搜索
使用 Pfam 搜索肽段的蛋白质结构域。这需要安装 hmmer3 和 Pfam 数据库。

```bash
hmmsearch --cpu 8 -E 1e-10 --domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep
```

这里应该可以使用 hmmscan 和 hmmsearch,但由于执行速度更快,建议使用 hmmsearch。

就像 blast 搜索一样,如果您可以使用计算网格,考虑使用 HPC GridRunner。

将 Blast 和 Pfam 搜索结果整合到编码区域选择中
上述生成的输出可以被 TransDecoder 利用,以确保那些具有 blast 命中或域命中的肽段被保留在报告的可能编码区域集合中。像这样运行 TransDecoder.Predict:

```bash
TransDecoder.Predict -t target_transcripts.fasta --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6
```

最终的编码区域预测现在将包括那些具有与编码区域一致的序列特征以及那些显示出 blast 同源性或 pfam 结构域内容的区域。
4.3 输出结果解读

输出文件解释
一个工作目录(例如 transcripts.transdecoder_dir/)被创建来运行和存储管道的中间部分,并包含:

longest_orfs.pep:满足最小长度标准的所有 ORFs,不论其编码潜力如何。
longest_orfs.gff3:在目标转录本中找到的所有 ORFs 的位置
longest_orfs.cds:所有检测到的 ORFs 的核苷酸编码序列

longest_orfs.cds.top_500_longest:用于训练编码序列的马尔可夫模型的前 500 个最长 ORFs。

hexamer.scores:每个 k-mer 的对数似然分数(编码/随机)

longest_orfs.cds.scores:每个 ORF 在 6 个阅读框架中的对数似然总分数
longest_orfs.cds.scores.selected:基于评分标准(顶部描述)选择的 ORFs 的存取号
longest_orfs.cds.best_candidates.gff3:转录本中选定 ORFs 的位置
然后,最终输出在您当前的工作目录中报告:

transcripts.fasta.transdecoder.pep:最终候选 ORFs 的肽序列;所有较短的候选项都从较长的 ORFs 中移除。
transcripts.fasta.transdecoder.cds:最终候选 ORFs 的编码区域的核苷酸序列
transcripts.fasta.transdecoder.gff3:最终选定 ORFs 在目标转录本中的位置
transcripts.fasta.transdecoder.bed:描述 ORF 位置的 bed 格式文件,最适合使用 GenomeView 或 IGV 查看。

java -jar $GENOMEVIEW/genomeview.jar transcripts.fasta transcripts.fasta.transdecoder.bed
java -jar $GENOMEVIEW/genomeview.jar test.genome.fasta transcripts.bed transcripts.fasta.transdecoder.genome.bed

这里使用两个软件GenomeView or IGV 实现了预测CDS结构的可视化,当然Apollo等软件也可做到这一点。

05 常用命令行

TransDecoder 去冗余三部曲,这里是和配合trinity使用,详见Trinity安装与使用-Trinity-v2.15.1(bioinfomatics tools-006)

##预测三部曲
./TransDecoder-v5.7.1/TransDecoder.LongOrfs -t Trinity.fasta
./blastp -d ./uniprot_sprot.fa.db.dmnd -q ./longest_orfs.pep --evalue 1e-5 --max-target-seqs 1 > XXblastp.outfmt6
/new2pan/xyy230105/230817p450jinhuawenxianjishuluxian/001p450apps/TransDecoder-v5.7.1/TransDecoder.Predict -t ./Trinity.fasta --retain_blastp_hits XXblastp.outfmt6 
06 参考文献

  李静.    无花果果皮花青苷积累的转录组分析及调控机理研究[D].    南京农业大学,    2020.     DOI:10.27244/d.cnki.gnjnu.2020.000274.   
 朱峰林.    莲基因组重测序、转录组分析及淀粉合成相关基因克隆[D].    武汉大学,    2019.     DOI:10.27379/d.cnki.gwhdu.2019.000094.   
 Amombo E .    高羊茅和狗牙根的连锁不平衡,转录组分析和耐盐激素调节[D].    中国科学院大学(中国科学院武汉植物园),    2019.     DOI:10.27603/d.cnki.gkhzs.2019.000024.   
 

  • 30
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: qt-everywhere-opensource-src-5.7.1是指Qt开源软件开发工具包的源代码,版本号为5.7.1。Qt是一套跨平台的C++图形用户界面应用程序开发框架,可以用于构建高质量的应用程序和用户界面。 Qt有着丰富的功能和工具,使得开发者能够快速轻松地创建各种类型的应用程序,包括桌面应用程序、移动应用程序和嵌入式应用程序。Qt的跨平台特性使得开发者只需要编写一套代码,即可在多个平台上运行,无需针对不同的操作系统进行单独开发。 Qt提供了丰富的用户界面控件和功能模块,开发者可以根据需求自由组合和定制,从而创建出独特的界面效果。同时,Qt还提供了强大的图形效果和动画支持,使得应用程序更加生动和吸引人。 Qt还支持多线程、网络通信和数据库访问等常用功能,并且具有良好的性能和稳定性。Qt的开发环境友好,提供了强大的集成开发环境和调试工具,大大简化了开发过程并提高了效率。 qt-everywhere-opensource-src-5.7.1是用于构建Qt应用程序的源代码,开发者可以基于此进行二次开发和定制,以满足自己的需求。Qt的开源性质也使得开发者可以自由地修改和分发源代码,从而促进了更广泛的应用和贡献。 ### 回答2: qt-everywhere-opensource-src-5.7.1是Qt 5.7.1的开源源代码。Qt是一种跨平台的应用程序框架,用于开发图形用户界面(GUI)、嵌入式系统和移动设备等各种应用程序。Qt提供了一套面向对象的API,使得开发人员可以更轻松地创建具有丰富功能的应用程序。 Qt 5.7.1是Qt框架的一个发行版本,提供了许多新功能和改进。使用Qt 5.7.1,开发人员可以使用Qt Quick Controls 2构建现代化的、响应式的用户界面。此外,Qt 5.7.1还提供了一些新的QML模块和Qt Quick组件,如Qt Charts用于绘制各种图表,Qt Speech用于语音合成和语音识别,Qt WebEngine用于集成Web内容等等。 Qt 5.7.1还提供了对多个操作系统和平台的支持,包括Windows、Linux、macOS、Android、iOS等。借助Qt的跨平台特性,开发人员只需编写一次代码,就可以在多个平台上运行他们的应用程序,大大节省了开发和维护的成本。 Qt 5.7.1是一个开源的版本,这意味着开发人员可以自由地访问、使用和修改源代码。这使得开发人员可以根据自己的需求进行定制和优化,并与Qt社区共享他们的改进和贡献。 总之,qt-everywhere-opensource-src-5.7.1是Qt 5.7.1的开源源代码,是一个功能强大、跨平台的应用程序框架,为开发人员提供了丰富的API和工具,使他们能够更轻松地创建高质量的应用程序。 ### 回答3: qt-everywhere-opensource-src-5.7.1是一个开源的软件开发工具包,用于创建跨平台的桌面、移动和嵌入式应用程序。它提供了丰富的功能和工具,使开发者能够轻松地构建出色的用户界面和功能强大的应用程序。 qt-everywhere-opensource-src-5.7.1支持多种操作系统,包括Windows、Mac OS X、Linux、Android和iOS等。这使得开发者可以在不同的平台上开发和部署应用程序,提高了开发效率和灵活性。 该软件开发工具包还提供了一大批易于使用的库和模块,供开发者使用。这些库和模块涵盖了各个方面,如图形用户界面(GUI)、网络通信、数据库访问、多媒体处理等。开发者可以根据自己的需求选择合适的模块,并利用其提供的接口和功能,快速构建出功能完善的应用程序。 除了基本的功能外,qt-everywhere-opensource-src-5.7.1还提供了强大的跨平台支持。开发者可以编写一次代码,然后通过简单的修改就可以在不同的平台上编译和运行应用程序。这极大地减少了开发和测试的工作量,并确保了应用程序的一致性和稳定性。 总的来说,qt-everywhere-opensource-src-5.7.1是一个功能强大、灵活且易于使用的软件开发工具包。它为开发者提供了丰富的功能和工具,帮助他们快速构建跨平台的应用程序,提高开发效率,节省开发成本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值