如何下载功能基因的隐马尔可夫文件-Pfam及InterProscan-生信工具48

如何使用hmmer注释候选基因,当然blast也可~

Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)_blast软件-CSDN博客

blast的快速安装使用-简易版_blast安装-CSDN博客 

JCVI-筛选blast最佳结果(生物信息学工具-015)-CSDN博客 

Hmmer安装与使用-Hmmer-3.3.2(bioinfomatics tools-009)-CSDN博客 

在interprosacn下载候选基因的隐马模型,比如检索糖基转移酶

下载hmm模型

如果使用 hmmsearch 命令查询我们序列中的保守结构域:

hmmsearch --domtblout hmm_XXX.txt --cut_tc XXX.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa
hmmsearch --cpu 20  --cut_ga  --tblout out.tbl --domtblout  out.dom PF1949.hmm ../XX.protein.fa
  • target length:这是输入序列的总长度。
  • query length:这是查询序列的总长度,也就是蛋白结构域的长度。
  • 在筛选时,不应关注这两个长度,因为它们没有实际意义。应该查看后面的两个 "from" 和 "to" 列,来确定这两条序列从哪里到哪里进行了比对。
  • 一般来说,我们会筛选第 7 列中的 E-value 值。

一般来说,输出结果都输候选基因,处于blast比对40%的相似度,建议全部使用。

为了理解如何筛选,首先查看文件说明。以下是结构域格式输出的说明。官方文档可通过链接 http://eddylab.org/software/hmmer/Userguide.pdf 获取。

结构域比对表

在蛋白质搜索程序中,--domtblout 选项生成结构域比对表。每个结构域占一行,可能一个序列中会有多个结构域。结构域比对表有 22 个空格分隔的字段,后面跟着一个自由文本描述目标序列的字段。具体字段如下:

  1. 目标名称(Target Name):目标序列或 profile 的名称。
  2. 目标访问号(Target Accession):目标序列或 profile 的访问号,如果没有则为 "-"。
  3. 目标长度(tlen):目标序列或 profile 的长度,以氨基酸残基计。这个长度与查询序列的长度一起,有助于解释后续列中的结构域坐标。
  4. 查询名称(Query Name):查询序列或 profile 的名称。
  5. 查询访问号(Accession):查询序列或 profile 的访问号,如果没有则为 "-"。
  6. 查询长度(qlen):查询序列或 profile 的长度,以氨基酸残基计。
  7. E-value:整体序列/ profile 比对的 E-value(包括所有结构域)。
  8. 得分(Score):整体序列/ profile 比对的 Bit 得分(包括所有结构域),包含了为 null2 组合偏差的得分修正。
  9. 偏差(Bias):应用于得分的组合偏差修正。
  10. 结构域编号(#):该结构域的编号(1..ndom)。
  11. 总结构域数(of):该序列中报告的结构域总数,ndom。
  12. 条件 E-value(c-Evalue):结构域可靠性的宽松度量,是在比独立 E-value 更小的搜索空间中计算出来的。
  13. 独立 E-value(i-Evalue):如果这是唯一发现的结构域,其独立 E-value,排除其他结构域的影响。是该结构域可靠性的严格度量。
  14. 结构域得分(Domain Score):该结构域的 Bit 得分。
  15. 结构域偏差(Domain Bias):应用于该结构域的组合(null2)偏差得分修正。
  16. from(hmm 坐标):该结构域在 profile 中的 MEA 比对起始位置,编号为 1..N。
  17. to(hmm 坐标):该结构域在 profile 中的 MEA 比对结束位置,编号为 1..N。
  18. from(ali 坐标):该结构域在序列中的 MEA 比对起始位置,编号为 1..L。
  19. to(ali 坐标):该结构域在序列中的 MEA 比对结束位置,编号为 1..L。
  20. from(env 坐标):该结构域在序列中的 envelope 起始位置,编号为 1..L。
  21. to(env 坐标):该结构域在序列中的 envelope 结束位置,编号为 1..L。
  22. 准确度(Acc):在 MEA 比对中已对齐残基的平均后验概率;是整体比对可靠性的度量(0 到 1 之间,1.00 表示完全可靠的比对)。
  23. 目标描述(Description of Target):该行的剩余部分是目标的自由文本描述。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值