如何下载功能基因的隐马尔可夫文件-Pfam及InterProscan-生信工具48

最新推荐文章于 2025-05-18 17:51:51 发布

让学习成为一种生活方式

最新推荐文章于 2025-05-18 17:51:51 发布

阅读量1k

点赞数 32

文章标签：前端数据库 javascript

本文链接：https://blog.csdn.net/weixin_44874487/article/details/145964673

版权

如何使用hmmer注释候选基因，当然blast也可~

Blast安装及使用-Blast+2.14.0（bioinfomatics tools-001）_blast软件-CSDN博客

blast的快速安装使用-简易版_blast安装-CSDN博客

JCVI-筛选blast最佳结果（生物信息学工具-015）-CSDN博客

Hmmer安装与使用-Hmmer-3.3.2（bioinfomatics tools-009）-CSDN博客

在interprosacn下载候选基因的隐马模型，比如检索糖基转移酶

下载hmm模型

如果使用 hmmsearch 命令查询我们序列中的保守结构域：

hmmsearch --domtblout hmm_XXX.txt --cut_tc XXX.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa
hmmsearch --cpu 20  --cut_ga  --tblout out.tbl --domtblout  out.dom PF1949.hmm ../XX.protein.fa

target length：这是输入序列的总长度。
query length：这是查询序列的总长度，也就是蛋白结构域的长度。
在筛选时，不应关注这两个长度，因为它们没有实际意义。应该查看后面的两个 "from" 和 "to" 列，来确定这两条序列从哪里到哪里进行了比对。
一般来说，我们会筛选第 7 列中的 E-value 值。

一般来说，输出结果都输候选基因，处于blast比对40%的相似度，建议全部使用。

为了理解如何筛选，首先查看文件说明。以下是结构域格式输出的说明。官方文档可通过链接 http://eddylab.org/software/hmmer/Userguide.pdf 获取。

结构域比对表

在蛋白质搜索程序中，--domtblout 选项生成结构域比对表。每个结构域占一行，可能一个序列中会有多个结构域。结构域比对表有 22 个空格分隔的字段，后面跟着一个自由文本描述目标序列的字段。具体字段如下：

目标名称（Target Name）：目标序列或 profile 的名称。
目标访问号（Target Accession）：目标序列或 profile 的访问号，如果没有则为 "-"。
目标长度（tlen）：目标序列或 profile 的长度，以氨基酸残基计。这个长度与查询序列的长度一起，有助于解释后续列中的结构域坐标。
查询名称（Query Name）：查询序列或 profile 的名称。
查询访问号（Accession）：查询序列或 profile 的访问号，如果没有则为 "-"。
查询长度（qlen）：查询序列或 profile 的长度，以氨基酸残基计。
E-value：整体序列/ profile 比对的 E-value（包括所有结构域）。
得分（Score）：整体序列/ profile 比对的 Bit 得分（包括所有结构域），包含了为 null2 组合偏差的得分修正。
偏差（Bias）：应用于得分的组合偏差修正。
结构域编号（#）：该结构域的编号（1..ndom）。
总结构域数（of）：该序列中报告的结构域总数，ndom。
条件 E-value（c-Evalue）：结构域可靠性的宽松度量，是在比独立 E-value 更小的搜索空间中计算出来的。
独立 E-value（i-Evalue）：如果这是唯一发现的结构域，其独立 E-value，排除其他结构域的影响。是该结构域可靠性的严格度量。
结构域得分（Domain Score）：该结构域的 Bit 得分。
结构域偏差（Domain Bias）：应用于该结构域的组合（null2）偏差得分修正。
from（hmm 坐标）：该结构域在 profile 中的 MEA 比对起始位置，编号为 1..N。
to（hmm 坐标）：该结构域在 profile 中的 MEA 比对结束位置，编号为 1..N。
from（ali 坐标）：该结构域在序列中的 MEA 比对起始位置，编号为 1..L。
to（ali 坐标）：该结构域在序列中的 MEA 比对结束位置，编号为 1..L。
from（env 坐标）：该结构域在序列中的 envelope 起始位置，编号为 1..L。
to（env 坐标）：该结构域在序列中的 envelope 结束位置，编号为 1..L。
准确度（Acc）：在 MEA 比对中已对齐残基的平均后验概率；是整体比对可靠性的度量（0 到 1 之间，1.00 表示完全可靠的比对）。
目标描述（Description of Target）：该行的剩余部分是目标的自由文本描述。