基因家族鉴定

weixin_43995047

已于 2023-09-19 01:13:44 修改

阅读量2k

点赞数 1

文章标签： java

于 2022-06-22 11:16:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43995047/article/details/125391469

版权

1.目标物种的蛋白质信息下载

Annotations - WHEAT URGI

2.目标家族隐马尔可夫模型下载

Pfam: Home page (xfam.org)

2.1知道目标家族的pfam号

直接搜索下载

2.2不知道pfam号

老师好，请问怎么找一个家族基因隐马尔科夫模型的pfam索取号 - 组学大讲堂问答社区

比如，知道基因家族基因的缩写，如，NBS，MYB，AP2，WRKY等等, 就可以搜索一下相关的基因家族文章来从文章中获得：

如谷歌学术搜索，关键词：genome wide gene family + 基因家族缩写，筛选一下最新，在方法部分查看

2.3下载

2.4自己构建hmm模型

主要的构建逻辑就是直接在NCBI网站搜索CBL，肯定会出现很多结果，为了我们我们构建的HMM model相对精确，可以在搜索时指定几个物种，比如指定拟南芥和水稻作为搜索物种，这时会搜索到所有与拟南芥和水稻相关的CBL的基因，将搜索到的所有基因的蛋白序列保存为fasta文件。最好的方法是，想办法获取到拟南芥和水稻已经发表的CBL蛋白序列，这样就可以构建出更为准确的HMM model文件。最好是这样，不过也不影响。

将上述搜索到的全部基因的蛋白序列首先进行多序列比对，得到align.fasta文件

然后通过下述命令行操作，即可得到HMM model。

hmmbuild CBL.hmm align.fa

3 利用HMM model在基因组文件中搜寻候选基因家族成员

可以提前手动将上述两个HMM model文件进行合并，合并为一个HMM model文件，就像操作txt记事本那样，把其中一个复制后粘贴在另一个后面，然后重命名即可

hmmsearch CIPK.hmm /public/home/wangyiwei/wheat2/gene_family/wheat_trans_longest.fa > wheat_hmmsearch_CIPK.out

这里展示了几列信息，很好辨识，左边三列是全序列比对结果（按score从高到低排序），红框中的三列是hmm模型结构域最佳匹配结果（排序同上）。这里我们主要以红色框中的搜索结果为准，以10-5进行限制

4.将两种的id求交集

5.获取id的蛋白质信息

6.smart interpro 分析基因序列，检查结构域

SMART: Batch access (embl.de)

InterProScan - InterPro (ebi.ac.uk)

在线网站一次只可以检测100个序列，可以安装本地版

/public/home/wangyiwei/software/my_interproscan/interproscan-5.56-89.0/interproscan.sh -appl CDD,COILS,Gene3D,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,SFLD,SMART,SUPERFAMILY,TIGRFAM -i hmmer_pro -f tsv -dp

Interproscan linux版本详细安装教程及运行报错解决方案_努力的猪猪包的博客-CSDN博客_interproscan安装

7.获取拟南芥对应的家族id

Calcium Sensors and Their Interacting Protein Kinases: Genomics of the Arabidopsis and Rice CBL-CIPK Signaling Networks | Plant Physiology | Oxford Academic

8.拟南芥对应家族id的蛋白质信息

9.将拟南芥和小麦的CIPK蛋白内容存放在一个文件内

10.MAFFT多序列比对

MAFFT < Multiple Sequence Alignment < EMBL-EBI

/public/home/wangyiwei/miniconda3/bin/mafft --auto --inputorder all > mafft

11.修剪

trimal -in mafft -out mafft_trimal -automated1

作者建议构建最大似然法的树使用-automated1参数，构建NJ树使用-strictplus参数

12建树

fasttree mafft> tree.nwk

FastTreeMP -boot 1000 SpeciesTreeAlignment.fa > tree

iqtree -s /public/home/wangyiwei/ywsx/TaDCL2/mafft -m MFP -B 1000 --bnni -T AUTO

weixin_43995047

博客等级

码龄6年

12
原创

5
点赞

29
收藏

97
粉丝

关注

私信

热门文章

最新评论

基因家族TBTools
YQ19980925: 变小了不是正常吗？因为重复的少了
水稻CBL家族蛋白质查找
微生不语: 想问一下，这个基因在文献中是10个，还是在该物种中总共就10个。
基因家族TBTools
linzhimoumou: 为什么我的get representative后，10mb的fa文件变得只有几kb了呢？
Trinotate进行注释
m0_73617426: 我也是，请问您解决了吗？
Trinotate进行注释
绝望的烤地瓜: 我也出现了这个问题，请问您解决了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。