基因家族鉴定

1.目标物种的蛋白质信息下载

Annotations - WHEAT URGI

2.目标家族隐马尔可夫模型下载

Pfam: Home page (xfam.org)

2.1知道目标家族的pfam号

437b9ad32150482591776dd6eea86a20.png

 

直接搜索下载

2.2不知道pfam号

老师好,请问怎么找一个家族基因隐马尔科夫模型的pfam索取号 - 组学大讲堂问答社区

比如,知道基因家族基因的缩写,如,NBS,MYB,AP2,WRKY等等,  就可以搜索一下相关的基因家族文章来从文章中获得:

如谷歌学术搜索,关键词:genome wide  gene family  + 基因家族缩写,筛选一下最新,在方法部分查看

2.3下载

e36bd6f368b94b01ba25a09cc61f96fa.png

8c63068e9b4e44538a70b504da529ed5.png

2.4自己构建hmm模型

主要的构建逻辑就是直接在NCBI网站搜索CBL,肯定会出现很多结果,为了我们我们构建的HMM model相对精确,可以在搜索时指定几个物种,比如指定拟南芥和水稻作为搜索物种,这时会搜索到所有与拟南芥和水稻相关的CBL的基因,将搜索到的所有基因的蛋白序列保存为fasta文件。最好的方法是,想办法获取到拟南芥和水稻已经发表的CBL蛋白序列,这样就可以构建出更为准确的HMM model文件。最好是这样,不过也不影响。

将上述搜索到的全部基因的蛋白序列首先进行多序列比对,得到align.fasta文件

然后通过下述命令行操作,即可得到HMM model。

hmmbuild CBL.hmm align.fa

3 利用HMM model在基因组文件中搜寻候选基因家族成员

可以提前手动将上述两个HMM model文件进行合并,合并为一个HMM model文件,就像操作txt记事本那样,把其中一个复制后粘贴在另一个后面,然后重命名即可

 

hmmsearch CIPK.hmm /public/home/wangyiwei/wheat2/gene_family/wheat_trans_longest.fa > wheat_hmmsearch_CIPK.out

这里展示了几列信息,很好辨识,左边三列是全序列比对结果(按score从高到低排序),红框中的三列是hmm模型结构域最佳匹配结果(排序同上)。这里我们主要以红色框中的搜索结果为准,以10-5进行限制

b98ca09bcba44d5ca679901a3d727456.png

4.将两种的id求交集

5.获取id的蛋白质信息

d0937783e5bd4e7d8d0a352cd400460e.png

 6.smart interpro 分析基因序列,检查结构域

SMART: Batch access (embl.de)

387201c409e54d1f81eefd08b14412b0.png


InterProScan - InterPro (ebi.ac.uk)

346a265a744a45559e05161789ab9fd6.png

在线网站一次只可以检测100个序列,可以安装本地版

/public/home/wangyiwei/software/my_interproscan/interproscan-5.56-89.0/interproscan.sh -appl CDD,COILS,Gene3D,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,SFLD,SMART,SUPERFAMILY,TIGRFAM  -i hmmer_pro -f tsv -dp

 

Interproscan linux版本详细安装教程及运行报错解决方案_努力的猪猪包的博客-CSDN博客_interproscan安装

7.获取拟南芥对应的家族id

Calcium Sensors and Their Interacting Protein Kinases: Genomics of the Arabidopsis and Rice CBL-CIPK Signaling Networks | Plant Physiology | Oxford Academic
f9e66bc4766a410bb5be2a329451a432.png
 

 8.拟南芥对应家族id的蛋白质信息

9.将拟南芥和小麦的CIPK蛋白内容存放在一个文件内

10.MAFFT多序列比对

MAFFT < Multiple Sequence Alignment < EMBL-EBI
 

/public/home/wangyiwei/miniconda3/bin/mafft  --auto --inputorder all > mafft

11.修剪

trimal -in mafft -out mafft_trimal -automated1

作者建议构建最大似然法的树使用-automated1参数,构建NJ树使用-strictplus参数

12建树

fasttree mafft> tree.nwk

FastTreeMP -boot 1000 SpeciesTreeAlignment.fa > tree

iqtree -s /public/home/wangyiwei/ywsx/TaDCL2/mafft -m MFP -B 1000 --bnni -T AUTO

 

 

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值