Foldseek安装配置

1.下载安装

Linux AVX2 build (check using: cat /proc/cpuinfo | grep avx2)

wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz; tar xvzf foldseek-linux-avx2.tar.gz; export PATH=$(pwd)/foldseek/bin/:$PATH

Linux SSE4.1 build (check using: cat /proc/cpuinfo | grep sse4_1)

wget https://mmseqs.com/foldseek/foldseek-linux-sse41.tar.gz; tar xvzf foldseek-linux-sse41.tar.gz; export PATH=$(pwd)/foldseek/bin/:$PATH

MacOS

wget https://mmseqs.com/foldseek/foldseek-osx-universal.tar.gz; tar xvzf foldseek-osx-universal.tar.gz; export PATH=$(pwd)/foldseek/bin/:$PATH

Conda installer (Linux and macOS)

conda install -c conda-forge -c bioconda foldseek

选一个系统安装并配置路径即可,注意这里直接export PATH=$(pwd)/foldseek/bin/:$PATH即可不需要vim自己写入到环境路径,反而会出现问题

2.下载比对数据集

foldseek databases Alphafold/Swiss-Prot sp tmp 

在这里插入图片描述
如上图根据自己需要更改指令下载对应的数据集即可,注意这里可能会出现网络问题下载不了的问题
解决方案:
自己本地端挂梯子下载好,例如:https://foldseek.steineggerlab.workers.dev/afdb_swissprot.tar.gz,接着移动至linux系统服务器端,放置到对应的tmp文件夹即可,然后再执行这段命令即可,如下图即完成!
在这里插入图片描述

3.单个蛋白质结构序列比对

foldseek easy-search ../protein_remove_extra_chains_10A/1a0q_protein.pdb ../sp 1a0q_aln tmp

api依次为对比蛋白质pdb文件路径、比对数据库命名路径、比对生成的蛋白质文件名、生成缓存文件夹名称

4.批量比对

## Align all the structures in the fold to PDB database
import os
pdb_ls = os.listdir('./align_pdb')

for pdbfile in pdb_ls:
    inp = './align_pdb/' + pdbfile
    out = './align_out/'+ pdbfile[0:-3]+'_aln'
    cmd = 'foldseek easy-search '+ inp + \
    ' ../sp ' + out + ' tmp --format-output query,target,fident,alnlen,mismatch,gapopen,qstart,qend,tstart,tend,evalue,bits,prob,lddt,alntmscore'
    print(cmd)
    os.system(cmd)

5.分析

import pandas as pd

col_names = 'query,target,fident,alnlen,mismatch,gapopen,qstart,qend,\
             tstart,tend,evalue,bits,prob,lddt,alntmscore'.split(',')

df_aln = pd.read_table('./align_out/1a0q_protein._aln',names=col_names)

print(df_aln)

得到如下即可!
在这里插入图片描述
每一列具体含义参考Foldseek的github文档有比较详细解释!
query 代表我们需要比对的蛋白质结构
target 是数据库中与目标蛋白比对上的蛋白质名称
fident 代表结构比对片段的序列相似性
alnlen代表比对片段的长度
mismatch 代表比对序列中错配碱基的数目
gapopen 代表序列比对产生的 gap 数目
qstart 代表 query蛋白比对的起点位置
qend 代表query蛋白比对的终点位置
tstart 代表 target 蛋白比对的起点位置
tend代表target蛋白比对的终点位置
evalue 代表结构比对的显著性
prob 代表二个蛋白质结构是相同折叠结构的概率
lddt 代表结构比对区间的 lddt (local distance difference test)打分
alntmscore 代表局部结构比对的 TM score

02-10 2124
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值