学习使用prolatherm预测蛋白质稳定性,以期望获得稳定性更高的蛋白质。
开源文件在github上,操作步骤参考readme文件,但由于github有时网络较慢,所以相关内容克隆在gitee中。
在自己的虚拟机上使用protherm
1.建立目录
mkdir protein
cd protein
2.克隆仓库(即gitee中所有文件)
原readme文件是直接克隆github中的,但国内打不开就换方法了。
至于为什么我要重复这愚蠢的问题,因为我之前克隆不了,还以为是虚拟机的问题,重装以后还是不行,老师告诉我github打不开,我真是太愚钝。差点要下载到本地再挪过去,还好发现gitee可以直接克隆,感恩。
git clone https://gitee.com/weirdooo/ProLaTherm.git
3.进入Docker
cd protein/ProLaTherm/prolatherm/Docker
4.配置所需环境
python环境3.8,且需要提前安装pip3。
sudo apt install python3-pip
python --version
conda create --name python38 python=3.8 -y
source ~/.bashrc
conda activate python38
pip3 install -r requirements.txt
cd ..
成功界面可以看到successfully等一长串英文,结束后回到上一级文件目录下。
5.运行
5.1在自己的虚拟机运行bug1
避免文件路径出错,我把上面prolatherm改成了protein。
mkdir results
python3 run_prolatherm.py -df /home/clingboo/protein/ProLaTherm/prolatherm/assets/dummy_data.fasta -sd results
第一次运行出错了,因为没有下载torch,于是先下载torch。
确定pip是否成功安装
pip --version
安装torch
pip install torch
检查是否安装成功
import torch
print(torch.__version__)
出现版本信息即为成功
1.11.0+cu102
5.2在自己的虚拟机运行bug2
第二次又出错了,因为国内无法直接访问Hugging Face,就无法抓取到transformers模型,只能本地下载再指定路径,或者采用其他方式,参考:
从Hugging Face上手动下载并加载预训练模型
如何快速下载huggingface模型——全方法总结
如何优雅的下载huggingface-transformers模型
5.3换服务器运行
序列文件
序列文件格式如下:
第一行ID,第二行氨基酸序列。
备注:每个fasta文件里至少包含10种酶,较少好像运行报错。
tr|A0A6S4QM97|A0A6S4QM97_GLYUR
MDLEREEIEKPLKLYFIHYLAAGHMIPLCDIATLFASRGHHVTIITTPSNAQ
准备slurm文件
touch GuGT14.slurm
vim GuGT14.slurm
#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=20
#SBATCH --time=10:00:00
#SBATCH --partition=normal,sg
#SBATCH --job-name=GuGT14
#SBATCH --output=GuGT14.log
cd /public2/home/hubueeg3/ProLaTherm/prolatherm
python3 run_prolatherm.py -df /public2/home/hubueeg3/ProLaTherm/prolatherm/assets/uniprotkb.GuGT14.fasta
-sd public2/home/hubueeg3/ProLaTherm/prolatherm/results
touch 73P12.slurm
vim 73P12.slurm
#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=20
#SBATCH --time=10:00:00
#SBATCH --partition=normal,sg
#SBATCH --job-name=73P12
#SBATCH --output=73P12.log
cd /public2/home/hubueeg3/ProLaTherm/prolatherm
python3 run_prolatherm.py -df /public2/home/hubueeg3/ProLaTherm/prolatherm/assets/uniprotkb.73P12.fasta
-sd public2/home/hubueeg3/ProLaTherm/prolatherm/results
提交slurm文件
cd /public2/home/hubueeg3/ProLaTherm/prolatherm
sbatch GuGT14.slurm
sbatch 73P12.slurm
squeue
查看运行结果
结果在ProLaTherm目录下,是csv文件。