2019-ICLR-蛋白质embedding
论文笔记《LEARNING PROTEIN SEQUENCE EMBEDDINGS USING INFORMATION FROM STRUCTURE 》
背景
大多数蛋白质的结构都是未知的,而相关蛋白质结构的信息对于研究这些分子机器在健康和疾病中的机制以及开发新疗法至关重要。
利用实验方法确定结构耗时耗力。
本文提出了一种计算方法–根据表征学习构建了一个蛋白质序列的映射框架,并且根据两步反馈机制(蛋白质全局相似性与残基-残基接触识别)训练了双向LSTM的蛋白质序列编码模型。
方法
1.BILSTM SEQUENCE ENCODER WITH PRETRAINED LANGUAGE MODEL
预训练模型:在Pfam数据库中完整的蛋白质域序列集(共21,827,419个)上进行训练: