采蘑菇的csz-CSDN博客

原创 LEARNING ON LARGE-SCALE TEXT-ATTRIBUTED GRAPHS VIA VARIATIONAL INFERENCE

这两个组件被优化以最大化对数似然函数的变分下界，这可以通过在E步和M步之间交替来实现，在每一步我们修复一个组件以更新另一个组件。这种单独的训练框架显着提高了GLEM的效率，使其能够扩展到真实世界的TAG。在每个步骤中，一个组件呈现节点的伪标签供另一个组件模仿。通过这样做，GLEM可以有效地将局部文本信息和全局结构信息提炼到两个组件中，因此GLEM在节点分类方面享有更好的有效性。我们在三个基准数据集上进行了广泛的实验，以展示GLEM的卓越性能。

2025-04-02 10:37:35 987

原创 “Multimodal Dynamics Dynamical Fusion for Trustworthy Multimodal Classification”

现有多模态分类算法主要侧重于不同模态的互补来提高性能，可能无法提供可信的融合特征。本研究提出来一种动态评估不同样本特征级和模态级，可信的集成多个模态。。

2025-03-17 19:48:06 1208

原创蛋白质数据下载与处理部分

:::包括PDB文件的下载以及pdb文件的预处理:::如果数据量较多，可以使用如下下载方式：需要linux系统下载在数据量较多的情况下，可能会下载失败，或者下载遗漏，可以通过一下程序判断文件是否存在指定文件路径中一种新的PDB文件下载方式，可以多进程快速下载首先制作AlphaFoldDownloadLink文件，文件内容如下：这种方式所下载的是完整的蛋白质文件，因此我们需要对下载文件进行进一步处理：****

2024-09-03 15:46:03 778

原创 GraphMAE2_ A Decoding-Enhanced Masked Self-Supervised Graph Learner

一个增强解码的掩码自监督图学习器。

2024-06-20 17:14:43 1468

原创 Frame2seq：用于蛋白质序列设计的结构条件掩码语言模型

机器学习彻底改变了计算蛋白质设计，使蛋白质主链生成和序列设计取得了重大进展。对于蛋白质序列设计，编码器-解码器模型已达到最先进的精度，本研究介绍了一种用于蛋白质序列设计的结构条件掩码语言模型，与自回归方法相比，可以一次性生成序列。模型在CATH4.2测试集上性能由于ProteinMPNN，实现了49.1%的序列恢复率，且推理速度提高了6倍以上，为了探究Frame2seq生成超出类自然蛋白质序列的空间的新颖设计能力，文中测试了26个Frame2seq设计的与起始序列同一性较低的de nove 主链。

2024-05-23 13:20:59 1181

原创 InstructPLM_ Aligning Protein Language Models to Follow Protein Structure Instructions

大语言模型在捕获共同进化信息和潜在的蛋白质语言方面的有效性。然而，目前方法不能说明基因组差补、重复和插入/缺失（indels）的出现，这些现象约占人类致病突变的14%。鉴于蛋白质结构决定其功能，具有相似结构的突变蛋白更有可能在整个生物进化过程中持续存在。受此启发，利用跨模态对齐并指导受大型语言模型启发的微调技术，以将生成蛋白质语言模型与蛋白质结构指令对齐。

2024-05-13 16:02:44 1181 1

原创 MAPE-PPI：通过微环境感知蛋白质嵌入实现有效且高效的蛋白质-蛋白质相互作用预测

PPI是各种生物过程的基础，在生命活动中具有关键作用，现有PPI预测方法很大程度依赖于蛋白质序列，但是结构才是决定相互作用的关键因素。本研究将两种模式都考虑在内。通过氨基酸结构和序列的上下文来定义氨基酸的微环境。其中微环境描述了氨基酸的周围的化学特征和几何特征。以往工作定义的微环境主要基于实验测定的物理化学性质，很难涵盖微环境的多样性和复杂性。本文提出来微环境感知蛋白质嵌入PPI预测，通过大量微环境‘词汇’，将微环境编码成具有化学意义的离散代码。

2024-05-11 16:27:14 1165 1

原创蛋白质特征提取

通过计算氨基酸中Ca原子之间的欧式距离，选取距离最小的前30个氨基酸作为邻居，得到邻居的索引E_idx以及对应的距离D_neighbors和领居掩码mask_neighbors。虚拟键角和二面角的计算，主要是根据氨基酸中Ca的坐标。这里也是以Ca原子坐标来计算，包括键角的计算和虚拟二面角。

2024-04-11 23:44:05 787 1

原创 PSC-CPI：多尺度蛋白质序列结构对比，用于高效且可推广的化合物-蛋白质相互作用预测

*模态缺失:**序列-结构的联合建模对训练过程中的CPI预测有很大的好处，但在实际推理中经常遇到模态缺失的问题，即只有一种蛋白质模态，要么是序列，要么是结构，可以进行推理。B为批次，sim(.,.)为余弦相似度，τ是温度系数，模态内对比从通过最大化子序列（子图）和全序列（蛋白质图）的互信息，将不同长度的蛋白质片段转化为最终表示迁移知识。我们的框架中引入了两种不同的对比学习目标，即模态内对比和跨模态对比，以捕获蛋白质序列或结构以及跨模态依赖性内的多尺度信息。对于模态内对比，我们将。

2024-04-02 09:56:23 1426 1

原创利用Python批量处理PDB文件生成dssp文件

基于Linux系统的PDB文件转换为DSSP文件。

2024-02-20 17:58:45 688

原创基于深度学习和自洽性的无旋转体蛋白序列设计

先前提出的几种深度学习方法用于设计氨基酸序列，这些氨基酸序列可以自主折叠成给定的蛋白质骨架，在计算测试中产生了有希望的结果，但在湿实验中表现不如传统的基于能量函数的方法。提出了ABACUS-R方法，该方法使用一个使用多任务学习策略训练的编码器-解码器网络，从中心残基的三维局部环境中预测其侧链类型，除了其他特征外，还包括周围侧链的类型，但不包括其构象。这消除了重建和优化侧链结构的需要，并大大简化了序列设计过程。因此，迭代地将编码器-解码器应用于不同的中心残基能够为目标主干产生自恰的总体序列。

2024-02-20 17:56:55 1056

原创蛋白质二级结构和无序区域

蛋白质分为三个主要的二级结构：α-螺旋、β-折叠和转角和无规卷曲。蛋白质的无序区域（intrinsically disordered regions，IDRs）指的是在其氨基酸序列中存在没有明显二级结构的区域。

2024-02-06 22:22:26 14120

原创侧链构象与侧链堆积

侧链构象的不同可能导致蛋白质在三维空间中的不同形状，这些形状直接影响蛋白质的生物活性、稳定性和相互作用。在蛋白质设计中，了解和调控侧链构象是关键，因为不同的构象可能会影响蛋白质的性质，包括其折叠状态和生物活性。在蛋白质结构中，蛋白质的主链形成了一个骨架，而侧链则延伸出去，可以朝不同的方向。总体而言，α-氨基酸基团是构成蛋白质主链的基本单元，通过 α-碳原子的脱水缩合反应形成了蛋白质的多肽链。蛋白质侧链堆积是指在蛋白质结构中，不同氨基酸侧链之间的相互作用形成的紧密堆积或联系。

2024-02-06 22:21:36 1740

原创 PiFold：迈向有效且高效的蛋白质反折叠

如何高效设计折叠成我们所需要结构的蛋白质序列，提出PiGNN层来学习几何残差表示，考虑节点、边缘和全局上下文级别的多尺度残差交互。

2024-02-06 22:14:56 1544

原创蛋白质语言空间的对比学习预测药物和蛋白质靶标之间的相互作用

基于序列的药物-靶标相互作用预测有可能通过补充实验筛选来加速药物发现。这种计算预测需要具有通用性和可扩展性，同时对输入中的细微变化保持敏感。然而，目前的计算技术不能同时满足这些目标，往往牺牲一个性能来实现另一个。本研究提出了一个利用预训练的蛋白质语言模型（“Plex”）结合蛋白质锚定对比嵌入(“Con”)的深度学习模型-ConPlex，实现了高精度以及对未见数据的适应性和对诱饵化合物的特异性。它根据学习到的表示之间的距离进行结合预测，从而能够在大规模化合物库和人类蛋白质组规模上进行预测。

2024-01-16 11:08:07 2866 1

原创使用全原子图和SE(3)-等变图神经网络的原子蛋白结构细化（精化）

先进的蛋白质结构预测方法被广泛的应用于预测生物医学研究中未表征的蛋白质结构，因此也迫切提高所预测结构的质量和原生性（更接近实际结构）来增强其可用性。本文所提出的模型首先在AlphaFoldDB中已知的预测结构中进行训练和测试，然后在69个规则靶标和7个细化靶标进行盲测试。ATOMRefine可以提高AlphaFold初始结构模型的主链原子和全原子构像的质量。:::info全原子模型质量评分——基于全原子接触、键长、原子碰撞、扭转角分析的 MolProbity 评分，和侧链旋转异构体。

2023-09-25 22:23:35 737 1

原创基于集成深度学习模型(EDLM)的蛋白质-蛋白质相互作用(PPI)位点识别方法(EDLMPPI)

蛋白质-蛋白质相互作用(PPIs)通过显著影响蛋白质的功能表达来控制细胞通路和过程。因此，准确识别蛋白质-蛋白质相互作用结合位点已成为蛋白质功能分析的关键步骤。现有问题：大多数计算方法都是基于生物特征，数据不平衡。本文开发了一种基于集成深度学习模型(EDLM)的蛋白质-蛋白质相互作用(PPI)位点识别方法(EDLMPPI)。在Dset_448、Dset_72和Dset_164三个广泛使用的基准数据集上都优于现有方法。

2023-07-18 21:47:51 703 1

原创 Hierarchical graph learning for protein– protein interaction

蛋白质相互作用是生物系统中功能和信号传递的基本手段本文提出一种双视角的层图学习方法能够预测PPI和推断其中的分子细节创建了一个分层图，PPI网络中的每个节点（蛋白质外视图）表示一个蛋白质图（蛋白质内视图），底部视图是由化学相关描述符构成，用于捕捉蛋白质结构和功能的关系。模型具有较高的预测精度和鲁棒性，模型还可以通过精确识别重要的结合位点和催化位点来解释PPI的作用。

2023-07-13 21:58:22 392 1

原创 Pytorch数据类型

在pytorch中无法表示String系列数据，因此需要一些方法进行处理例如One-hot、word2vec等。RNN中输入[20,10,100],每次输入10句话，每句话有20个单词，每个单词用100维向量表示。例如1.0，2.2等，标量的shape是一个列表。维度为1的张量一般用于神经网络中的偏置，线性层。GPU和CPU中的Tensor是不同的。图片数据CNN[b,c,h,w]

2023-04-14 22:10:23 153

原创基于 Transformer 的模型预测肽-HLA I 类结合并优化用于疫苗设计的突变肽

HLA：人类白细胞抗原；pHLA：肽和HLA的结合人类白细胞抗原(HLA) 可以识别并结合外源多肽，将其呈递给专门的免疫细胞，然后启动免疫反应。肽和 HLA (pHLA) 结合的计算预测可以加速免疫原性肽筛选并促进疫苗设计。现有不足：缺乏一种自动程序来优化与目标HLA等位基因亲和力高的突变多肽。该研究开发了TransMut框架，包含了用于pHLA结合预测的TransPHLA和用于突变肽优化的AOMP程序。肽与人类白细胞抗原（HLA）的结合是抗原呈递的必要条件，这也是T细胞有效识别的必要前提。

2023-04-14 20:11:38 719 1

原创蛋白质保守区域和基序

在核酸/蛋白质序列中存在有特定模式的序列片段，这些片段被称为基序（motif）序列基序与生物功能密切相关。MEME是一款可以自动从一组相关的DNA或者蛋白质序列中发现序列基序的软件。网站：(weblogo.threeplusone.com)主页上点击Create your own logos。所谓保守区域就是对于蛋白质来讲相对重要的序列位置。如果序列长度不一，上传前需要做多序列比对。网站：meme-suite.org。

2023-04-12 18:24:13 2776 1

原创 MSA多序列比对（multiple sequence alignment）

使得参与比对的序列有尽可能多的列具有相同的字符，使得相同残基的位点位于同一列，以便发现不同序列之间的相似部分，从而推测他们结构和功能上面的相似关系。文章中作者通过多序列比对找出与人蛋白质相似的来自其他物种的蛋白质序列。

2023-04-12 17:47:50 2424 2

原创 Pytorch学习

Pytorch1_手写字识别

2023-03-13 16:52:45 133

weixin_44907817的博客