RNA领域预训练语言模型-最全综述

bert预训练流程:基本都一样
input--分词后变成token--mask--再去初步编码embedding--进入模型
这些模型如何做微调呢?
· 对于互作任务:同时输入2个序列,rna/rna或者rna/蛋白质,中间用sep分隔,开头用cls。最终用2个学习好的cls向量代表2个序列的信息,去进行分类/回归。
困惑1:GPT-based的预训练模型的损失函数应该是什么?
答:在GPT系列大语言模型中损失函数采用的是自回归语言建模任务, 即根据前K-1个token预测第K个token,本质上都是交叉熵分类损失。总类数就是语料库的大小。
由于预训练数据集一般很大,因此一般全部处理完成之后,在代码中直接加载最终的token进行训练。一般经过以下流程:
· 依次读入所有的预训练语料,对每一个预训练语料的每一个样本进行分词处理tokenizer,并添加结束符,例如<eos>。
· (optional)将经过分词处理之后的所有预训练语料,拼接成一个整的大语料文件
· 对预训练语料进行维度变换,最终预训练样本的shape=[语料token总数//max_length, max_length],max_length是指模型输入token的最大长度
· 返回最终的训练语料,每条预训练样本的长度=max_length - 1或者max_length,X是输入,Y在自监督标签。

具体内容

模型

scGPT2024.2

数据类型

单细胞RNA测序数据

数据量

超过1000万个单细胞

算法

GPT basedFlash-Attention,动态掩码

输入

细胞表达能力嵌入(分箱)+ 基因嵌入 + 条件标记;[cls] + 序列 + [pad]

输出

预测基因表达值,学习细胞嵌入CLS

分词方式

​无传统分词

评估方式

Cross-entropy(原始表达值,预测的掩码表达值)

下游任务

细胞类型注释、扰动预测、多组学整合

创新方式

首次将生成式Transformer应用于单细胞领域,支持 “基因提示” 和 “细胞提示” 两种生成模式

操作步骤:
初始遮蔽比例设为 p 预测部分基因。
将预测置信度高的基因标记为已知,更新遮蔽位置。 
重复步骤 1-2 ,直至所有遮蔽基因被预测。

尽管标记和提示的使用相似,但由于数据的非顺序性质,建模遗传读取本质上与自然语言不同。与句子中的单词不同,细胞内的基因顺序是可以互换的,并且没有等效的 “next gene” 概念可以预测。这使得将 GPT 模型的因果掩蔽公式直接应用于单细胞域变得具有挑战性。为了应对这一挑战,我们为 scGPT 开发了一种专门的注意力掩蔽机制,该机制根据注意力分数定义预测顺序。

scGPT 的注意力掩码以统一的方式支持基因提示和细胞提示生成。二进制注意力掩码应用于 transformer 块中的自注意力图。对于 M 个词元的输入 hl(i)∈RM×D(参见在线方法 4.2.1),transformer 块将生成 M 查询和关键向量来计算注意力图,A∈RM×M。注意掩码的大小相同 M×M 。我们在补充图 S1A 中可视化了注意力掩码,其中查询按行组织,键按列组织。与掩码的每一列关联的令牌标识在图的底部注释,namely<cls> ,已知基因,以及

未知基因。输入嵌入 hl(i) 中的每个标记都可以是以下三组之一:(1

保留的 <CLS> 用于细胞嵌入的标记(在在线方法 4.2.2 中引入),(2) 具有标记嵌入和表达值嵌入的已知基因,以及 (3) 要预测其表达值的未知基因。scGPT 的注意力掩盖的经验法则是只允许在 “已知基因” 的嵌入和查询基因本身之间进行注意力计算。在每次世代迭代中,scGPT 都会预测一组新基因的基因表达值,这些基因反过来又成为下一次迭代中的 “已知基因”,用于注意力计算。这种方法通过在非序列单单元数据中进行顺序预测,反映了传统 transformer 解码器中带有下一个标记预测的随意掩码设计。

如补充图 S1A 所示,在训练过程中,我们随机选择基因的比例为未知,因此在输入中省略了它们的表达值。对这些未知基因位置的查询只允许在对已知基因和查询基因本身进行注意力计算时进行。在每次迭代中,scGPT 从未知集中选择具有最高预测置信度的前 1/K 基因作为已知基因包含在下一次迭代 i+1 中。直观地说,该工作流程以自回归方式简化了大组基因表达的生成,其中首先生成具有最高预测置信度的基因表达,并用于帮助后续轮次生成。基因提示生成以迭代方式类似地工作。区别在于,它从一组具有观察到的表达值的已知基因开始,而不是细胞包埋。

scGPT 注意力掩蔽统一了已知基因的编码过程和未知基因的生成。它也是最早对非序列数据进行自回归生成的 transformer 方案之一。

表达值分箱( Value Binning ):解决不同批次测序深度差异,将表达值按相对比例分箱(如最高表达值统一标记为 B ),增强跨数据集一致性。
条件标记( Condition Tokens ):引入元信息(如测序批次、扰动条件、多组学模态),通过嵌入层与基因表达结合。

Cls代表整个细胞的embedding

输入与数据格式

输入
基因 / 峰区域表达矩阵 :单细胞 RNA 测序( scRNA -seq )或 ATAC 测序( scATAC -seq )的细胞 - 基因矩阵,元素为非负值(如 RNA 计数或染色质开放区域信号)。
条件标记 :包括批次( batch )、测序模态(如 RNA ATAC 、蛋白质)和扰动状态等信息。
数据预处理
归一化 log1p 转换( log(1 + count) )和分箱( binning )处理,将表达值转换为相对值以消除技术偏差。
高变基因选择 :仅选择高变基因作为输入。
分词方式
基因作为词汇单元 :每个基因视为唯一的 token ,分配唯一整数 ID (类似 NLP 中的单词)。
特殊标记:如 < cls > (聚合细胞表示)和 <pad> (填充)。

3. ​输出

基因层面 :预测基因表达值(通过生成式任务)。
细胞层面 :学习细胞嵌入( cell embeddings ),用于下游任务(如聚类、注释)。
多模态输出 :支持整合多组学数据(如 RNA+ATAC+ 蛋白质)的联合表示。

4. ​数据量

预训练数据 :超过 10.3 million 个单细胞(来自血液和骨髓的 scRNA -seq 数据,通过 CellXGene 获取)。
下游任务数据 :如免疫细胞数据集( Immune Human, PBMC 10K )、胰腺细胞( hPancreas )、扰动数据集( Perturb-seq )等。

5. ​下游任务

1. 批次校正 :整合多批次 / 数据集,消除技术偏差(如 PBMC 10K )。
2. 多组学整合 :联合建模 RNA ATAC 、蛋白质数据(如 10X Multiome PBMC )。
3. 细胞类型注释 :基于细胞嵌入的分类(如 hPancreas 数据集,准确率 96.7% )。
4. 扰动预测 :预测基因表达响应(如 Norman Adamson 扰动数据集)。
5. 基因调控网络推断 :通过基因嵌入相似性构建功能网络(如 HLA 抗原、 CD 分子网络)。

6. ​损失函数

预训练目标
基因表达预测( GEP )​ :交叉熵损失(预测掩码基因的表达值)。
GEPC Gene Expression Prediction for Cell Modelling )​ :基于细胞嵌入的基因表达预测。
微调目标
弹性细胞相似性( ECS )​ :通过余弦相似性增强细胞嵌入的对比学习(公式: L ECS =−(sim( hc ( i )​ , hc ( i ′)​ )− β ) 2 )。
领域自适应( DAR )​ :反向传播梯度反转以减少批次效应。
细胞分类( CLS )​ :交叉熵损失(预测细胞类型标签)。

7. ​具体算法

模型架构
Transformer :堆叠多层自注意力模块,支持大规模基因输入(通过 Flash-Attention 优化效率)。
注意力掩码 :设计非顺序生成式掩码(图 S1 ),支持基因提示( gene prompts )和细胞提示( cell prompts )。
条件建模
通过嵌入层( embeddings )整合批次、模态等条件信息。
多模态联合优化:如 RNA ATAC 的联合嵌入(公式: hn ′( i )​ = concat ( hn ( i )​ , emb b + emb m ) )。

8. ​创新方式

1. 生成式预训练范式
1. 首次将生成式 Transformer 应用于单细胞领域,模拟基因表达分布。
2. 设计非顺序注意力掩码,支持迭代式基因生成(类似 GPT auto-regressive 生成)。
2. 多任务统一框架
1. 支持多组学、多批次、扰动条件的联合建模,通过条件标记灵活扩展。
3. 可解释的生物学发现
1. 基因嵌入解码已知通路(如 HLA 分类、 CD 分子网络),验证模型生物学合理性。
4. 高效工程实现
1. 内存优化数据存储,支持快速访问大规模数据( 10M+ 细胞)。
2. 开源代码库( GitHub 链接 )提供预训练模型和微调流程。

具体内容

模型

scMamba2025.2

数据类型

单核RNA测序的原始基因表达矩阵,包含所有基因的数值

数据量

160万个细胞

算法

基于Mamba的改进模型,核心为Bidirectional SSM

输入

细胞表达连续值嵌入 -mask 15% + 基因嵌入(gene2vec保留所有基因

输出

预训练输出掩码预测值,微调输出根据下游任务不同而变化

分词方式

​无传统分词

评估方式

MSE(预测被掩码的连续数值)

下游任务

细胞类型注释、双联体检测、插补预测、差异表达基因识别

创新方式

Mamba模型首次应用于snRNA-seq分析,不降维,不高变基因选择

模型分析:scMamba

1. 发布时间

推断时间 :未明确提及,但引用了 2022 年提出的 Mamba 模型 [30] ,结合论文提交时间推测为 2023-2024 年。

2. 输入与输出

输入 :单核 RNA 测序( snRNA-seq )的原始基因表达矩阵,包含所有基因的数值(如 UMI 计数或标准化后的表达值),不依赖降维或高变基因( HVG )选择。
输出 :根据下游任务不同而变化:
细胞类型分类 :细胞类型 / 亚型标签。
双联体检测 :判断细胞是否为双联体( doublet )。
插补( Imputation )​ :填补基因表达中的缺失值( dropout )。
差异表达基因( DEG )分析 :基因在疾病与正常样本中的差异表达。

3. 输入数据格式

数据格式 :高维稀疏矩阵,每行代表一个细胞,每列代表一个基因的数值(如原始计数或对数标准化值)。
维度 :基因数量为 10,000-30,000 (典型 snRNA-seq 基因数),未降维。

4. 数据量

预训练数据 :包含多个公开数据集(如 Lau Smajic Zhu 等),具体样本量未明确,但实验中涉及 5 个脑组织数据集,推测每个数据集含数千至数万个细胞。
下游任务数据 :实验中使用的数据集(如 Jung Leng )规模类似。

5. 分词方式

无传统分词 :直接处理连续基因表达值,无需离散化或分箱。
基因嵌入 :通过可学习的基因嵌入层( gene embeddings )将每个基因的表达值映射为向量,保留原始数值信息。

6. 下游任务

细胞类型分类 ​(包括主要类型、亚型、精细亚群)。
双联体检测 ​(区分真实细胞与实验噪声)。
基因表达插补 ​(填补技术性缺失值)。
差异表达基因识别 ​(增强疾病相关基因的鲁棒性)。
批次效应矫正 ​(通过插补减少跨批次数据差异)。

7. 预训练损失函数

掩码表达建模( Masked Expression Modeling )​ :随机掩码部分基因表达值,模型预测被掩码的连续数值,损失函数为 均方误差( MSE )​

8. 具体算法

架构 :基于 Mamba 的改进模型,核心为 双向选择性状态空间模型( Bidirectional SSM )​
线性适配器层 :将输入基因表达值映射到嵌入空间。
基因嵌入 :为每个基因学习独立的嵌入向量。
双向 Mamba 动态选择性地 处理序列信息,捕捉基因间长程依赖关系。 每个时间步动态选择关注或忽略输入的特定部分,例如通过门控机制过滤无关信息。这种灵活性使资源集中在关键区域,例如在长 RNA 序列中优先处理功能结构域。 + 硬件优化
训练策略
预训练:无监督学习,通过掩码表达建模学习通用特征。
微调:监督学习,针对特定下游任务调整模型参数。

9. 创新方式

首次将 Mamba 引入单细胞领域 :利用选择性状态空间模型( SSM )处理长序列(全基因组),避免传统 Transformer 的平方复杂度。
保留原始数据完整性 :不依赖降维或高变基因选择,直接处理所有基因。
基因嵌入与双向处理 :通过基因嵌入捕捉基因间生物学关系,双向 Mamba 块增强上下文建模能力。
多功能预训练框架 :单一模型支持多种下游任务(分类、检测、插补),优于领域专用工具(如 Seurat scBERT )。
高效性与可扩展性 Mamba 的低复杂度使其适合大规模 snRNA-seq 数据分析,尤其在处理神经退行性疾病的高度异质性数据时表现优异。

具体内容

模型

scFoundation2024.5

数据类型

单细胞RNA测序数据

数据量

超过5000万单细胞转录组数据

算法

Transformer-based12encoder 12头,6decoder 8头;不对称编码器-解码器

输入

细胞的基因表达向量通过嵌入模块将连续表达值映射为高维向量,未离散化--添加 和 值(RDA-- 下采样 -- mask 30% 后输入

输出

细胞嵌入、​基因上下文嵌入

分词方式

​无传统分词

评估方式

回归损失(MAE/MSE

下游任务

基因表达增强、组织药物响应预测、单细胞药物响应分类、单细胞扰动预测等

创新方式

通过预训练模型不微调实现了多种下游任务表现的提升,消除测序深度带来的 Embedding 差异

Read-Depth-Aware 预训练任务

一个基因表达量越低,就越有可能因为测序深度的不足,而成为 dropout (0) 值的情况。在训练过程中,模型逐渐学会了通过其他基因的表达情况,去建模需要预测的基因真实的表达值,从而优雅地处理了 Dropout 问题,而且从计算层面提升了测序深度。

T 指的是下采样之前总的 counts 数,但从 get_embedding.py 来看,还经过了 log10 转换。

指的是下采用之后总的 counts 数,同样经过了 log10 转换。

这两个位置的信息告诉了 Encoder 需要消除测序深度带来的 Embedding 差异,将输入基因和细胞的 Embedding 表示映射到 Target 测序深度上去,能够:

获得没有测序深度差异的 Cell Embedding

Encoder Gene Embedding 参与到 Decoder 还原基因表达量的过程中,同样实现了不受测序深度影响的目的

编码器 :仅处理非零 / 非掩码基因的嵌入,降低计算复杂度。
解码器 :处理所有基因嵌入,建模全局基因关系。

研究评估了 scFoundation 应用于多种下游任务的表现。值得一提的是,多数任务直接使用了未经微调的预训练 scFoundation 模型,大大降低了应用基座模型的门槛和成本:
a. 获得增强测序深度的基因表达 (即常见的 Imputation 任务)scFoundation 超过了多个领域内流行的 Imputation 方法,且这些方法需要在特定数据上的额外训练,而 scFoundation 只是预训练模型
b. 癌症药物反应预测。将 DeepCDR 模型的 MLP 部分输出替换成了 scFoundation Encoder 得到的 Cell Embedding,新的 DeepCDR 在训练后取得了比原有模型更好的预测表现
c. 单细胞水平的药物反应分类预测。scFoundation 预训练模型 Eecoder 得到的 Cell Embedding 作为 SCAD 模型的输入进行训练,取得了比原有 SCAD 模型更好的表现
d.Perturb-Seq 细胞干扰试验结果预测。在 scFoundation 预训练模型 Decoder 输出的 Gene Embedding 的基础上,研究者建立了细胞特异的基因共表达 Graph,并利用此 Graph 替代了 GEAR 模型原有的 Graph,在干扰预测任务上取得了比原有 GEAR 模型更好的表现。
e. 其他下游任务:细胞类型注释、基因 Module 和基因调控网络的推理

具体内容

模型

SpliceBERT2023.5

数据类型

pre-mRNA序列

数据量

201万条序列,650亿核苷酸

算法

BERT-based6层,512维,16头;One-hot位置嵌入

输入

随机掩盖15%的核苷酸

输出

预测被掩盖的核苷酸

分词方式

​单核苷酸分词,添加[CLS][SEP][MASK]

评估方式

Cross-entropy(原始值,预测的掩码值)

下游任务

跨物种剪接位点预测​,​人类分支点预测,剪接变异影响预测

创新方式

首次在72种脊椎动物pre-mRNA序列上预训练,捕捉进化信息

不均一核RNA为存在于真核生物细胞核中的不稳定、大小不均的一组高分子RNA(分子量约为1052×107沉降系数约为30—100S)之总称。占细胞全部RNA之百分之几,在核内主要存在于核仁的外侧。


模型分析:SpliceBERT

1. ​发布时间

未明确在论文中标注 ,但根据论文提交到期刊的审稿流程推断,可能发布于 2023 年或 2024 年(需结合期刊实际接收时间)。论文未提及具体会议或期刊名称,但代码仓库( GitHub )的公开时间为重要参考。

2. ​输入

输入数据类型 pre-mRNA 序列(来自 72 种脊椎动物基因组)。
输入长度 :最长 1024 个核苷酸(过长序列被随机截断为 1024nt 片段)。
格式 :原始核苷酸序列( A/G/C/T )。

3. ​输出

预训练阶段 :预测被掩盖( masked )的核苷酸( MLM 任务)。
下游任务
剪接位点预测 :分类输出(剪接位点 vs. 非剪接位点)。
分支点( branchpoint )预测 :分类输出(分支点 vs. 非分支点)。
变异影响评估 :通过 KL 散度量化变异对上下文核苷酸预测的影响。

4. ​输入数据格式

原始数据来源 UCSC 基因组浏览器下载的基因组 FASTA 文件和基因注释 GTF 文件。
处理方式 :使用 bedtools getfasta 提取 pre-mRNA 序列,合并重叠转录本。
序列表示 :单核苷酸字符串(如 AGCT... ),添加特殊标记 [CLS] [SEP]

5. ​数据量

预训练数据 201 万条 pre-mRNA 序列(约 650 亿核苷酸),覆盖 72 种脊椎动物。
验证集 5 万条独立保留的序列。
下游任务数据
剪接位点预测 :来自 114 种真核生物的标注数据(测试集含人类、斑马鱼、果蝇等)。
分支点预测 :人类分支点数据集( Mercer et al. )。

6. ​分词方式

单核苷酸分词 :每个核苷酸( A/G/C/T )作为一个独立的 token ,无需 k- mer BPE 编码。
特殊标记 :添加 [CLS] (分类标记)、 [SEP] (分隔符)、 [MASK] (掩码标记)。

7. ​下游任务

有监督任务
跨物种剪接位点预测 ​(主任务)。
人类分支点预测 ​(次要任务)。
无监督任务
剪接破坏性变异( SDV )优先级排序 :通过 KL 散度评估变异对上下文的影响。

8. ​预训练损失函数

损失函数 :交叉熵损失( Cross-Entropy Loss )。
任务设计
MLM Masked Language Modeling )​ :随机掩盖 15% 的核苷酸, 80% 替换为 [MASK] 10% 替换为随机核苷酸, 10% 保留原值,模型预测被掩盖位置的真实核苷酸。

9. ​具体算法

模型架构 :基于 BERT Transformer 编码器,包含 6 层,隐藏层维度 512 16 个注意力头。
位置编码 One-hot 位置嵌入(非标准 BERT sinusoidal 编码)。
训练策略
两阶段预训练 :第一阶段固定长度 510nt ,第二阶段动态长度( 64-1024nt )。
优化器 AdamW ,初始学习率 0.0001 ,混合精度训练( AMP )。

10. ​创新方式

多物种预训练 :首次在 72 种脊椎动物 pre-mRNA 序列上预训练,捕捉进化信息(优于仅人类数据训练的模型)。
单核苷酸分词 :简化嵌入表示,直接建模核苷酸级别依赖(对比 k- mer BPE 分词)。
无监督变异影响评估 :提出 KL 散度指标量化变异对上下文预测的影响,优于传统方法(如 PhastCons )。
注意力机制分析 :发现中间层(第 3-5 层)注意力权重关联剪接供体与受体,揭示长程依赖关系。
跨任务泛化 :在剪接位点和分支点预测中均优于基线模型(如 SpliceAI DNABERT )。

具体内容

模型

RhoFold+2024.12;预训练模型的使用

数据类型

RNA序列

数据量

2370RNA序列

算法

RNA-FM生成序列嵌入 + MSA -- Rhoformer几何感知注意力、IPA模块

输入

RNA序列、多序列比对文件

输出

3D结构PDB、二级结构dotbracket

分词方式

​单核苷酸分词

评估方式

坐标均方误差MSE、几何约束损失、​不变点注意力IPA损失、​交叉熵损失

下游任务

​单链RNA 3D结构预测、​二级结构预测、​螺旋间角度预测、​结构质量评估

创新方式

首次将预训练语言模型用于RNA结构预测

RhoFold+模型分析

输入

RNA 序列 :单链 RNA 的核苷酸序列(如 A, U, C, G 字符串)。
多序列比对( MSA )​ :通过搜索大型 RNA 序列数据库(如 RNAcentral RefSeq )生成的进化信息,用于捕捉保守的结构特征。
预训练语言模型嵌入 :基于 RNA-FM (一个在约 2370 RNA 序列上预训练的 Transformer 模型)提取的序列嵌入,编码了序列的进化和结构信息。

输出

3D 结构坐标 RNA 骨架中关键原子(如 P C4' 、糖环原子)的三维坐标,以 PDB 格式或类似结构表示。
二级结构 :通过后处理模块预测的碱基配对模式(如茎环、发夹),以点 - 括号表示法输出。
螺旋间角度( IHA )​ RNA 螺旋间的几何角度,用于指导实验验证和结构优化。

数据格式

输入格式
序列: FASTA 格式的 RNA 单链序列。
MSA :多序列比对文件(如 Stockholm A3M 格式)。
输出格式
3D 结构:标准 PDB 文件。
二级结构:文本文件中的点 - 括号字符串。
IHA :数值矩阵或 JSON 格式的键值对。

下游任务

1. 单链 RNA 3D 结构预测 :核心任务,直接输出原子坐标。
2. 二级结构预测 :通过注意力图提取碱基配对概率。
3. 螺旋间角度预测 :从几何模块中提取角度参数。
4. 结构质量评估 :通过 pLDDT (预测局部距离差异测试)得分标记低置信度区域。

损失函数

3D 结构损失
坐标均方误差( MSE ):预测原子坐标与真实坐标的差异。
几何约束损失:结合键长、键角、二面角的物理约束。
不变点注意力( IPA )损失 :优化局部坐标系与全局结构的对齐。 IPA 模块在 Alphafold2 中用于蛋白质结  构的迭代细化。通过不断更新每个残基的旋转和平移, IPA 模块能够有效地改进蛋白质的三维结构预测。 利用 IPA 进行坐标变换的不变性处理。 IPA 模块特别适用于需要处理全局旋转和平移不变性的场景,如蛋白质结构的迭代细化。
二级结构损失 :交叉熵损失,用于碱基配对的分类。
语言模型损失 :预训练阶段的掩码语言建模( MLM )损失。

具体算法

1. 特征提取
1. 使用 RNA-FM 生成序列嵌入。
2. 通过 JackHMMER MMseqs2 构建 MSA ,提取共进化特征。
2. Rhoformer 架构
1. 基于 Transformer 的多头注意力机制,迭代优化特征( 10 个循环)。
2. 融合序列嵌入与 MSA 特征,捕捉长程依赖。
3. 结构模块
1. 几何感知注意力 :在注意力机制中引入空间距离权重。
2. IPA 模块 :类似 AlphaFold2 ,通过局部坐标系更新全局坐标。
3. 扩散过程 ​(可选):逐步去噪生成 3D 结构(参考 AlphaFold3 )。
4. 后处理
1. 利用预测的二级结构约束优化 3D 模型(如 Rosetta 能量最小化)。

创新方式

1. RNA 语言模型整合
1. 首次将大规模预训练语言模型( RNA-FM )用于 RNA 结构预测,解决数据稀缺问题。
2. 端到端自动化
1. 完全自动化的流程(从序列到 3D 结构),无需人工干预或模板搜索。
3. 几何感知与 IPA
1. 引入几何约束的注意力机制,提升局部结构准确性。
2. IPA 模块有效处理 RNA 的刚性螺旋和柔性连接区域。
4. 多任务学习
1. 联合预测 3D 结构、二级结构和 IHA ,提供多维结构信息。
5. 数据增强与泛化
1. 通过跨家族、跨类型验证(如 tRNA riboswitch )证明模型对未见 RNA 的泛化能力。
2. 在低序列相似度( <50% )下仍保持高精度( TM-score >0.5 )。

具体内容
模型
RNA-FM,2022.4
数据类型
非编码 RNA
数据量
2370 万个非冗余 RNA 序列,大规模跨物种序列
算法
BERT-based;12层encode,隐藏层维度640,每层包含20头;
输入
MLM, 多级掩码输入序列中15%-20%的token,[CLS] + 序列 + [SEP]
输出
640维的CLS全局序列表示和token的embedding
分词方式
支持 单核苷酸分词、k-mer分词、密码子分词
评估方式
多级 MLM 损失,单碱基、子序列级、motif级掩码的加权交叉熵 
下游任务
RNA二级/三级结构预测、RNA功能预测、RNA分类、mRNA相关任务、SARS-CoV-2 基因组结构和进化预测、蛋白质-RNA 结合
创新方式
首个通用目的RNA语言模型
具体内容
模型
RiNALMo 2024.3
数据类型
非编码 RNA
数据量
3600 万个非冗余 RNA 序列
算法
BERT-based 33 encode ,每层包含 20 头; RoPE 位置编码; SwiGLU 激活
输入
MLM ,随机掩码输入序列中 15%-20% token [CLS] + 序列 + [SEP]
输出
1280 维的 CLS 全局序列表示和 t oken embedding
分词方式
支持 单核苷酸分词 k- mer 分词、密码子分词
评估方式
Cross-entropy( 原始序列,预测的掩码序列 )
下游任务
RNA 序列特征提取、序列和核苷酸级别的分类回归任务,以及 RNA 接触预测
创新方式
对特殊核苷酸采用独立 token 编码
引入 FlashAttention-2 算法降低显存消耗,支持超长序列处理
长度处理:支持最大4,096个核苷酸的输入,超过此长度的序列通过滑动窗口分段处理。
33层、1280个隐藏单元和20个注意力头,总参数量达6.5亿。可以处理最多1022个标记的序列。
RiNALMo 使用掩码语言建模 (MLM) 作为预训练目标。掩码过程类似于 BERT 中使用的过程:
* 15% 的代币被屏蔽。
* 在 80% 的情况下,掩码令牌被 .<mask>
* 在 10% 的情况下,掩码令牌被随机令牌(不同)替换为与它们替换的令牌不同的令牌。
* 在剩余的 10% 的情况下,掩码令牌保持原样。
FlashAttention的核心原理是通过将输入分块并在每个块上执行注意力操作,从而减少对高带宽内存(HBM)的读写操作
具体内容
模型
RNAErnie 2024.5
数据类型
非编码 RNA
数据量
2300 万个非冗余 RNA 序列
算法
BERT-based 12 encode ,隐藏层维度 768 12 头; RoPE 位置编码
输入
MLM 多级掩码 输入序列中 15%-20% token [CLS] + 序列 + [ IND]
输出
768 维的 CLS 全局序列表示和 t oken embedding
分词方式
支持 单核苷酸分词 k- mer 分词、密码子分词
评估方式
多级 MLM 损失 ,单碱基、子序列级、 motif 级掩码的加权交叉熵
下游任务
RNA 序列分类准确率 98.7% RNA-RNA 相互作用和 RNA 二级结构预测 F1=0.82
创新方式
预训练阶段采用:碱基级掩码、子序列级掩码和 motif 随机掩码
针对下游任务的类型引导微调:在序列末尾 附加 RNA 类型标记
只用单核苷酸分词, 加入位置信息。 然后 动态掩码策略:在预训练阶段,从 Rfam 数据库中提取已知功能域(如 tRNA 的反密码子环),以 80% 概率整体掩码,迫使模型学习功能域内部依赖关系。 最后加上 cls 的全序列特征。
长序列处理:超过 512 个核苷酸的序列采用滑动窗口分块(窗口大小 256 ,重叠 128 ),保留局部结构信息。
掩码策略包括:
全替换为 <mask> 80%
替换为随机 token 10%
保持不变( 10%
RNAErnie 模型分析
输入
预训练阶段:原始 RNA 序列(由 A U C G 组成),附加特殊标记:
[CLS] :序列起始标记,用于提取全局特征。
[IND] :类型标记,后接 RNA 类型(如 miRNA lncRNA ),从 RNAcentral 数据库获取。
微调阶段: RNA 序列 + 预测的 RNA 类型(通过预训练模型推断)。
输出
预训练:预测被掩码的核苷酸、子序列或 motif (交叉熵损失)。
下游任务:
分类任务(如 RNA 类型分类):类别概率分布。
交互预测(如 miRNA-mRNA 交互):二元分类概率。
结构预测: RNA 二级结构的配对矩阵(例如 F1 分数优化)。
数据格式
预训练数据: 23M RNA 序列( RNAcentral 数据库),存储为字符串。
下游任务数据:
分类: nRC 数据集( 13 类, 6,320 训练 /2,600 测试)。
交互预测: DeepMirTar (正负样本各 13,860 对)。
结构预测: ArchiveII RNAStralign 等(含 RNA 序列与结构注释)。
分词方式
单核苷酸级:每个核苷酸( A U C G )为一个 token
特殊标记:
[CLS] [IND] 作为功能标记。
RNA 类型(如 miRNA )作为附加词汇,直接拼接至序列末尾。
处理长序列:超过 512nt 的序列截断或分块(可能损失长程相互作用信息)。
下游任务
无监督聚类:基于 RNAErnie 提取的嵌入进行 PHATE 降维可视化。
监督任务:
RNA 序列分类( nRC 数据集, 13 类)。
RNA-RNA 交互预测( DeepMirTar 数据集)。
RNA 二级结构预测( ArchiveII RNAStralign 等)。
其他:长序列分类、病毒进化路径分析(补充实验)。
损失函数
预训练:
多任务掩码预测:交叉熵损失( base subsequence motif 级别)。
微调:
分类任务:交叉熵损失。
结构预测: F1 分数或二分类交叉熵(配对矩阵预测)。
交互预测:二元交叉熵。
具体算法
架构:基于 Transformer ERNIE 框架, 12 层,隐藏层 768 维(约 1.05 亿参数)。
预训练策略:
多级掩码:
Base-level :随机掩码 15% 核苷酸( 10% 保留原值, 10% 替换)。
Subsequence-level :掩码 4-8bp 连续子序列。
Motif-level :掩码已知 RNA 结构 motif (来自 ATtRACT SpliceAid 等数据库)。
类型附加:将 RNA 类型作为特殊标记,增强类型感知。
微调策略:
STACK 架构:
预训练模型预测 RNA 类型( Top-K 概率)。
堆叠 K 个下游模块( TBTH FBTH ),每个模块输入 RNA 序列 + 一个预测类型。
集成 K 个模块结果作为最终输出。
创新方式
生物学先验融合:
Motif 感知掩码:引入 RNA 结构 motif (如结合位点、功能域)作为掩码单元,提升对高阶结构的建模。
类型引导:将 RNA 类型作为附加标记,强化类型相关特征学习。
多层次掩码策略:
联合 base subsequence motif 三级掩码,捕获局部到全局的序列模式。
自适应微调架构:
STACK 策略:通过预测类型动态调整特征嵌入,缓解预训练与下游任务的分布偏移。
高效长序列处理:
分块截断(尽管可能损失长程信息),结合局部特征集成。
具体内容
模型
UNI-RNA,2023.07
数据类型
RNA序列
数据量
约10亿条RNA序列,MMseqs2聚类
算法
BERT-based;24层encode,隐藏层维度1280,12头;RoPE位置编码
输入
MLM, 多级掩码输入序列中15%-20%的token,[CLS] + 序列 +  [SEP]
输出
768维的CLS全局序列表示和token的embedding
分词方式
单核苷酸分词
评估方式
Cross-entropy(原始序列,预测的掩码序列)
下游任务
二级结构预测、三级接触图预测、5‘UTR的ribosome load预测、跨物种剪接位点预测、ncRNA家族分类、RNA修饰位点预测
创新方式
支持长序列4096长度,结合FlashAttention、RoPE、fused layernorm

FlashAttention的核心原理是通过将输入分块并在每个块上执行注意力操作,从而减少对高带宽内存(HBM)的读写操作

Rope旋转位置编码目前是大模型相对位置编码中应用最广的方式之一。

1. ​输入

数据类型 RNA 序列(核苷酸序列)。
预处理
RNA 中的 U (尿嘧啶)转换为 T (胸腺嘧啶),以兼容 DNA 序列数据。
添加特殊标记 [CLS] (序列起始)和 [SEP] (序列分隔符)。
序列长度限制为 最长 4096 个核苷酸 ,超出部分被截断或丢弃。
格式 :字符串形式的核苷酸序列(如 [CLS] AGCT...TGA [SEP] )。

2. ​输出

预训练阶段 :预测被遮蔽( masked )的核苷酸,输出每个位置的核苷酸概率分布。
下游任务
分类任务 ​(如剪接位点预测、 ncRNA 家族分类):输出类别概率。
回归任务 ​(如 ribosome load 预测、 isoform 百分比):输出连续值(如 )。
结构预测 ​(如二级 / 三级结构):输出接触图矩阵或碱基配对概率矩阵。

3. ​数据格式

预训练数据 :约 10 亿条 RNA 序列,来源包括 RNAcentral NCBI nt 数据库等。
下游任务数据
结构化数据(如 RNAStralign 数据集、高精度实验结构数据)。
功能数据(如 MPRA 文库的 280,000 条序列、 APA 变异数据集)。
数据对齐 :使用 mmseqs2 聚类算法去冗余,保证数据多样性。

4. ​分词方式

字符级分词 :每个核苷酸( A/G/C/T )作为一个独立的 token
特殊标记
[CLS] :用于分类任务的聚合表示。
[SEP] :序列分隔符。
N :表示罕见或未知核苷酸。

5. ​下游任务

结构预测
二级结构预测( F1-score 提升 18.3% )。
三级接触图预测(长程接触精度提升 20% )。
mRNA 治疗相关
5'UTR ribosome load 预测( 0.96 )。
3'UTR isoform 百分比预测( 0.91 )。
功能预测
跨物种剪接位点预测( F1-score 0.96 )。
ncRNA 家族分类(准确率 98% )。
RNA 修饰位点预测( AUROC 0.994 )。

6. ​损失函数

预训练 :交叉熵损失( masked language modeling )。
下游任务
分类任务:交叉熵损失。
回归任务:均方误差( MSE )或 Spearman 相关系数优化。
结构预测:二元交叉熵(接触图预测)或焦点损失(处理类别不平衡)。

7. ​具体算法

模型架构
BERT-style Transformer :仅编码器结构,支持长序列( 4096 长度)。
改进技术
Rotary Embedding :替代传统位置编码,增强位置感知能力。
Flash Attention :加速注意力计算,减少 GPU 内存访问(训练速度提升 5 倍)。
Fused LayerNorm :优化层归一化计算效率。
参数规模
最大模型( L24 ): 24 层, 1280 隐藏维度, 4 亿参数。
隐藏层扩展: FFN 层大小为嵌入维度的 3 倍(如嵌入 512 FFN 1536 )。

8. ​创新方式

数据规模 :预训练数据量达 10 亿序列 ,远超之前工作(如 RNA-FM )。
模型优化
支持长序列( 4096 长度),解决传统模型无法处理长 RNA 的问题。
结合高效注意力机制( Flash Attention )和位置编码( Rotary Embedding )。
任务泛化
单一模型覆盖结构、功能、治疗设计等多个领域,突破传统方法局限性。
在噪声数据(如边界干扰)下仍保持鲁棒性( ncRNA 分类准确率 98% )。
生物学意义
自动提取 RNA 的进化与结构信息,为功能预测提供物理基础。
推动 mRNA 疗法设计(如优化 UTR 序列以提高翻译效率)。

9. ​潜在挑战

模型规模瓶颈 :参数超过 4 亿后性能饱和,需探索新架构(如稀疏注意力)。
多模态扩展 :未来可整合实验数据(如 Cryo-EM 结构)提升预测精度。
解释性 :需可视化注意力机制以验证生物学合理性(如捕捉远程相互作用)。

具体内容
模型
GenerRNA
数据类型
RNA 核苷酸序列
数据量
1609 万条去重 RNA 序列
算法
GPT-2 based 24 层, 1280
输入
经过 BPE 分词后的 token 序列
输出
自回归生成的 RNA token 序列,解码后为核苷酸序列
分词方式
Byte-Pair Encoding ,词汇表大小是 1024
评估方式
自回归预测每个 token 的条件概率的负对数似然之和
下游任务
生成具有稳定二级结构的新 RNA 、生成特定蛋白的高亲和力 RNA
创新方式

分词方式明确使用了BPE,可能合并常见的核苷酸组合成单个token,词汇表大小是1024BPE在训练分词器时处理了100万条RNA序列,尝试了不同词汇量,最终选择1024,因为平衡了信息压缩和模型处理能力。BPE的优势在于能处理可变长度的子词,相比k-mer或单核苷酸分词,能更有效地压缩信息,处理更长序列。

使用Adam优化器,学习率预热到1e-3后衰减到1e-4。生成时采用不同的采样策略,如贪心搜索、束搜索和随机采样(top-k),其中随机采样在生成自然分布RNA时效果最好。

Eos代表每个序列的起始和终点。

预训练使用的是负对数似然(NLL),公式是NLL_seq = -Σ log (xi | x<i),即自回归预测每个token的条件概率的负对数似然之和。

下游任务评估方法创新:结合MFE(最小自由能)稳定性分析、同源性搜索(nhmmer)和k-mer分布KL散度,全面验证生成质量。

稳定性验证:生成的RNA MFE接近天然序列,显著优于随机/打乱序列。

1. ​输入与输出

输入 RNA 核苷酸序列(如 AUCG... ),经过 BPE 分词后的 token 序列。
输出 :自回归生成的 RNA token 序列,解码后为核苷酸序列。

2. ​数据格式

预训练数据 :来自 RNAcentral 1609 万条去重 RNA 序列(过滤长度≤ 1024 token )。
微调数据 :特定任务数据(如蛋白结合 RNA ),正负样本经 CD-HIT 去重( 80% 相似度)。

3. ​分词方式

方法 Byte-Pair Encoding (BPE) ,词汇表大小 1024
优势 :捕捉可变长度核苷酸组合(如 motif ),支持长序列生成。

4. ​下游任务

主要任务 :生成具有稳定二级结构的新 RNA
微调任务 :生成特定蛋白(如 ELAVL1/SRSF1 )的高亲和力 RNA

5. ​损失函数

预训练 :负对数似然( NLL ),公式:
NLL seq =− i =1 L log ( xi x < i )
微调 :沿用相同损失函数,学习率调整为 1e-4

6. ​具体算法

架构 GPT-2-medium Transformer 解码器( 24 层, 1280 维, 3.5 亿参数)。
训练 Adam 优化器( β 1​ =0.9, β 2​ =0.999 ),学习率预热 + 线性衰减。
生成策略 :随机采样( top-k=250 ,温度 1.0 )效果最佳,平衡多样性与自然分布。

7. ​创新点

首个生成式 RNA 语言模型 :无需预定义结构 / 先验知识,直接生成功能 RNA
大规模预训练 + 微调范式 :利用 1600 万条 RNA 学习通用表示,可迁移到特定任务。
BPE 分词的应用 :突破传统 k- mer 限制,有效压缩信息并捕捉长程依赖。
评估方法创新 :结合 MFE (最小自由能)稳定性分析、同源性搜索( nhmmer )和 k- mer 分布 KL 散度,全面验证生成质量。

关键细节补充

长度控制 :模型支持最长 1024 token (约 4000 nt ),覆盖多数 RNA 设计需求。
稳定性验证 :生成的 RNA MFE 接近天然序列,显著优于随机 / 打乱序列。
新颖性 26.2% 生成序列无同源匹配( e-value<0.1 ), 70.6% 可归类到已知家族但非重复。
蛋白结合任务 :生成的 RNA DeepClip 评分中超越负样本,接近天然结合序列。

具体内容
模型
scBERT 2021.12
数据类型
单细胞 RNA 测序数据,基因表达谱被转换成 基因嵌入和表达嵌入
数据量
200 万单细胞 RNA 测序 数据
算法
BERT-based Performer ); 6 encode 10 头;无位置编码
输入
细胞表达能力分箱的嵌入 -mask 15% + 基因嵌入( gene2vec 保留所有基因
输出
细胞类型的概率分布
分词方式
连续表达值被分箱( binning )为离散的区间,映射为 200 维的“表达嵌入”
评估方式
Cross-entropy( 原始序列,预测的掩码序列 )
下游任务
细胞类型注释、基因重要性分析、细胞表示学习
创新方式
首次 BERT 架构迁移至 scRNA -seq 分析、采用 Performer
具体内容
模型
scBERT,2021.12
数据类型
单细胞RNA测序数据,基因表达谱被转换成 基因嵌入和表达嵌入
数据量
112万单细胞RNA测序数据
算法
BERT-based( Performer);6层encode,10头;无位置编码
输入
细胞表达能力嵌入(分箱) -mask 15% + 基因嵌入(gene2vec、 保留所有基因
输出
细胞类型的概率分布
分词方式
单基因分词
评估方式
Cross-entropy(原始表达值,预测的掩码表达值)
下游任务
细胞类型注释、基因重要性分析、细胞表示学习
创新方式
首次BERT架构迁移至scRNA-seq分析、采用Performer
具体内容
模型
DGRNA,2024.12
数据类型
RNA序列
数据量
约1亿条RNA序列,Mmseqs去冗余
算法
基于双向Mamba2模块(12层)+ Flash Attention-2层。
输入
MLM,随机掩码输入序列中15%的token,[CLS] + 序列 + [EOS]
输出
每个位置输出768维嵌入向量,或下游任务相关的结果
分词方式
单核苷酸分词
评估方式
Cross-entropy(原始表达值,预测的掩码表达值)
下游任务
非编码RNA分类、RNA-RNA/RNA-蛋白相互作用预测、剪接位点预测、翻译效率预测、RNA蛋白结合位点识别
创新方式
Mamba2架构+双向SSM+Flash Attention,6类下游任务中达到SOTA
 
具体内容
模型
scGPT,2024.2
数据类型
单细胞RNA测序数据
数据量
超过1000万个单细胞
算法
GPT based,Flash-Attention
输入
细胞表达能力嵌入(分箱)+ 基因嵌入 + 条件标记;[cls] + 序列 + [pad]
输出
预测基因表达值,学习细胞嵌入CLS
分词方式
单基因分词
评估方式
Cross-entropy(原始表达值,预测的掩码表达值)
下游任务
细胞类型注释、 扰动预测、 多组学整合
创新方式
首次将生成式Transformer应用于单细胞领域,支持 “基因提示” 和 “细胞提示” 两种生成模式
 !!!!基因 表达 叠加
具体内容
模型
MRM-BERT,2024.2
数据类型
长度为101的RNA序列片段
数据量
超30万
算法
Fine-tuned DNABERT + CNN,二者输出拼接后经全连接层分类
输入
BERT 输入:3-mer分词后的索引序列
CNN 输入:多特征编码矩阵(通过其他现有method)
输出
中心位点是否为12种RNA修饰类型的概率
分词方式
3-mer滑动窗口分词
评估方式
交叉熵损失(分类任务)
下游任务
多任务RNA修饰位点预测(12种修饰类型的分类)
创新方式
首次结合预训练BERT表示与传统序列特征
具体内容
模型
CodonBERT,2024.6
数据类型
mRNA的编码区序列(起始密码子—终止密码子)
数据量
超1000万条mRNA序列,覆盖哺乳动物、细菌、人类病毒、酵母等生物
算法
BERT-based,12层,12头,隐藏层维度768
输入
组合密码子嵌入、位置嵌入、序列嵌入,随机掩码15%的密码子;[CLS]、[SEP]、[UNK]、[PAD]、[MASK]特殊编码
输出
预测掩码位置的密码子(MLM)及序列对的分类群关系(STP)
分词方式
密码子分词
评估方式
MLM:交叉熵损失,预测被掩码的密码子
STP:交叉熵损失,判断两序列是否属于同一分类群
下游任务
蛋白质表达水平、mRNA降解速率、稳定性预测、蛋白质表达分类、疫苗抗原表达预测
创新方式
以密码子为基本单元,有两个预训练任务
!!!!
具体内容
模型
RNA-MSM,2024.4
数据类型
RNA多序列比对
数据量
约860万条序列,3932个Rfam家族
算法
改进自蛋白质MSA Transformer,10层,12头,768维
输入
MLM,MSA(N*L)随机mask 20% token。非标准核苷酸统一为X,gap保留为-
输出
2D 注意力图(L×L×120) :包含碱基配对概率信息
1D 嵌入表示(N×L×768):包含溶剂可及性等结构信息
分词方式
单核苷酸分词,词汇表包含6个字符
评估方式
Cross-entropy(原始表达值,预测的掩码表达值)
下游任务
RNA 二级结构预测,溶剂可及性预测
创新方式
直接利用多序列比对信息
具体内容
模型
RNA-MSM,2024.4
数据类型
RNA多序列比对
数据量
约860万条序列,3932个Rfam家族
算法
改进自蛋白质MSA Transformer,10层,12头,768维
输入
MLM,MSA(N*L)随机mask 20% token。非标准核苷酸统一为X,gap保留为-
输出
2D注意力图(L×L×120) :包含碱基配对概率信息
1D嵌入表示(N×L×768):包含溶剂可及性等结构信息
分词方式
单核苷酸分词,词汇表包含6个字符
评估方式
Cross-entropy(原始表达值,预测的掩码表达值)
下游任务
RNA二级结构预测,溶剂可及性预测
创新方式
直接利用多序列比对信息
在不同的下游任务微调中,对框架内做小改动。
具体内容
模型
3UTRBERT,2023.9
数据类型
mRNA的3'UTR序列片段.长度510核苷酸
数据量
20362条非冗余3'UTR序列,总计76435649核苷酸
算法
BERT-based,12层,12头,768维
输入
MLM,分词后mask 15%
输出
预测被遮盖k-mer的原始核苷酸组合
分词方式
k-mer分词,k=3
评估方式
Cross-entropy(原始值,预测的掩码值)
下游任务
RBP结合位点预测、m6A修饰位点预测、mRNA亚细胞定位
创新方式
首次应用 BERT 3'UTR

具体内容

模型

RhoFold+2024.12;预训练模型的使用

数据类型

RNA序列

数据量

2370RNA序列

算法

RNA-FM生成序列嵌入 + MSA -- Rhoformer几何感知注意力、IPA模块

输入

RNA序列、多序列比对文件

输出

3D结构PDB、二级结构dotbracket

分词方式

​单核苷酸分词

评估方式

坐标均方误差MSE、几何约束损失、​不变点注意力IPA损失、​交叉熵损失

下游任务

​单链RNA 3D结构预测、​二级结构预测、​螺旋间角度预测、​结构质量评估

创新方式

首次将预训练语言模型用于RNA结构预测

RhoFold+模型分析

输入

RNA 序列 :单链 RNA 的核苷酸序列(如 A, U, C, G 字符串)。
多序列比对( MSA )​ :通过搜索大型 RNA 序列数据库(如 RNAcentral RefSeq )生成的进化信息,用于捕捉保守的结构特征。
预训练语言模型嵌入 :基于 RNA-FM (一个在约 2370 RNA 序列上预训练的 Transformer 模型)提取的序列嵌入,编码了序列的进化和结构信息。

输出

3D 结构坐标 RNA 骨架中关键原子(如 P C4' 、糖环原子)的三维坐标,以 PDB 格式或类似结构表示。
二级结构 :通过后处理模块预测的碱基配对模式(如茎环、发夹),以点 - 括号表示法输出。
螺旋间角度( IHA )​ RNA 螺旋间的几何角度,用于指导实验验证和结构优化。

数据格式

输入格式
序列: FASTA 格式的 RNA 单链序列。
MSA :多序列比对文件(如 Stockholm A3M 格式)。
输出格式
3D 结构:标准 PDB 文件。
二级结构:文本文件中的点 - 括号字符串。
IHA :数值矩阵或 JSON 格式的键值对。

下游任务

1. 单链 RNA 3D 结构预测 :核心任务,直接输出原子坐标。
2. 二级结构预测 :通过注意力图提取碱基配对概率。
3. 螺旋间角度预测 :从几何模块中提取角度参数。
4. 结构质量评估 :通过 pLDDT (预测局部距离差异测试)得分标记低置信度区域。

损失函数

3D 结构损失
坐标均方误差( MSE ):预测原子坐标与真实坐标的差异。
几何约束损失:结合键长、键角、二面角的物理约束。
不变点注意力( IPA )损失 :优化局部坐标系与全局结构的对齐。 IPA 模块在 Alphafold2 中用于蛋白质结  构的迭代细化。通过不断更新每个残基的旋转和平移, IPA 模块能够有效地改进蛋白质的三维结构预测。 利用 IPA 进行坐标变换的不变性处理。 IPA 模块特别适用于需要处理全局旋转和平移不变性的场景,如蛋白质结构的迭代细化。
二级结构损失 :交叉熵损失,用于碱基配对的分类。
语言模型损失 :预训练阶段的掩码语言建模( MLM )损失。

具体算法

1. 特征提取
1. 使用 RNA-FM 生成序列嵌入。
2. 通过 JackHMMER MMseqs2 构建 MSA ,提取共进化特征。
2. Rhoformer 架构
1. 基于 Transformer 的多头注意力机制,迭代优化特征( 10 个循环)。
2. 融合序列嵌入与 MSA 特征,捕捉长程依赖。
3. 结构模块
1. 几何感知注意力 :在注意力机制中引入空间距离权重。
2. IPA 模块 :类似 AlphaFold2 ,通过局部坐标系更新全局坐标。
3. 扩散过程 ​(可选):逐步去噪生成 3D 结构(参考 AlphaFold3 )。
4. 后处理
1. 利用预测的二级结构约束优化 3D 模型(如 Rosetta 能量最小化)。

创新方式

1. RNA 语言模型整合
1. 首次将大规模预训练语言模型( RNA-FM )用于 RNA 结构预测,解决数据稀缺问题。
2. 端到端自动化
1. 完全自动化的流程(从序列到 3D 结构),无需人工干预或模板搜索。
3. 几何感知与 IPA
1. 引入几何约束的注意力机制,提升局部结构准确性。
2. IPA 模块有效处理 RNA 的刚性螺旋和柔性连接区域。
4. 多任务学习
1. 联合预测 3D 结构、二级结构和 IHA ,提供多维结构信息。
5. 数据增强与泛化
1. 通过跨家族、跨类型验证(如 tRNA riboswitch )证明模型对未见 RNA 的泛化能力。
2. 在低序列相似度( <50% )下仍保持高精度( TM-score >0.5 )。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值