facebook的Open Molecules 2025 (OMol25) 数据集、评估与模型开源速读

最新推荐文章于 2025-05-24 15:58:27 发布

Open-source-AI

最新推荐文章于 2025-05-24 15:58:27 发布

阅读量339

点赞数 4

分类专栏：前沿文章标签：人工智能大模型生成模型

本文链接：https://blog.csdn.net/weixin_52582710/article/details/148002530

版权

前沿专栏收录该内容

158 篇文章

订阅专栏

Open Molecules 2025 (OMol25) 数据集、评估与模型
一、引言
Open Molecules 2025（OMol25）代表着目前最大规模的高质量分子密度泛函理论（DFT）数据集。该数据集涵盖了生物分子、金属复合物、电解质以及社区数据集等多个领域。OMol25数据集是在ω B97M-V/def2-TZVPD理论水平下生成的，为分子科学研究提供了宝贵的资源。详细信息可在相关arxiv论文中查阅。
二、数据集详情
OMol25数据集提供了训练和验证的分割版本，数据文件以ase-db LMDBDatabase对象形式编写。数据集规模庞大，包含超过1亿个分子结构，存储容量高达456GB。数据集分为中性分子和带电分子部分，验证集规模相对较小，便于模型验证。
数据集采用CC-BY-4.0许可协议，允许在遵守协议的前提下自由使用。
三、数据读取方法
研究者可通过fairchem库访问OMol25数据集。安装fairchem库的命令如下：

pip install git+https://github.com/facebookresearch/fairchem.git@fairchem_core-2.0.0#subdirectory=fairchem

读取数据集的示例代码：

from fairchem.core.datasets import AseDBDataset
dataset_path = "/path/to/omol/dir/train_4M"
dataset = AseDBDataset({"src": dataset_path})
atoms = dataset.get_atoms(0)  # 通过索引获取原子对象

四、数据属性
每个分子结构包含DFT总能量（eV）和力（eV/Å）标签。此外，atoms.info还包含其他重要属性和元数据，包括：

数据源和内部标识符
分子电荷、自旋状态
原子数量、电子数量
HOMO能量、HOMO-LUMO间隙
Mulliken、Lowdin、NBO电荷分布
分子组成等信息

五、基线模型
研究者提供了在完整OMol25数据集上训练的基线模型检查点，包括不同配置的eSEN模型：

eSEN-sm-direct
eSEN-sm-conserving
eSEN-md-direct
eSEN-lg-direct（即将推出）

模型检查点采用FAIR Chemistry许可协议，可通过fairchem仓库中的自定义ASEcalculator便捷使用。
六、模型应用示例
以下为使用模型进行分子动力学模拟的示例代码：

from ase import units
from ase.io import Trajectory
from ase.md.langevin import Langevin
from ase.build import molecule
from fairchem.core import FAIRChemCalculator

calc = FAIRChemCalculator(checkpoint_path="/path/to/esen_sm_conserving_all.pt", device="cuda")
atoms = molecule("H2O")
atoms.calc = calc

dyn = Langevin(
    atoms,
    timestep=0.1 * units.fs,
    temperature_K=400,
    friction=0.001 / units.fs,
)
trajectory = Trajectory("my_md.traj", "w", atoms)
dyn.attach(trajectory.write, interval=1)
dyn.run(steps=1000)