facebook的Open Molecules 2025 (OMol25) 数据集、评估与模型开源速读

Open Molecules 2025 (OMol25) 数据集、评估与模型
一、引言
Open Molecules 2025(OMol25)代表着目前最大规模的高质量分子密度泛函理论(DFT)数据集。该数据集涵盖了生物分子、金属复合物、电解质以及社区数据集等多个领域。OMol25数据集是在ω B97M-V/def2-TZVPD理论水平下生成的,为分子科学研究提供了宝贵的资源。详细信息可在相关arxiv论文中查阅。
二、数据集详情
OMol25数据集提供了训练和验证的分割版本,数据文件以ase-db LMDBDatabase对象形式编写。数据集规模庞大,包含超过1亿个分子结构,存储容量高达456GB。数据集分为中性分子和带电分子部分,验证集规模相对较小,便于模型验证。
数据集采用CC-BY-4.0许可协议,允许在遵守协议的前提下自由使用。
三、数据读取方法
研究者可通过fairchem库访问OMol25数据集。安装fairchem库的命令如下:

pip install git+https://github.com/facebookresearch/fairchem.git@fairchem_core-2.0.0#subdirectory=fairchem

读取数据集的示例代码:

from fairchem.core.datasets import AseDBDataset
dataset_path = "/path/to/omol/dir/train_4M"
dataset = AseDBDataset({"src": dataset_path})
atoms = dataset.get_atoms(0)  # 通过索引获取原子对象

四、数据属性
每个分子结构包含DFT总能量(eV)和力(eV/Å)标签。此外,atoms.info还包含其他重要属性和元数据,包括:

数据源和内部标识符
分子电荷、自旋状态
原子数量、电子数量
HOMO能量、HOMO-LUMO间隙
Mulliken、Lowdin、NBO电荷分布
分子组成等信息

五、基线模型
研究者提供了在完整OMol25数据集上训练的基线模型检查点,包括不同配置的eSEN模型:

eSEN-sm-direct
eSEN-sm-conserving
eSEN-md-direct
eSEN-lg-direct(即将推出)

模型检查点采用FAIR Chemistry许可协议,可通过fairchem仓库中的自定义ASEcalculator便捷使用。
六、模型应用示例
以下为使用模型进行分子动力学模拟的示例代码:

from ase import units
from ase.io import Trajectory
from ase.md.langevin import Langevin
from ase.build import molecule
from fairchem.core import FAIRChemCalculator

calc = FAIRChemCalculator(checkpoint_path="/path/to/esen_sm_conserving_all.pt", device="cuda")
atoms = molecule("H2O")
atoms.calc = calc

dyn = Langevin(
    atoms,
    timestep=0.1 * units.fs,
    temperature_K=400,
    friction=0.001 / units.fs,
)
trajectory = Trajectory("my_md.traj", "w", atoms)
dyn.attach(trajectory.write, interval=1)
dyn.run(steps=1000)

七、支持与资源

研究者可在以下平台寻求支持或反馈问题:

  • Hugging Face Discussions

  • GitHub Issues

fairchem仓库还提供了额外的教程和文档资源,帮助用户更好地利用OMol25数据集和模型。

核心技术汇总

在这里插入图片描述

### 如何学习fairchem并应用于催化剂预测 #### 学习资源获取 对于希望深入了解 `fairchem` 并将其用于催化剂预测的研究人员来说,官方文档通常是最佳起点。通过访问项目主页或GitHub仓库可以找到详细的安装指南、API说明以及常见问题解答[^1]。 #### 安装环境配置 确保本地开发环境中已安装Python 3.9以上版本。接着可以通过pip工具来安装最新版的fairchem库: ```bash pip install fairchem ``` #### 数据准备阶段 利用`fairchem.data`模块提供的功能简化数据集加载过程。该部分不仅支持多种格式文件读取,还内置了一些常用公开数据库接口,方便快速获得高质量训练样本集合。 #### 探索核心算法实现 深入研究`fairchem.core`组件内部机制有助于理解背后的工作原理。这里包含了针对特定领域优化过的先进机器学习框架,能够有效提升模型性能表现。建议阅读源码注释或者查阅相关论文资料加深认识。 #### 应用实例分析 查看`fairchem.applications`目录下已有案例可以帮助构建实际应用场景下的解决方案思路。特别是像AdsorbML这样的子项目,在吸附特性模拟方面积累了丰富的经验教训值得借鉴。 #### 开发测试流程 编写简单的脚本调用预训练好的模型完成初步实验验证工作。下面是一个基本的例子演示如何加载默认参数设置并执行一次前向传播操作: ```python from fairchem.models import load_default_model model = load_default_model('catalyst_prediction') output = model.predict(input_data) print(output) ``` #### 进阶技巧探索 随着熟练度增加还可以尝试调整超参选项以适应不同任务需求;参社区交流分享心得收获更多灵感启发;关注团队动态及时掌握新特性发布情况等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值