Chemical-Reaction-Aware Molecule Representation Learning阅读笔记
问题一:使用pysmiles对Smiles格式数据的具体处理过程
1. SMILES格式
1.1 在SMILES表达式中,往往会去掉H元素,比如甲烷CH4用SMILES表达式来表达的话就是C;
1.2 双键用=来表示,比如C(=O)=O表示一个二氧化碳;
1.3 三键用#来表示,用法与双键一样;
1.4 主干线不加标记,分支加圆括号,比如上面提到的二氧化碳,第一个O原子不在主分支上,因此加了括号;
1.5 不成键的分子之间用.
隔开,比如O.C(=O)=O表示一个水分子和一个二氧化碳分子;
1.6 成环的要打开来写,并在开头和结尾加上断键标记,比如C1CCCCC1表示一个环己烷C6H12,这里的两个1
前所对应的碳是相互连接的。
2. SMILES在REACTION中的写法
说明其中每个‘.’分隔两个不同的分子,>>代表化学反应方程式中的等号,上图酯化反应中>>左边代表的是醇分子和酸分子两个分子。
3. 论文中的实际处理
<