谷本系数/相似度的计算和分子指纹

查阅起点来自《A Deep Learning Approach to Antibiotic Discovery》


Tanimoto coefficient 即谷本系数的计算公式是:
T s t = ∑ k = 1 n P s k ⋅ P t k ∑ k = 1 n P s k 2 + ∑ k = 1 n P t k 2 − ∑ k = 1 n P s k ⋅ P t k T_{st}=\frac{\sum_{k=1} ^{n}P_{sk}·P_{tk}}{\sum_{k=1} ^{n}P_{sk}^2+\sum_{k=1} ^{n}P^2_{tk}-\sum_{k=1} ^{n}P_{sk}·P_{tk}} Tst=k=1nPsk2+k=1nPtk2k=1nPskPtkk=1nPskPtk
用集合来理解相当于
T s t = S ∩ T S ∪ T = S ∩ T S + T − S ∩ T T_{st}=\frac{S\cap T}{S\cup T}=\frac{S\cap T}{S+T-S\cap T} Tst=STST=S+TSTST
python示例代码如下:

import numpy as np

def getTanimotocoefficient(s,t):
    s=np.asarray(s)
    t=np.asarray(t)
    if (s.shape!=t.shape):
        print("向量长度不一致")
        return -1
    return (np.sum(s*t))/(np.sum(s**2)+np.sum(t**2)-np.sum(s*t))

s=[13,11,22,14]
t=[13,12,20,11]
m=[11,11,11,11]

print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
#       0.9845984598459846             0.8312342569269522

如果两个向量的元素都是只能是01,那么它们的谷本系数可以简化为:
T s t = c a + b − c T_{st}=\frac{c}{a+b-c} Tst=a+bcc
其中,a 是向量 s 中1的个数,b 是向量 t 中1的个数,c是两个向量同样位置都是1的个数,对比两个公式很好理解,下面是python示例代码:

def getSimilarity(s,t):
    s=np.asarray(s)
    t=np.asarray(t)
    if (s.shape!=t.shape):
        print("向量长度不一致")
        return -1
    a=np.sum(s==1)
    b=np.sum(t==1)
    c=0
    for i in range(len(s)):
        if (s[i]==1 and t[i]==1): c+=1
    return c/(a+b-c)

s=[1,1,1,0]
t=[1,0,1,0]
m=[1,0,0,0]

print(getSimilarity(s,t),getSimilarity(s,m))
print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
#        0.6666666666666666            0.3333333333333333

谷本系数可以用于计算分子间的相似度,将分子表示为01字符串即分子指纹的方法有以下几种,示例可以在 RDKit 教程中找到,其中MACCS 秘钥的共167bit,有片段时为1,没有是0,具体哪些片段可以在这里找到。还有一些介绍文章:RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP)RDKit|分子指纹提取、相似性比较及应用,使用rdkiit进行分子指纹(Fingerprint)的类似度计算

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_森罗万象

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值