DTI &DTA

科研过程中的一些思考与问题


前言

一、DTI和DTA

1.两者区别

DTI(Drug-Target Interaction)任务和DTA(Drug-Target Affinity)任务都是与药物发现和药物设计相关的任务,但它们在方法和目标上有一些关键区别。

  1. 任务类型

    • DTI任务通常涉及预测给定药物和给定靶点之间是否存在相互作用。这种相互作用可以是药物与蛋白质靶点的结合,或者药物对靶点的生物活性。
    • DTA任务则专注于预测给定药物与给定靶点之间的亲和力或结合亲和力。这包括预测药物分子与蛋白质靶点之间的结合亲和力。
  2. 衡量指标

    • 对于DTI任务,通常使用二分类指标(如准确率、召回率、F1分数等)来衡量模型的性能。在这种情况下,模型被要求预测药物与靶点之间的相互作用或者缺乏相互作用。
    • 对于DTA任务,通常使用回归指标(如均方误差、平均绝对误差等)来衡量模型的性能。模型的任务是预测药物与靶点之间的亲和力或结合亲和力的连续值。
  3. 方法

    • DTI任务的方法通常涉及利用药物和靶点的分子特征(如结构、序列、生物活性等)来构建预测模型。这可能包括基于图的方法、基于深度学习的方法以及传统的机器学习方法。
    • DTA任务的方法也使用类似的特征,但更侧重于预测药物与靶点之间的结合亲和力。因此,这些方法可能会更专注于分子对接和量化结构-活性关系等领域的技术。

DTI任务和DTA任务在目标和方法上有所不同,这导致它们在衡量指标和应用领域上存在差异。然而,它们都是药物发现和设计中至关重要的任务,对于加速新药开发具有重要意义。

2.衡量标准

当评估机器学习模型在DTI(Drug-Target Interaction)和DTA(Drug-Target Affinity)任务中的性能时,使用不同的指标来衡量其准确性和效果。下面是一些常见的衡量指标:

  1. 对于DTI任务

    • 准确率(Accuracy):模型正确预测的相互作用数量与总样本数量的比例。 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
    • 精确率(Precision):在所有预测为相互作用的样本中,模型正确预测为相互作用的样本数量的比例。 P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
    • 召回率(Recall):在所有真实相互作用的样本中,模型正确预测为相互作用的样本数量的比例。 R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP
    • F1分数(F1 Score):精确率和召回率的调和平均值,综合考虑了模型的准确性和全面性。 F 1 S c o r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 Score = \frac{2 \times Precision \times Recall}{Precision + Recall} F1Score=Precision+Recall2×Precision×Recall
  2. 对于DTA任务

    • 均方误差(Mean Squared Error,MSE):预测值与真实值之间差异的平方的平均值。 M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2
    • 平均绝对误差(Mean Absolute Error,MAE):预测值与真实值之间差异的绝对值的平均值。 M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| MAE=n1i=1nyiy^i

这些指标提供了关于模型性能的不同方面的信息。准确率、精确率和召回率适用于二分类任务,例如预测药物和靶点之间的相互作用。而对于连续值预测任务,如预测药物与靶点之间的亲和力,均方误差和平均绝对误差是更合适的指标。

在评估模型时,通常需要综合考虑这些指标,并根据具体任务的需求进行权衡。例如,在一些情况下,对准确预测负样本(没有相互作用)的能力更为重要,而在另一些情况下,对预测亲和力的准确性更为关键。

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值