TRANSVAEDTA论文阅读

最新推荐文章于 2024-08-16 22:03:44 发布

I_dyllic

最新推荐文章于 2024-08-16 22:03:44 发布

阅读量486

点赞数 16

分类专栏：深度学习文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_46042619/article/details/141105356

版权

深度学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

系列文章目录

文章目录

系列文章目录
前言
一、VAE
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

`主要记录自己在阅读论文过程中遇到的一些知识点和不太清楚的地方

一、VAE

公式（3）（4）（5）分别表示药物、靶标和药物-靶标亲和力（DTA）联合分布的对数边际似然的下界。具体来说：

公式（3）：表示药物分布的对数边际似然的下界。
公式（4）：表示靶标分布的对数边际似然的下界。
公式（5）：表示药物-靶标亲和力联合分布的对数边际似然的下界。这些公式通过最大化对数边际似然的下界来优化模型参数，从而提高DTA预测的准确性。

最大化对数边际似然的下界（Evidence Lower Bound, ELBO）是变分推断中的一个重要概念。它用于近似复杂概率模型的对数边际似然，从而优化模型参数。以下是详细解释： 1. 对数边际似然：在概率模型中，对数边际似然（log marginal likelihood）表示观测数据在模型参数下的概率。它是模型好坏的一个衡量标准，但通常难以直接计算。 2. 变分推断：为了近似对数边际似然，变分推断引入了一个辅助分布（通常是简单的分布），并通过优化这个辅助分布来近似原始复杂分布。 3. ELBO：ELBO是对数边际似然的一个下界。通过最大化ELBO，可以间接地最大化对数边际似然。ELBO的公式如下：

\text{ELBO} = \mathbb{E}{q(z|x)}[\log p(x, z)] - \mathbb{E}{q(z|x)}[\log q(z|x)]
ELBO=E
q(z∣x)

[logp(x,z)]−E
q(z∣x)

[logq(z∣x)]
其中，q(z|x)q(z∣x) 是辅助分布，p(x, z)p(x,z) 是联合分布。 4. 优化模型参数：通过最大化ELBO，可以优化模型参数，使得模型更好地拟合观测数据。具体来说，ELBO的第一项是数据和潜在变量的联合对数似然的期望，第二项是辅助分布的对数似然的期望。最大化ELBO相当于最小化这两者之间的差异，从而使辅助分布更接近真实分布。总结来说，最大化对数边际似然的下界（ELBO）是一种有效的优化方法，可以帮助我们在复杂概率模型中找到更好的参数，使模型更准确地拟合数据。如果你有更多问题或需要进一步的解释，请随时告诉我！

可调整的步骤

改变实验流程

数据预处理流程：这段文字描述了如何从数据库中提取药物和靶标数据，并将其转换为模型计算所需的格式。以下是详细解释： 1. 数据来源： - 药物数据：从Pubchem数据库（Pubchem）中提取药物的SMILES字符串，基于其PubChem ID。 - 靶标数据：从UniProt蛋白质数据库（UniProt）中提取靶标序列，使用基因名称或RefSeq登录号。 2. 数据预处理： - 将化合物和蛋白质串转换为数组。 - 对于Davis数据集，药物SMILES的长度小于85，蛋白质序列小于1200。 - 对于KIBA数据集，90%的药物SMILES长度小于100，80%的蛋白质序列长度小于1000。 - 选择最大长度用于训练和测试数据。 3. 字符编码： - 提取所有字符串中的所有不同字符，并创建一个字典。 - 每个字符分配一个唯一的整数值。 - 药物SMILES字符串中总共有64个不同的字符，靶标序列中有25个不同的字符。这些步骤确保了数据在输入模型之前被正确编码和处理。如果你有任何其他问题或需要进一步的解释，请随时告诉我！

使用字典对数据进行编码的好处：这段文字描述了如何从数据库中提取药物和靶标数据，并将其转换为模型计算所需的格式。以下是详细解释： 1. 数据来源： - 药物数据：从Pubchem数据库（Pubchem）中提取药物的SMILES字符串，基于其PubChem ID。 - 靶标数据：从UniProt蛋白质数据库（UniProt）中提取靶标序列，使用基因名称或RefSeq登录号。 2. 数据预处理： - 将化合物和蛋白质串转换为数组。 - 对于Davis数据集，药物SMILES的长度小于85，蛋白质序列小于1200。 - 对于KIBA数据集，90%的药物SMILES长度小于100，80%的蛋白质序列长度小于1000。 - 选择最大长度用于训练和测试数据。 3. 字符编码： - 提取所有字符串中的所有不同字符，并创建一个字典。 - 每个字符分配一个唯一的整数值。 - 药物SMILES字符串中总共有64个不同的字符，靶标序列中有25个不同的字符。这些步骤确保了数据在输入模型之前被正确编码和处理。如果你有任何其他问题或需要进一步的解释，请随时告诉我！

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

I_dyllic

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
TRANSVAEDTA论文阅读

主要记录自己在阅读论文过程中遇到的一些知识点和不太清楚的地方例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
复制链接

扫一扫

专栏目录