Super齐-CSDN博客

翻译 Phosformer：蛋白激酶特异性磷酸化预测的一个可解释的transformer模型

人类基因组编码超过500种不同的蛋白激酶，它们通过蛋白质底物的特定磷酸化来调节几乎所有的细胞过程。虽然质谱和蛋白质组学研究的进展已经确定了跨物种的数千个磷酸化位点，但对于绝大多数磷酸化位点，目前缺乏关于磷酸化这些位点的特定激酶的信息。最近，预测激酶-底物关联的计算模型的发展得到了广泛的关注。然而，目前的模型只允许对研究充分的激酶子集进行预测。此外，在训练和测试数据集中利用手工处理的特征和不平衡，对开发激酶特异性磷酸化预测的准确预测模型提出了独特的挑战。

2023-02-16 14:09:08 1114

翻译一种基于数据平衡和随机分组特征选择策略预测蛋白质-RNA相互作用结合位点的集成方法

识别蛋白质-RNA相互作用中的结合位点对于理解其潜在的识别机制和药物设计至关重要。这些实验方法有许多局限性，因为它们通常是耗时耗力的。因此，迫切需要开发一种有效有效的方法。在这里，作者提出了SREPRHot，一种预测位点的方法，定义为丙氨酸突变产生结合自由能变化2.0千卡/摩尔的残基。为了解决数据集的不平衡问题，利用合成少数过采样技术（SMOTE）生成少数样本，以实现数据集的平衡。

2022-12-29 15:01:55 793 1

原创 A transformer-based model to predict peptide– HLA class I binding and optimize mutated peptides for

文章链接：https://www.nature.com/articles/s42256-022-00459-7.pdfDOI：10.1038/s42256-022-00459-7期刊：Nature Machine Intelligence（一区）发布时间：2022年3月23日数据和代码：https://github.com/a96123155/TransPHLA-AOMPTransMut网站：https://issubmission.sjtu.edu.cn/TransPHLA-AOMP/inde.

2022-04-22 15:27:42 750

翻译利用三级结构进行蛋白质嵌入的自我监督预训练

文章目录一、摘要二、Introduction三、 Related Work3.1 蛋白质三维结构依赖的任务3.2 自我监督学习四、 Methods4.1 蛋白质结构的SE（3）-不变表示4.2 自我监督预训练4.3 下游任务的预训练模型五、总结六、Experiments6.1 下游任务的预训练模型七、Results八、Conclusion一、摘要蛋白质的三级结构在很大程度上决定了它与其他分子的相互作用。尽管它在各种与结构相关的任务中很重要，但完全监督的数据往往耗时且获取成本高。现有的训练前模型主要关

2022-04-21 21:37:14 1061

原创《GraphSNN: 超越WL同构图测试的图神经网络》论文解读

来源：知乎—鱼wy地址：https://zhuanlan.zhihu.com/p/435460527论文：A New Perspective on “How Graph Neural Networks Go Beyond Weisfeiler-Lehman?”链接：https://openreview.net/forum?id=uxgg9o7bI_3（这篇论文摘自ICLR2022 open review 四个审稿人不约而同的给了8分，作者信息现在还是匿名状态不知道出自哪个大神之手）正文作者对设计

2022-04-13 15:01:09 768

原创生物学家掌握机器学习指南

（在生信菜鸟团这个公众号上看到的，自己在这里做一个总结，仅为自己学习方便）参考文章：A guide to machine learning for biologistshttps://doi.org/10.1038/s41580-021-00407-0作为生物学家，如何进行机器学习的学习对生物数据建模的最大挑战是数据种类繁多。生物学家使用的数据包括基因和蛋白质序列、随时间推移的基因表达水平、进化树、显微镜图像、3D 结构和相互作用网络等。研究者在下图中，总结了针对特定生物数据类型的一些例子和重要注

2022-04-13 14:46:04 459

原创自动机器学习AutoML：Auto-Sklearn

(自己对网上的一些资料做的总结，仅想记录下来用来之后方便自己查找)链接: Auto-Sklearn.将系统全面的介绍自动机器学习的其中一个常用框架: Auto-Sklearn，介绍安装及使用，分类和回归小案例，以及一些用户手册的介绍。AutoML全称是Automated Machine Learning，是2014年以来，机器学习和深度学习领域最炙手可热的领域之一。它主要将机器学习中所有耗时过程自动化，如数据预处理、最佳算法选择、超参数调整等，这样可节约大量时间在建立机器学习模型过程中。Auto

2022-04-13 11:48:04 702

原创大规模神经网络最新综述

现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network Training》，它试图解决的问题是：若给定模型和计算平台的情形下，如何训练才是最有效率的。为了使训练高效，其必须可行，最大程度地利用资源的计算能力，在并行情况下，它不能让

2022-04-12 10:57:21 335

原创生信SCi好用的画图软件

一、imageGPhttp://www.ehbio.com/ImageGP/二、Hiplothttps://hiplot.com.cn/basic三、Origin（中文版）https://jingyan.baidu.com/article/d45ad14842389969552b8035.html

2022-03-11 21:11:38 886

原创 iRice-MS：一种检测水稻多型翻译后修饰位点的集成XGBoost模型

文章链接：https://doi.org/10.1093/bib/bbab486DOI：10.1093/bib/bbab486期刊：BiB发布时间：2022 年 1 月 173日数据集：http://lin-group.cn/server/iRice-MS/download.html文章目录前言一、简介二、材料和方法2.1 基准数据集构建2.2 特征编码方案2.2.1 第1组：基于序列的特性（1）Position weight amino acid (PWAA) composition.（2.

2022-03-10 17:10:24 497 1

原创 GPS-Uber：一个用于预测一般和e3特异性赖氨酸泛素化位点的混合学习框架

文章链接：https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab574/6509047DOI：10.1093/bib/bbab574/6509047期刊：BiB发布时间：2022 年 1 月 17 日初始基准数据集、二次训练数据集和独立测试数据集均可在：http://gpsuber.biocuckoo.cn/userguide.php上免费下载。文章目录前言一、简介二、方法2.1 数据收集和准备2.2

2022-03-07 20:48:48 4602

原创 NmRF：从RNA序列中鉴定多物种RNA2‘-o-甲基化修饰位点（假尿苷位点）

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matpl

2022-03-01 17:26:37 2589 1

原创 scMRA:一种健壮的深度学习方法，可以用多个参考数据集注释scRNA-seq数据

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言动机:单细胞RNA-seq (scRNA-seq)已被广泛用于解决细胞异质性。收集完scRNA-seq数据后，下一步自然是集成积累的数据，以实现细胞类型和状态的公共本体。因此，迫切需要一种有效、高效的细胞型识别方法。同时，高质量的参考数据仍然是精确标注的必要条件。但在实践中，这种有针对性的参考数据一直缺乏。为了解决这个问题，我们将多个数据集聚合到一个元数据集

2022-02-22 21:15:06 1961

原创 cfDNA的5-羟甲基胞嘧啶谱高度预测弥漫大B细胞淋巴瘤患者的R-CHOP治疗反应

文章链接：https://link.springer.com/article/10.1186/s13148-020-00973-8#availability-of-data-and-materialsDOI：https://doi.org/10.1186/s13148-020-00973-8期刊：Clinical Epigenetics（医学2区）发布时间：2021年2月11日补充文件： https://doi.org/10.1186/s1314 8‑020‑00973 ‑8.文章目录1. 文章

2022-01-26 18:19:15 1189

原创利用负样本空间改进细胞因子-受体相互作用预测

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、二、使用步骤1.引入库2.读入数据总结前言背景:细胞因子通过与靶细胞质膜上的特定受体结合而起作用。细胞因子-受体相互作用(CRI)的知识对于理解各种人类疾病的发病机制(尤其是自身免疫、炎症和感染性疾病)和确定潜在的治疗靶点非常重要。近年来，机器学习算法被用于CRIs预测。目前还缺乏“黄金标准”的负数据集，负数据集的强烈偏差会显著影响学习算法的训练和评价。为了减轻负样本选择(非相互作用蛋白)固有的不代表性和偏差，我们提出

2021-11-27 11:10:01 1399 1

原创生物网络中基于节点相似度的链路预测图卷积

生物网络中基于节点相似度的链路预测图卷积前言一、介绍二、材料和方法三、结果与讨论四、结论文章地址：https://https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btab464/6307262?redirectedFrom=fulltextDOI：10.1093/bioinformatics/btab464期刊：Bioinformatics（2区）发布时间：202

2021-10-05 20:07:44 2180

原创 2021-09-02

DeepT orrent: a deep learning-based approachfor predicting DNA N4-methylcytosine sites前言一、前言一、介绍2.读入数据总结for predicting DNA N4-methylcytosine sites)前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例

2021-09-12 12:17:35 771

原创 2021-08-13

@[TOC](m6AmPred:基于序列衍生信息识别RNA N6，2′-O-二甲基腺苷(m6Am)位点)分区：2区IF：3.864数据：代码：网站：https://www.xjtlu.edu.cn/biologicalsciences/m6am提示：以下是本篇文章正文内容，下面案例可供参考前言N6，2′-O-二甲基腺苷(m6Am)是一种广泛存在于各种RNA分子上的可逆修饰。m6Am的生物学功能尚不清楚，尽管最近的研究揭示了它对细胞基因命运的影响。精确识别核糖核酸上的m6Am位点对于理解

2021-08-21 17:29:43 619

原创 2021-07-26

论文解读：基于注意力的多标签神经网络，用于集成预测和解释12种广泛发生的RNA修饰前言一、pandas是什么？二、结果1.MultiRM框架2.多重性能3.解释4.MultiRM网络服务器讨论方法1.原始数据和预处理2.Embeddings2.模型设计2.评估指标3.统计显著性4.解释5.基线性能6.基于注意力的DNN（脱氧核糖核酸）前言最近的研究表明，通过转录后核糖核酸修饰的表转录组调节对所有类型的核糖核酸都至关重要。精确鉴定核糖核酸修饰位点对于理解核糖核酸的功能和调节机制至关重要。在这里，我们介绍了

2021-07-26 21:05:31 751

原创 2021-06-13

论文解读：《基于图形卷积网络，通过特征图和拓扑图进行图形采样，识别微小核糖核酸相关疾病》一、摘要二、简介三、相关工作四、材料和方法五、节点特征构造六、方法七、结果和讨论八、案例研究九、结论文章地址：https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab165/6261915?redirectedFrom=fulltextDOI：https://doi.org/10.1093/bib/bbab165期刊：Br

2021-06-15 20:18:27 2325

原创论文解读：《自增强GNN:利用模型输出改进图神经网络》

DOI：https://arxiv.org/abs/2002.07518期刊：MACHION LEARNING（3区）影响因子：2.445发布时间：2021年4月19日代码：https://github.com/yang-han/Self-Enhanced_GNN摘要图神经网络因其在基于图的任务中的优异性能而受到广泛关注。然而，现有的关于神经网络的研究主要集中在设计更有效的模型上，而没有过多考虑输入数据的质量。在本文中，作者提出了自增强GNN (SEG)，它利用现有GNN模型的输出来提高输入数

2021-05-28 22:01:05 1144

原创论文解读：《CGNet:一种用于肺炎检测的图知识嵌入式卷积神经网络》

文章地址：https://www.journals.elsevier.com/information-processing-and-managementDOI： https://doi.org/10.1016/j.ipm.2020.102411 期刊ISSN：0306-4573（二区）影响因子（IF）：4.041发布时间：2020年10月19日数据集：摘要肺炎是一种导致儿童高死亡率的全球性疾病。由于新型冠状病毒COVID-19的爆发，目前已有983,907人死亡。随着感染的进展，感染病毒的人

2021-04-20 23:40:50 1484 3

原创论文解读：6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning

6mA-Pred:基于深度学习的DNA n6 -甲基腺嘌呤位点识别摘要一、介绍二、材料和方法2.1 数据集2.2 特征编码和分类算法三、绩效评估四、不同数据集的性能比较总结数据可用性：关于数据的可得性，提供了下列资料:原始数据： link.代码： link.一个用于预测6mA站点的Web服务器：linkDOI 10.7717/peerj.10813摘要随着6mA修饰位点数据的积累，越来越多的学者开始关注6mA位点的识别。尽管人们认识到6mA位点的重要性，但对其进行鉴定的方法仍然缺乏

2021-03-27 12:42:01 1002

原创 4mCpred-EL:一个用于识别小鼠基因组中DNA n4 -甲基胞嘧啶位点的集成学习框架

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

2021-03-06 16:26:47 1181 1

原创如何下载rdkit

如何下载rdkit刚开始用“conda install rdkit”语句尝试下载rdkit报错，如下图：之后我在浏览器中进入https://anaconda.org这个网址，如下图：之后在搜索框中直接搜索rdkit（注意一定要提前登录，否则无法进行搜索操作），如下图：搜索出来的结果不止这些，在这里剩下的搜索结果就省略不上图了。在搜索结果里，选择下图中的rdkit：接着进入如下页面：我选择了第一条语句进行安装，如下图：之后会出现询问语句：如上图回复 y 即可。接着

2021-02-04 20:10:10 1212

原创非负矩阵分解（NMF）

非负矩阵分解（NMF）前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as np

2021-01-24 10:05:41 224 3

原创 MDIPA:基于非负矩阵分解的MicroRNA-药物相互作用预测方法

MDIPA:基于非负矩阵分解的MicroRNA-药物相互作用预测方法摘要一、简介二、方法2.1 数据集2.2鉴定-药物相互作用2.3鉴定-药物相互作用总结摘要研究动机：有证据表明，microRNAs是一种小生物分子，它调节基因的表达水平，在疾病的发生和治疗中发挥着重要作用。药物作为重要的化合物，可以与microRNAs相互作用并改变其功能。对microRNAs-药物相互作用的实验鉴定既费时又昂贵。因此，开发有效的计算方法来预测microRNAs-药物相互作用是很有吸引力的。结果:本研究提出了一种基于

2021-01-20 13:06:25 1476

原创 i6mA-DNC:基于深度学习的二核苷酸表示预测水稻基因组DNA n6 -甲基腺苷位点

i6mA-DNC:基于深度学习的二核苷酸表示预测水稻基因组DNA n6 -甲基腺苷位点摘要一、简介二、材料和方法1.基准数据集2.读入数据总结摘要DNA甲基化是一个重要的表观遗传过程。DNA n6 -甲基腺嘌呤与DNA复制、转录、修复和细胞防御等多种生物过程密切相关。在基因组中，N6甲基腺嘌呤 (6mA)位点不均匀分布;因此，为了更好地理解其生物学功能，需要确定6mA的基因组位置。虽然各种实验程序已被用于鉴定6mA位点并产生阳性结果，这些生化技术是昂贵和费时的。为了解决这一问题并为今后的研究提供便利，

2020-12-27 00:10:08 646

原创六种编码方案

文章目录DeepAcet采用的六种编码方案一、one-hot二、 BLOSUM62 matrix1.BLOSUM2.BLOSUM62三、 a composition of K-space amino acid pairs四、 information gain五、 physicochemical properties六、 a position specific scoring matrix1.引入库2.读入数据总结DeepAcet采用的六种编码方案一、one-hot一句话概括：one hot编码是将

2020-11-24 16:09:15 3915 1

原创 A deep learning method to more accurately recall known lysine acetylation 阅后笔记

A deep learning method to more accurately recall known lysine acetylation 阅后笔记前言作者先点出赖氨酸乙酰化在基本生物过程中起重要作用，再点出确定赖氨酸乙酰化位点是了解赖氨酸乙酰化的关键，那么如何来预测赖氨酸乙酰化位点呢？在这项工作中，一个名为DeepAcet的新预测器被开发来预测乙酰化位点。采用了一热BLOSUM62矩阵、k空间氨基酸对组合、信息增益、理化性质和表示修饰残基的位置特定评分矩阵等6种编码方案。利用多层感知器(ML

2020-11-20 21:35:10 941 1

weixin_45156147的博客