自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 BIB论文介绍(Briefings in Bioinformatics, Volume 22, Issue 6, November 2021)

生信期刊文章介绍—Briefings in Bioinformatics, Volume 22, Issue 6, November 2021

2021-12-31 19:51:46 2727

转载 python画图时常用的颜色——color=‘ ’

‘.’ point marker‘,’ pixel marker‘o’ circle marker‘v’ triangle_down marker‘^’ triangle_up marker‘<’ triangle_left marker‘>’ triangle_right marker‘1’ tri_down marker‘2’ tri_up marker‘3’

2021-07-13 19:07:13 19576

原创 PSSM文件进行批量重命名

在https://possum.erc.monash.edu/网站上获得蛋白质序列的PSSM,如图所示。(PSSM矩阵的两种生成方式可以查看:https://blog.csdn.net/xiaobai1_1/article/details/109630061)其中一条序列是一个PSSM文件,在进行后序处理时,我们平时需要将它重新命名,便于后续操作。如何将这么多PSSM文件进行批量重命名?这里我们以500个PSSM文件为例。1、首先新建一个excel表格,如图。第一列填充500个“ren”,第二列(B)

2021-04-11 15:54:24 538

原创 生信期刊推荐

1、 IEEE-ACM Transactions on Computational Biology and Bioinformatics 3.015中科院分区表3区,CCF B类期刊审稿速度:4.0经验分享:现在是ccf-b类期刊了。 期刊的高难度与其低影响因子成反比,,感觉好难中。审稿速度:6.0经验分享:交叉学科的刊,基于深度学习方面还是挺好发的。2、 Bioinformatics 5.610BIOINFORMATICS杂志属于生物行业,“计算机:跨学科应用”子行业的顶级杂志。 投稿

2021-01-13 15:37:21 15315

转载 机器学习--分类性能评价之Micro Average,Macro Average, Weighted Average

本篇博客主要是解释Micro Average,Macro Average,Weighted Average.这三者常用于多分类任务,他们的计算方法有细微的差别,因此在各自表示的含义和适用场景上也有细微的差别。https://www.cnblogs.com/laozhanghahaha/archive/2004/01/13/12499979.htmlmicro 使用场景:在计算公式中考虑到了每个类别的数量,所以适用于数据分布不平衡的情况;但同时因为考虑到数据的数量,所以在数据极度不平衡的情况下,数量较多数

2020-12-18 21:50:26 1257 1

原创 PSSM矩阵的两种生成方式

一、本地生成方式——PSSM矩阵的生成(ncbi-blast-2.9.0±win64)本地生成需要自己下载ncbi-blast,还要自己动手安装及环境变量的配置;然后还要自己进行数据库构建,而一般我们需要拿来比对的数据库都比较大,下载很浪费时间。具体操作方式可以参考以下文章:https://blog.csdn.net/xiaobai1_1/article/details/103224665二、POSSUM服务器服务器在线生成http://possum.erc.monash.edu/POSSUM服务

2020-11-11 20:50:50 5157 4

原创 Python比较两个文件是否相同,去掉重复内容写入到另一个文件

Python比较两个文件是否相同,并输出相同内容,去掉重复内容写入到另一个文件#!/usr/bin/env python# -*- coding:utf-8 -*-def file_same(): str1 = [] file1 = open("D:/lunwen//Multi classification/data/t1ss-t8ss/T5SS/t5ss04.fasta","r",encoding="utf-8") for line in file1.readlines()

2020-11-11 19:58:06 1735

转载 BILSTM详细介绍及代码实现

BILSTM原理介绍:https://blog.csdn.net/sinat_24330297/article/details/102487270BiLSTM介绍及代码实现:https://www.jiqizhixin.com/articles/2018-10-24-13BiLSTM-CRF Models for Sequence Tagging(翻译):https://www.jianshu.com/p/ab83fc7db07e详解BiLSTM及代码实现:https://zhuanlan.zhihu

2020-08-20 13:51:40 7008

原创 使用SVM对分泌效应蛋白数据集进行分类预测

1、SVM简介支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane 。在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法

2020-08-17 18:56:30 1262 13

原创 使用python处理fasta文件——将fasta文件转换为csv文件

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。CSV文件是最通用的一种文件格式,它可以非常容易地被导入各种PC表格及数据库中。 此文件

2020-07-14 12:20:18 4119 2

原创 使用python处理fasta文件——一个序列的多行表示变成单行表示

如下图所示,我们从网站上下载来的数据可能是这样的,但是我们使用它时可能需要ID一行,然后序列一行。一个序列的多行表示变成单行表示则需要这样处理:fr=open('data/dna-binding.fasta', 'r') #读文件fw=open('data/out.fasta', 'w') #写文件seq={}for line in fr: if line.startswith('>'): #判断字符串是否以‘>开始’ name=line.split

2020-07-14 09:26:59 2804 2

原创 论文阅读Construction of Refined Protein Interaction Network for Predicting Essential Proteins

论文:Construction of Refined Protein Interaction Network for Predicting Essential Proteins**TS-PIN:**本文提出了一种利用基因表达谱和亚细胞定位信息构建精蛋白的新方法。提炼PIN的基本思想是,如果两种蛋白质在同一亚细胞位置同时出现,并且至少在细胞周期的某个时间点同时活跃,那么它们在物理上相互作用的可能性应该更高。因此,在本研究中,提出了一种新的过滤假阳性的方法,假设两种蛋白质在同一亚细胞位置上,并

2020-06-26 18:36:22 260

原创 特征向量在线提取工具Pse-in-One 2.0

1、Pse-In-One 简单介绍机器学习分类算法方法主要依赖于根据蛋白质的结构以及功能特性构建的特征集合,通过构造具有辨别性的特征集合来达到令人满意的分类结果,但是使用一个能够反映序列模式信息并能够保持关键序列信息的离散模型或向量是一个困难的任务。通过特征提取工具帮助科研工作者进行特征提取,自动生成需要的特征将会带来很大的便捷。Pse-In-One 便是一种能够按照用户定义的特征生成特征向量的...

2019-12-22 14:23:48 3656 1

原创 DAVID 在线数据库进行 GO/ KEGG 富集分析

1、功能富集分析随着高通量技术的发展,生物医学相关研究领域进入了组学时代,单个基因的研究已经不能满足研究人员的需要。然而,如此庞大的数据使得信息的有效提取和分析带来了新的挑战。以测序数据为例,测序结果分析往往会得到差异表达的基因或蛋白列表。但将这一长串基因或蛋白与某个待研究的生物学现象及其潜在机制联系起来是很困难的。应对这一挑战的一种方法就是将一个基因或者蛋白列表分成多个部分,从而减少分析的复杂...

2019-12-18 17:24:35 45235 12

原创 CD-HIT去除冗余序列

1、简介CD-HIT是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析。2. 下载与安装Cd-hit下载网址为https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz,需要在linux系统(如果你的电脑是Windows的,可以装一个虚拟机,并安装Linux...

2019-12-16 09:51:16 8593 4

原创 RNA 二级结构预测方法

1 比较序列分析方法比较序列分析方法,其工作原理其实比较简单,它以 RNA 序列中互补碱基间的共变联配(英文名称为 covariant-alignment)活动为基础;以已知的 RNA 序列的数据为依据标准,以查找被测算 RNA 序列中的高近似度序列为手段;以一定的相关数学模型为依托,共同研究推算所给 RNA 序列的二级结构。同时,更好地运用序列对比分析的方法,要注意一条重要的原则,就是对比查找...

2019-12-13 16:30:42 19518 1

原创 RNA 的二级结构

核糖核酸 RNA (Ribonucleic acid) 是细胞结构的生物体遗传信息发挥作用的中间载体,从而在生命研究和应用中具有重要意义。RNA 的功能与其结构密切相关,许多功能的实现都需要借助其结构的改变来实现。1、RNA 物理结构核糖核酸(RNA,Ribonucleic Acid),一种在真核生物的细胞核、细胞质、线粒体以及病毒中发现的遗传信息载体,在遗传、调控和基因表达等过程中发挥着重要...

2019-12-11 17:02:26 38359 6

原创 GEO数据挖掘构建基因表达矩阵

1、GEO数据库介绍GEO全称GENE EXPRESSION OMNIBUS,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。创建于2000年,收录世界各国研究机构提交的高通量基因表达数据。GEO上有四类数据GSM, GSE, GDS, GPL1.GSM是单个样本的实验数据2.GDS是人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的3.GSE是一个...

2019-12-04 20:35:31 21220 14

原创 GEO数据库的使用(一)

1、GEO数据库介绍GEO全称GENE EXPRESSION OMNIBUS,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。创建于2000年,收录世界各国研究机构提交的高通量基因表达数据。GEO上有四类数据GSM, GSE, GDS, GPL1.GSM是单个样本的实验数据2.GDS是人工整理好的关于某个话题的GSM的集合,一个GDS中的GSM的平台是一样的3.GSE是一个...

2019-12-04 19:25:32 32876 3

原创 维基百科数据导入mysql数据库并进行检索操作

这篇文章是我前面一篇文章的后续(https://blog.csdn.net/xiaobai1_1/article/details/103261272)前面一篇文章已经把从维基百科下载的xml格式的数据转换成了json格式的文件。这里我们就用转换好的json文件开始下面的工作:1、mysql数据库连接import pymysqldef prem(db): cursor = db.curs...

2019-12-03 18:54:31 2283

原创 蛋白质亚细胞定位——NCBI+ WoLF PSORT

1、什么是亚细胞细胞可以分成多个细胞器或者细胞区域,如细胞膜、细胞质、细胞核、线粒体、高尔基体、叶绿体、内质网等,这些细胞器被称为“亚细胞”。蛋白质亚细胞位置示意图如下:2、蛋白质亚细胞定位把确定某种蛋白质或表达产物应在的亚细胞位置的过程称为“蛋白质亚细胞定位(Protein Subcellular Localization,PSL)...

2019-12-02 23:35:52 41671 2

原创 String+CytoScape构建PPI网络

1.下载CytoScapeCytoscape是一款专业强大好用的物生信息分析软件,主要达用于专业的研究人员使用,软件主要适用于整合模块化网络和生物科学联系网络图的绘制,支持多种文件格式,导入后就可以直接进行编辑或者分析等操作了,除此之外,软件还提供了强大的编辑工具,支持添加相应的注释信息,软件基于java环境组件打造。下载地址:https://cytoscape.org/因为软件基于java...

2019-11-30 22:10:34 17958

原创 维基百科数据xml格式转换为json格式

本文是在你已经安装了Python的前提下进行的1、数据下载在网站https://dumps.wikimedia.org/zhwiki/latest/中对自己所需要的数据进行下载,我下载的是zhwiki-latest-pages-articles.xml.bz2这里简单了解一下这几个文件(在网上都能找到的)2、转换为json为什么要转换为json呢?json在xml的基础上,去掉了标签,...

2019-11-26 18:33:31 1986 2

原创 PSSM矩阵的生成(ncbi-blast-2.9.0+-win64)

PSSM矩阵的生成(ncbi-blast-2.9.0±win64)参考链接:https://blog.csdn.net/sxz940613/article/details/97102046https://blog.csdn.net/sxz940613/article/details/83993804https://blog.csdn.net/cpc784221489/article/deta...

2019-11-24 15:32:19 3076 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除