转录组
文章平均质量分 92
生信修炼手册
这个作者很懒,什么都没留下…
展开
-
揭秘差异基因功能富集分析
通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。为了探究上述问题,我们首先需要知道基因参与的生物学过程,这个依赖于我们对生命活动的已有认知,比如常见的KEGG数据库,就存储了基因对应的通路信息。其次,我们还需要一点统计学手段,差异基因的数目是成百上千的,每个基因又参与多...原创 2018-11-01 14:26:34 · 19633 阅读 · 0 评论 -
使用Cytoscape的NetworkAnalyzer工具计算网络相关属性
欢迎关注微信公众号《生信修炼手册》!在之前的文章中,介绍过igraph工具,可以通过编程处理网络数据,该工具使用与大规模,大批量数据的处理。如果只是偶尔需要分析下网络数据,采用cytoscape这种图形界面工具更加的简单便捷。cytoscape相信很多人都用过,通常都是用来进行网络的可视化,对于分析网络的基本拓扑属性,比如计算clustering coefficient值等,在cytoscap...原创 2018-11-07 09:23:34 · 18523 阅读 · 2 评论 -
通过NetworkAnalyst在线服务构建PPI网络
欢迎关注微信公众号《生信修炼手册》!NetworkAnalyst是一个在线网站,通过该网站可以方便的分析基因表达谱数据,比如聚类,差异分析,富集分析等等,而且可以基于基因来构建各种相互作用网络,该网站的地址如下http://www.networkanalyst.ca/faces/home.xhtml输入数据可以是基因或者蛋白的列表,也可以是基因在所有样本中表达量的表格。对于表达量数据,支...原创 2018-11-07 09:24:04 · 6583 阅读 · 0 评论 -
使用topGO进行GO富集分析
topGO是一个专门用于做GO富集分析的R包,它默认从GO.db中读取GO的分类和结构信息,结合富集分析的结果,它可以画出如下所示的GO有向无环图除了GO富集结果可视化这一特点,topGO还提供了多种富集分析的统计方法,示意如下甚至支持自定义统计算法和模型,当然,常规情况下我们使用经典的费舍尔精确检验就可以了。topGO的核心是构建一个topGOdata类型的对象,需要以下3种元素基...原创 2018-11-05 09:51:50 · 13377 阅读 · 1 评论 -
详解GO的层级关系在富集分析中的应用
欢迎关注微信公众号《生信修炼手册》!对于Gene ontology 而言,目前共有2万多个Go trems。 做完富集分析后,我们可能会得到几百甚至几千个富集到的GO terms, 这样的一个数据量对于人工一个个检索而言,仍然是一个艰巨的任务。为了有效的利用GO富集分析的结果,我们势必需要对结果再次进行过滤。所有GO的层次结构关系如下图所示这样的结构我们称之为有向无环图DAG, 虽然在图这...原创 2018-11-05 09:58:29 · 13948 阅读 · 0 评论 -
使用clusterProfiler进行GO富集分析
欢迎关注微信公众号《生信修炼手册》!clusterProfiler是一个功能强大的R包,同时支持GO和KEGG的富集分析,而且可视化功能非常的优秀,本章主要介绍利用这个R包来进行Gene Ontology的富集分析。进行GO分析时,需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包,包含了这些物种的GO注释信息pac...原创 2018-11-05 10:06:43 · 60149 阅读 · 6 评论 -
使用clusterProfiler进行KEGG富集分析
欢迎关注微信公众号《生信修炼手册》!KEGG pathway是最常用的功能注释数据库之一,可以利用KEGG 的API获取一个物种所有基因对应的pathway注释,human对应的API 链接如下http://rest.kegg.jp/link/hsa/pathway通过该链接可以获得以下内容path:hsa00010 hsa:10327path:hsa00010 hsa:124pa...原创 2018-11-05 10:14:32 · 61192 阅读 · 6 评论 -
MSigDB:基因集数据库
欢迎关注微信公众号《生信修炼手册》!Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigdb。本章主要介绍这个数据库,官网如下http://software.broadinstitute.org/gsea/msigdb/...原创 2018-11-05 10:21:30 · 18796 阅读 · 0 评论 -
GSEA软件使用方法简介
欢迎关注微信公众号《生信修炼手册》!Gene Set Enrichment Analysis是一种富集算法,由Broad Institute研究所的科学家提出,算法核心示意如下需要两个输入元素,一个就是排序好的基因列表,这里的排序的规则是展现两组间的差异,比如按照Foldchange的值进行排序,第二个就是基因的注释集合,然后运行KS检验计算Enrichment Score(ES),用置换检...原创 2018-11-05 10:42:13 · 5836 阅读 · 0 评论 -
GSEA分析结果详细解读
欢迎关注微信公众号《生信修炼手册》!在解读传统的富集分析结果时,经常会有这样的疑问,一个富集到的通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样呢,是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?在这里我说下自己的观点,在传统的富集分析时,我们只需要一个差异基因的列表,根本不关心这个差异基因究竟是上调还是下调。这是...原创 2018-11-05 10:49:41 · 117677 阅读 · 0 评论 -
关于GSEA的几点补充说明
欢迎关注微信公众号《生信修炼手册》!之前的文章中介绍了GSEA软件的使用和结果解读,但是有几点漏掉了,在本文中补充一下。首先是Leading Edge对应的3个统计量,示例如下在富集结果的表格中,最后一列为LEADING EDGE, 在这一栏中,包含以下3个统计量tagslistsignal对于一个基因集而言,定义其中对Enrichment score贡献最大的基因为核心基因,...原创 2018-11-05 10:58:04 · 6424 阅读 · 2 评论 -
加权基因共表达网络,其实并没有那么神秘
欢迎关注微信公众号《生信修炼手册》!WGCNA是目前非常火热的一项研究内容,其全称为weighted correlation network analysis, 直译就是加权基因相关性网络分析。通过这项分析,可以鉴定共表达的基因集合,这样的集合称之为modules, 而且可以将modules与表型数据进行关联分析,挖掘潜在的mark 基因。这个高大上的分析内容的第一步就是构建基因之间的共表达...原创 2018-11-05 11:06:53 · 7398 阅读 · 0 评论 -
采用igraph包分析网络数据
欢迎关注微信公众号《生信修炼手册》!对于网络的可视化和数据挖掘,有很多图形界面的软件可供选择,比如cytoscape, gephi 等等,这些软件使用方便,操作简单,功能的强大,但是同时也有着一个缺点,就是无法自动处理,只能通过人工点击鼠标来操作,对于大批量数据的分析而言,依靠人工费事费力。为了能够自动化编程处理,有很多的程序被开发出来,专门用于网络数据的可视化和分析,igraph就是其中的佼...原创 2018-11-07 09:23:09 · 10463 阅读 · 1 评论 -
PPI网络实战:String加CytoScape联手挖掘PPI网络
欢迎关注微信公众号《生信修炼手册》!在之前的文章中,我们提到利用网络聚类算法可以从复杂的蛋白质网络中挖掘蛋白复合体或者相应的功能模块,其中MCODE算法是最常用的挖掘蛋白复合体的算法。MCODE全称molecular complex detection, 是最广泛使用的挖掘蛋白复合体的算法之一,在cytoscape 软件中提供了一个MCODE插件,可以方便的对网络进行聚类。cytoscape...原创 2018-11-07 09:22:38 · 14853 阅读 · 0 评论 -
详解如何获取物种所有基因对应的GO注释
欢迎关注微信公众号《生信修炼手册》!Gene Ontology是研究基因功能的重要数据库之一,在进行GO的富集分析时,需要提供所有基因对应的GO注释信息,本文介绍几种获取该信息的方式1. 从GO官网进行下载官网提供了几种常见物种对应的GO注释信息,文件格式为GAF, 下载链接为http://www.geneontology.org/page/download-go-annotations...原创 2018-11-02 14:28:55 · 20213 阅读 · 3 评论 -
WGCNA将共表达基因与表型数据相关联
欢迎关注微信公众号《生信修炼手册》!单纯的共表达基因集合的结果并不能与我们的实验设计相关联,对于识别到的几十个共表达基因集合,一一进行富集分析去挖掘其功能,看上去如此的盲目,没有目的性,所以我们需要对共表达基因集进一步挖掘,常规的做法就是分析其中与性状相关的共表达基因,然后针对这些基因通过富集分析来研究其功能。在WGCNA中,有两种常见的关联表型与共表达基因的方法1. 相关性分析这种方法要...原创 2018-11-06 09:04:11 · 10498 阅读 · 0 评论 -
WGCNA如何从module中挖掘关键基因
欢迎关注微信公众号《生信修炼手册》!识别到与表型数据相关的modules之后,还可以在该modules中进一步筛选基因,为了方便筛选,对于每个基因定义了以下三个统计量1. connectivity连接度,在之前的文章中,简单提过这个概念,类似于网络中节点的degree的概念,只不过在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的连接度定...原创 2018-11-06 09:04:58 · 13727 阅读 · 6 评论 -
WGCNA实战练习
欢迎关注微信公众号《生信修炼手册》!本文采用WGCNA官网的Tutirial 1的数据,对加权基因共表达网络分析和后续的数据挖掘的具体操作进行梳理整个分析流程可以分为以下几个步骤1. 数据预处理这部分内容包括以下4个部分读取基因表达量数据对样本和基因进行过滤读取样本表型数据可视化样本聚类树和表型数据官方的示例数据是一个小鼠的芯片表达谱数据,包含了135个雌性小鼠的数据,在提...原创 2018-11-06 09:05:28 · 11227 阅读 · 2 评论 -
使用FusionMap检测融合基因
欢迎关注微信公众号《生信修炼手册》!融合基因是指两个或者多个基因联合起来,共同转录形成一个转录本,融合基因可以作为某些疾病的特异分子标记,常见的有以下几种bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;PML/RARα融合基因是急性早幼粒细胞白血病...原创 2018-11-06 09:06:10 · 5796 阅读 · 2 评论 -
STRING:蛋白质相互作用(PPI网络)数据库简介
欢迎关注微信公众号《生信修炼手册》!研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,目前已经有很多的蛋白质相互作用的数据库,而string绝对是其中覆盖的物种最多,相互作用信息做大的一个,网址如下https://string-db.org/该数据库的最新版本为version 10.5, 更新于2017年5月14号,存储了2031个物种,9643763种蛋白,共1380838440个...原创 2018-11-06 09:06:51 · 67375 阅读 · 5 评论 -
MINT:蛋白质相互作用数据库简介
欢迎关注微信公众号《生信修炼手册》!MINT, 全称molecular interaction Database, 是一个蛋白质相互作用的数据库,该数据库中的蛋白相互作用都是由专家审核过的有实验证据支持的,目前该数据库涵盖了607个物种,共117001个蛋白相互作用关系。网址如下https://mint.bio.uniroma2.it/目前该数据库中的数据已经集成到intact这个数据库...原创 2018-11-06 09:07:26 · 5226 阅读 · 0 评论 -
IMex和IntAct数据库简介
欢迎关注微信公众号《生信修炼手册》!蛋白质相互作用的数据库非常的多,比如DIP, MINT, IntAct, BioGRID等,不同数据库中的信息存在了大量的冗余,而且在不同数据库之间进行检索也非常的费力,为了减少不同数据库的冗余,最大化提升数据存储和检索的效率,由多个数据库的开发团队和维护者共同参与成立了一个委员会,名字叫做international molecular exchange co...原创 2018-11-06 09:08:05 · 2739 阅读 · 0 评论 -
HPRD:human专属的PPI数据库
欢迎关注微信公众号《生信修炼手册》!HPRD全称Human Protein Reference Database, 是一个专门存储人类蛋白质相互作用信息的数据库,和其他同类数据库相比,该数据库中存储的蛋白质互作信息都是经过实验验证的,而且数量上有明显优势。该数据的网址如下http://hprd.org/index_html在文献中,对HPRD和其他数据库进行了比较,结果如下图片A表示...原创 2018-11-06 09:08:31 · 6171 阅读 · 6 评论 -
BioGRID:蛋白质相互作用数据库
欢迎关注微信公众号《生信修炼手册》!BioGRID数据库是一个老牌经典的蛋白质相互作用数据库,在今年9月份刚刚分布了最新版本3.5.165,该版本从66,164篇文献中整理出了1,607,037个蛋白质相互作用,28,093个嵌合体信息以及726,378个转录后修饰PTM信息,涵盖了多个物种,官网地址如下https://thebiogrid.org/通过官网的检索功能,可以根据基因或者...原创 2018-11-06 09:08:59 · 18089 阅读 · 1 评论 -
如何根据PPI网络进一步挖掘信息
欢迎关注微信公众号《生信修炼手册》!从数据库中得到蛋白质的相互作用信息之后,我们可以构建蛋白质间的相互作用网络,但是这个网络是非常复杂的,节点和连线的个数很多,如果从整体上看,很难挖掘出任何有生物学价值的信息,所以我们需要借助一些算法来深入挖掘。随着各个数据库中信息通量的不断提高,基于网络的分析方法越来越受欢迎,比如我们常见的蛋白质相互网络,基因共表达网络,转录因子调控网络,pathway网络...原创 2018-11-06 09:09:19 · 13098 阅读 · 0 评论 -
GO.db:存储Gene Ontology信息的R包
欢迎关注微信公众号《生信修炼手册》!在生信分析领域,R语言由于其简单易用的特点和良好的生态环境,占用重要的一席之地。其中,Bioconductor作为生信分析专用的R语言社区,提供了许多的R包。software类型的R包用于执行某项具体的分析内容,比如edgeR, DESeq2等,AnnotationData类型的包在R中存储了对应的数据库,比如GO.db等,ExperimentData类型...原创 2018-11-02 10:48:32 · 2498 阅读 · 0 评论 -
WGCNA如何挖掘潜在的共表达基因
欢迎关注微信公众号《生信修炼手册》!共表达基因指的是表达量具有协同变化趋势的基因集合,通常认为这些基因参与相同的生物学过程,比如参与同一个代谢通路,正是由于功能上的协同作用,导致表达量呈现出高度相关性。在WGCNA中,对传统的相关系数进行乘方运算,用最终得到的值来表征基因间的相关性。在计算出这样的相关性统计量值之后,如何确定哪些基因是共表达的呢?WGCNA的做法是聚类分析,聚类分析属于一种非...原创 2018-11-05 11:34:37 · 6857 阅读 · 0 评论