自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bioprogrammer

九层之台,起于累土;千里之行,始于足下。

  • 博客(51)
  • 收藏
  • 关注

原创 ggplot扩展包--gghalves

gghalves包描述这里主要介绍这个包中的geom_half_violin()函数,它相当于geom_violin()函数的变体,因为这个函数主要作用就是展示一半的小提琴图,然后与其他图形组合。实用geom_half_violin(mapping = NULL, data = NULL, stat = "half_ydensity", position = "dodge", ..., side = "l", nudge = 0, draw_quantiles = NULL, trim =

2020-07-22 14:21:47 2575

原创 ESTIMATE包计算肿瘤纯度

介绍肿瘤组织中的正常细胞不仅在分子研究中影响肿瘤信号,而且在癌症生物学中也起着重要作用。 估计包使用基因表达数据预测肿瘤组织中基质细胞和免疫细胞的存在。示例首先使用通过Affymetrix U133Plus2.0平台从10个卵巢癌样本中获得的数据。 它具有由17,256个基因(行)和10个样本(列)组成的基因水平表达数据。 其次,将每个微阵列平台的不同基因数量统一为10,412个共同基因。 这...

2019-11-05 16:47:24 12330 15

原创 R-数据科学(九):函数与控制

自定义函数语法:myfunction <- function(arg1, arg2, ... ){ statements return(object) }参数解释:参数解释myfunction自定义函数名称arg1, arg2, ...自定义参数arg1,arg2…statements语句return()返回输出结果示...

2019-10-29 15:35:54 583

原创 R-数据科学(八):矩阵

本文中关于矩阵的内容仅限于R中数据结构,并不涉及线性代数里面的概念。在R的数据结构中,矩阵就是折叠的向量,所以对于数值型向量的运算也可以用在矩阵上。矩阵的本质在介绍矩阵的运算前,我们得明白一个概念循环补齐,这对我们认识矩阵的本质有很大帮助,所谓循环补齐,就是当长度呈倍数关系的两个向量进行运算时,R会自动按照较长的向量的长度,将较短的向量重复,直到和较长的向量等长。循环补齐示例:vec...

2019-10-28 20:29:59 407

原创 R-数据科学(七):字符串处理与正则表达式

文章目录1 字符串基础2 正则表达式实现模式匹配2.1 基础匹配2.2 锚点2.3 字符类和字符选项2.4 重复2.5 分组与回溯引用3 工具3.1 匹配检测3.2 提取匹配内容3.3 替换匹配内容3.4 定位3.5 其他操作4 正则表达式总结参考资料之前在向量中已经介绍了字符型向量的操作,但是由于基础函数使用方法不一致,一段时间不用就容易会忘记,那么有没有一个包既可以包含这些基础函数,并且操作...

2019-10-28 14:24:22 1147

原创 R-数据科学(六):数据框-表格重塑

R语言中数据框的操作除了单表操作、双表操作以外,还有一个非常重要的操作是表格重塑,它的作用更为实际,因为在我们处理真实数据的时候,往往需要通过重塑表格来对收集到的数据集进行一个预处理。数据集的预处理主要分为两类:整体预处理:长型数据集变为宽型数据集,或者宽型数据集变为长型数据集。列预处理:一列中每个单元格分为多列,一列中的每个单元格分为多行,合并多个列中的单元格以形成单列。在R中可以使...

2019-10-27 15:12:01 676

原创 FPKM、TPM数据标准化

FPKM定义: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的片段数)公式:FPKMi=Xi(li103)(N106)=XiliN⋅109FPKM_i = \frac{X_i}{(\frac{l_i}{10^3})(\frac{N}{10^6})}=\frac{X_i}{l...

2019-10-25 23:32:50 23395 3

原创 R-数据科学(五):数据框-双表操作

文章目录1 rbind()、cbind()函数合并数据集2 dplyr包组合数据集2.1 按行组合2.2 按列组合在我们分析数据过程中,不仅仅是处理一个数据集,也会组合两个数据集,这时候就可以用dplyr包进行相关的操作,当然这些操作也可以分为两大类:按行组合和按列组合。在使用dplyr包之前,我想先介绍R中两个基础函数rbind()函数和cbind函数。这两个函数只能满足简单的需求,主要是...

2019-10-23 20:53:00 640

原创 R-数据科学(四):数据框-单表操作

通常我们将EXCLE表格或者分隔符分割的文本文件导入R中进行处理,这些数据在R语言称为数据框也可以叫做数据集,数据框中的行、列也分别称为观测和变量。应用于数据框的函数和R包有很多,目前对数据框处理速度比较快的两个R包是鼎鼎大名的dplyr包和tidyr包,这两个包最主要的三个作用分别是:单个数据框的操作两个数据框的操作数据框的重塑接下来我将通过三篇文章分别介绍这三类操作、首先介绍的是...

2019-10-22 20:25:27 2306

原创 R-数据科学(三):向量

之前我在R-基础(一):数据结构中初步介绍了向量的定义和类型以及对于向量的简单操作,如向量中的元素选取等,但是还有许多常用且相对复杂的操作并未提及,这篇文章的目就是详细的介绍我在学习过程中遇到的所有关于向量的操作。1 向量的创建创建空向量c()## NULL创建字符型向量color = c('blue','yellow','red')names(color) = c('col1','...

2019-10-22 09:32:09 629

原创 R-数据科学(二):目录和文件

R语言可以对目录和文件进行一些简单的操作,比如常见的增删改查,文件的读取,文件的写入,对文件进行解压等。1 目录和文件增删改查函数作用操作对象getwd()查看当前工作目录目录setwd()设置当前工作目录目录dir.create()创建目录目录list.dir()列出目录下所有内容目录unlink(“tmp”,recursive=...

2019-10-17 10:20:55 690

原创 R-数据科学(一):数据结构

R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。下图是一张R语言数据结构图。向量定义:用于存储数值型、字符型或逻辑型数据的一维数组。向量中的元素类型必须全为数值型或者字符型或者逻辑型。向量中的单个元素称为标量,属于特殊的向量。向量是R语言中最基础,也是最重要的...

2019-10-16 20:37:39 1067

原创 WGCNA:(加权共表达网络分析)

文章目录1 介绍2 名词解释Co-expression networkModuleConnectivityIntramodular connectivity $k_{IM}$Module eigengene EEigengene significanceModule Membership $k_{ME}$Hub geneGene significance GSModule significance3 流...

2019-10-09 22:43:28 30580 12

原创 统计学(六):置换检验

文章目录置换检验传统参数检验置换检验t 检验和置换检验的联系与区别置换检验使用场景参考文献置换检验置换检验,也称随机化检验或重随机化检验,以一个实例去理解置换检验。有两种处理条件的实验,十个受试者已经被 随机分配到其中一种条件(A或B)中,相应的结果变量(score)被记录在以下表格:A处理B处理40575764455555625865...

2019-09-27 11:09:41 18855

原创 生存分析

1 KM法计算生存率——非参数模型2 log-rank秩检验比较不同组的生存率2.1 输入数据2.2 建立假设2.3 log-rank秩精确性检验1 KM法计算生存率——非参数模型乘积极限法适用于离散数据,它用于建立时刻 ttt 上的生存函数,根据 ttt 时刻之前的所有时期的生存概率的乘积,来估计时刻 ttt 的生存函数 S(t)S(t)S(t)和它的标准误 SE(S(t))SE(S(t)...

2019-09-17 21:08:26 4105 1

原创 TCGA数据库

1 TCGA Code Table1.1 Data LevelsLevel NumberDefinition1Raw data2Normalized data3Aggregated data4Regions of Interest data0No Level1.2 Portion / Analyte CodesCodeDe...

2019-09-03 20:55:30 9980 1

原创 生信文献阅读1

文章目录1 METHODS1.1 Patients and Study Design1.2 Prognostic Signature1.3 Statistical Analysis2 RESULTS2.1 Prognostic Signature Generation2.2 8-Gene Prognostic Signature Validation2.3 The 8-Gene Prognost...

2019-08-25 23:06:27 2976

原创 typora使用手册 一

文章目录1 公式使用参考1.1 插入公式和编号1.2 输入上/下标1.3 输入括号和分隔符1.4 输入分数1.5 输入开方1.6 输入省略号1.7 输入矢量1.8 输入积分1.9 输入极限运算1.10 输入累加累乘运算1.11 输入希腊字母1.12 输入其他特殊字符1.12.1 关系运算符1.12.2 集合运算1.12.3 对数运算1.12.4 三角运算1.12.5 微积分运算符1.12.6 逻辑...

2019-08-24 17:57:48 5068

原创 2018年SCI论文--整合GEO数据挖掘完整复现 八 :STRING数据库构建蛋白质相互作用网络(PPI),cytoscape软件筛选hub基因

文章目录论文地址STRING数据库PPI网络构建输入差异基因listPPI图保存结果cytoscape软件筛选hub基因、功能模块输入“string_interactions”文件用cytohHubba插件,筛选top10 Hub基因用MCODE插件,筛选功能模块论文地址STRING数据库PPI网络构建输入差异基因list进入网页,左侧选择“Multiple proteins”,输入所有...

2019-08-18 20:20:30 33006 2

原创 2018年SCI论文--整合GEO数据挖掘完整复现 七 :DAVID在线工具进行KEGG富集分析

文章目录论文地址DAVID官网获得KEGG富集分析结果气泡图cytoscape软件绘制代谢通路网络图network datatable data论文地址DAVID官网KEGG富集分析和GO富集分析方法一致,具体步骤见我上篇文章DAVID在线工具进行GO富集分析,这里主要展示可视化结果获得KEGG富集分析结果1.输入文件为所有差异表达基因列表2.选择GO富集分析结果时,我们点击“Path...

2019-08-18 17:21:21 14725 4

原创 2018年SCI论文--整合GEO数据挖掘完整复现 六 :DAVID在线工具进行GO富集分析

文章目录论文地址DAVID官网上调基因GO富集分析进入官网,点击“Function Annotation”选项富集分析选择背景基因选择GO富集分析结果下载富集分析结果保存文件,作为后续可视化的输入文件可视化富集分析结果bp,cc,mf分别提取counts数前5的term条形图圈圈图论文地址DAVID官网上调基因GO富集分析进入官网,点击“Function Annotation”选项富集...

2019-08-18 16:38:50 14773 11

原创 2018年SCI论文--整合GEO数据挖掘完整复现 五 :RobustRankAggreg(RRA)整合四个GSE数据集的差异基因,筛选共同差异基因

文章目录论文地址四个GSE数据集差异表达基因(按logFC值排序)并为一个list,正序倒序各一个list所有差异基因在四个GSE数据集中logFC矩阵筛选共同上调基因筛选共同下调基因合并共同上下调基因logFC.tiff论文地址四个GSE数据集差异表达基因(按logFC值排序)并为一个list,正序倒序各一个listsetwd("./2.RobustRankAggreg_analysis"...

2019-08-18 15:46:40 21654 41

原创 芯片数据标准化

2019-08-18 13:50:10 2988

原创 2018年SCI论文--整合GEO数据挖掘完整复现 四 :差异表达(GSE65635)

文章目录论文地址GSE65635数据下载到表达矩阵GSE65635数据下载getGEO包下载的探针注释文件不全,需要在GEO网站下载筛选探针分位数标准化预处理分组log2数据转换差异表达表达矩阵分组矩阵差异表达矩阵按照logFC排序保存差异表达矩阵火山图热图,按p值从小到大筛选前100个差异基因(logFC > 1)论文地址GSE65635数据下载到表达矩阵GSE65635数据下载l...

2019-08-18 13:22:56 7120 4

原创 2018年SCI论文--整合GEO数据挖掘完整复现 三 :差异表达(GSE37815)

文章目录论文地址GSE37815数据下载到表达矩阵GSE37815数据下载getGEO包下载的探针注释文件不全,需要在GEO网站下载筛选探针分位数标准化预处理分组差异表达表达矩阵分组矩阵差异表达矩阵按照logFC排序保存差异表达矩阵火山图热图论文地址GSE37815数据下载到表达矩阵GSE37815数据下载library(GEOquery) gset = getGEO('GSE3781...

2019-08-18 13:10:09 8736 2

原创 2018年SCI论文--整合GEO数据挖掘完整复现 二 :差异表达(GSE13507)

文章目录论文地址GSE13507数据下载到表达矩阵GSE13507数据下载getGEO包下载的探针注释文件不全,需要在GEO网站下载筛选探针分位数标准化预处理分组差异表达表达矩阵分组矩阵差异表达矩阵按照logFC排序保存差异表达矩阵火山图热图论文地址GSE13507数据下载到表达矩阵GSE13507数据下载library(GEOquery) gset = getGEO('GSE1350...

2019-08-18 12:56:24 8280 9

原创 2018年SCI论文--整合GEO数据挖掘完整复现 一 :差异表达(GSE7476)

文章目录论文地址GSE7476GSE7476数据下载到表达矩阵GSE7476数据下载getGEO包下载的探针注释文件不全,需要在GEO网站下载筛选探针分位数标准化预处理分组差异表达表达矩阵分组矩阵差异表达矩阵按照logFC排序保存差异表达矩阵火山图热图,按p值从小到大筛选前100个差异基因(logFC > 1)论文地址GSE7476GSE7476数据下载到表达矩阵GSE7476数据下...

2019-08-18 11:35:37 15415 16

原创 复现一篇生信文章有多难,到处都是坑。。。

今天本来打算复现一篇去年发表在 OncoTargets and Therapy GEO数据库整合挖掘的论文,这个杂志素来以灌输闻名,“水的”已经不是SCI了,但是影响因子还是3左右,按理说文章质量应该尚可,而且这又是一篇纯数据挖掘的文章,所以我就去打开了我的Rstudio,开始数据分析,在做到差异表达分析的时候被作者的操作惊到了,到底怎么回事呢,首先我们看看文献中怎么说的,作者首先分析了GDS35...

2019-08-11 13:21:45 13619 10

原创 GEO数据库介绍

本博客内容将同步更新到个人微信公众号:生信玩家。欢迎大家关注~~~

2019-08-10 18:28:27 12853 2

原创 Construction and Validation of a 9-Gene Signature for PredictingPrognosis in Stage III Clear CellRen

目的建立一个多基因信号,以帮助更好地对III期肾细胞癌(RCC)患者的预后进行预测。方法从GEO数据库中下载GSE53757数据集,包括14对癌症和正常组织的表达数据,从TCGA数据库中下载16对mRNA表达谱数据(下载的是RNA-seq测序数据,需要提取mRNA数据)差异表达分析,对共同差异表达基因进行进一步分析。对TCGA中选择肾癌Ⅲ期病例(N=122)进性lasso回归,筛选...

2019-08-06 18:00:05 317

原创 edgeR、limma、DESeq2三种差异表达包比较(RNA-seq数据)

1. 加载R包和输入数据rm(list = ls())library("DESeq2")library("limma")library("edgeR")expr = read.csv("mRNA_exprSet.csv",sep = ',',header=T) head(expr)TCGA-mRNA数据链接链接:https://pan.baidu.com/s/1b6l4qg4...

2019-08-01 18:22:03 30883 22

原创 TCGA数据挖掘--神经胶质瘤(GBM)差异mRNA分析

1.TCGA-GBM数据数据{ library(TCGAbiolinks) library(SummarizedExperiment) query <- GDCquery(project = 'TCGA-GBM', data.category = "Transcriptome Profiling", ...

2019-07-29 02:04:41 16359 54

原创 R-可视化(九):简单热图

创建数据test = scale(mtcars[,3:7])绘制热图pheatmap(test)修改颜色pheatmap(test, color = colorRampPalette(c("#00AFBB", "#FC4E07", "#E7B800"))(50))取消行列聚类pheatmap(test, cluster_row = FALSE, cluste...

2019-07-19 15:27:58 1736 2

原创 R-可视化(八):韦恩图

生成随机数据A <- sample(1:1000, 400, replace = F )B <- sample(1:1000, 600, replace = F )C <- sample(1:1000, 350, replace = F )D <- sample(1:1000, 550, replace = F )E <- sample(1:1000, ...

2019-07-16 09:58:30 9995 5

原创 R-可视化(七):密度图、箱线图、小提琴图

1.密度图library(ggpubr)df <- ToothGrowthdf$dose <- as.factor(df$dose)p <- ggdensity(df, x = "len", fill = "dose", palette = "jco", ggtheme = ...

2019-07-15 21:46:06 4604

原创 多元统计学(二):线性回归分析

1.多元线性回归states <- as.data.frame(state.x77[,c("Murder", "Population","Illiteracy", "Income", "Frost")])fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states)summary(fit)c...

2019-07-15 14:51:55 1656

原创 多元统计学(一):主成分分析(PCA)

PCA主成分计算library(FactoMineR)library(factoextra)iris.pca <- PCA(iris[,-5], graph = FALSE)iris.pca$var$cor # 因子载荷:变量和主成分的相关系数iris.pca$var$cos2 # 变量和主成分的相关系数的平方(因子载荷的平方)iris.pca$var$contrib #每...

2019-07-13 16:25:03 4730 4

原创 R-可视化(六):折线图

x = 1:10df = data.frame(x = x,y1 = x,y2 = x^2, y3 = 2*x,y4 = log2(x))ggline(df,x = 'x',y = c('y1','y2','y3','y4'), merge = T, palette = 'jco')

2019-07-06 23:43:03 535

原创 R-可视化(五):饼图/圆环图

# 准备数据df <- data.frame( group = c("Male", "Female", "Child"), value = c(10, 20, 30))基本图片ggpie(df, "value", label = "group", # 标签 fill = "group", ...

2019-07-06 21:24:47 12072 2

原创 R-可视化(三):散点图

1.基本图形library(ggpubr)ggscatter(mtcars, x = "wt", y = "mpg", ggtheme = theme_bw())2.添加点的标签分组添加点的标签mtcars$name <- rownames(mtcars)ggscatter(mtcars, x = "wt", y = "mpg", ...

2019-07-06 17:06:14 9277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除