自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 Lasso交叉验证构建模型并计算各样本评分

代码】Lasso交叉验证构建模型并计算各样本评分。

2022-08-15 00:59:32 3567 4

原创 批量做Log-rank检验

代码】批量做Log-rank检验。

2022-08-15 00:23:56 823 1

原创 批量进行COX回归

代码】批量进行COX回归。

2022-08-15 00:04:31 1641

原创 使用enricher()函数进行自定义通路富集分析

就可以对任意自定义通路数据集进行富集分析,如对。

2022-08-09 00:20:07 6494

原创 GO、KEGG、GSEA分析

GO、KEGG、GSEA分析。

2022-08-07 13:53:49 1331

原创 ICGC数据库

ICGC囊括了TCGA、TARGET等数据库中的相关数据。exp_seq.PRAD-US.tsv.gz:测序数据。donor.PRAD-US.tsv.gz:临床数据。

2022-08-06 13:35:39 4367

原创 构建KEGG pathway、Entrez ID、Ensemble ID的对应关系

构建KEGG pathway和Entrez ID的对应关系。

2022-08-06 08:51:07 2025 1

原创 KEGG数据库

目录一、介绍在进行生物学实验或者生物信息的学习中,都会听说 KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。这种分析方法依托的是由 Kanehisa实验室 在1995年开发的KEGG数据库…KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个整合了基因组、化学等信息的综合性数据库。KEGG拥有多个子数据库,包含通路、基因组、生化反应、生化物质、疾病与药物等。一文快速读懂 KEGG 数据库与通路图 - 知乎。...

2022-08-05 19:36:52 2540

原创 常见4种基因ID如何区别?如何转换?

常用的4中基因ID类型:Gene symbolEntrez IDEnsembl IDUniprot ID

2022-08-05 16:15:59 16439 1

原创 如何更新已安装过的Bioconductor软件包?

的“Update Installed。

2022-08-05 14:55:51 4258

原创 MSigDB数据库

包括H(hallmarker gene sets)、C1(positional gene sets)、C2(curated gene sets)等。分子特征数据库 (MSigDB) 是一个收录了带有注释的基因集的数据库,可与 GSEA 软件一起使用。1、在“Search Gene Sets”界面“Keywords”框中输入关键词,如“lactate”3、使用R包clusterProfiler读取.gmt文件。2、选中所需的基因集,并选择导出.gmt文件。MSigDB中的所有基因集被划分为。.........

2022-08-05 11:14:27 7174 1

原创 批次效应:概念初探

简介简介往往是是不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,与研究中的生物或科学变量无关。批次效应对低维分子测量如 Western Blot 和 qPCR 影响较小,。其不利影响包括:可能扭曲生物学差异,在基因表达相关性分析如WGCNA中可能影响基因间的相关性等。是一种数据分析技术,用于调整单个样本测量值的全局属性,以便能够更恰当地对所有样本进行比较。传统认为归一化可以去除批次效应,但由于批量效应违反了归一化方法的假设,使得归一并不能消除批量效应,甚至可能会加剧高通量测量中的技术伪影。.....

2022-08-02 19:11:16 4353 1

原创 如何从Rstudio中导出合适的图片?

博主希望导出可编辑的高质量图片,试了很多种方法,还是导出。

2022-08-01 19:54:40 2703 1

原创 WGCNA:官方教程学习

数据输入和预处理数据输入和预处理构建表达网络。

2022-08-01 19:48:04 2236 2

原创 如何在R包中输入合适的数据格式?

这是2个步骤,不能因为一个函数可以完成(如DESeq2),就以为是一步!数据标准化是标准化、差异检验是差异检验。转录组不同分析用什么数据?

2022-08-01 12:01:20 158

原创 WGCNA:概念初探

基本分析流程简介即加权基因共表达网络分析,可将表达模式相似的基因进行聚类(共表达基因),并分析模块与特定性状或表型之间的关联关系。WGCNA促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶标,等方面的研究中被广泛应用。在RNA-seq数据中的应用相关术语补充1、应用WGCNA分析的数据应当2、WGCNA分析对计算机的要求较高,4G内存电脑可处理8000-10000个基因数量,16G内存电脑可以处理2万个,32G内存电脑可以处理3万个3、如果表型为。.......................

2022-07-31 13:45:55 4331

原创 TCGA_筛选病人_radiation

筛选满足某一临床特征的病人,例如这里的接受过放射的病人

2022-07-19 00:33:02 985

原创 TCGA_临床数据下载_全面数据

获取全面的TCGA临床数据,以及补充生存分析信息

2022-07-19 00:14:25 4628 5

原创 TCGA_联合GTEx分析2_查看批次效应

在TCGA_联合GTEx分析1_得到表达矩阵.tpm_老实人谢耳朵的博客-CSDN博客中,获取了TCGA和GTEx中样本的表达矩阵数据,数据格式均为tpm。本文对二者进行合并后,通过PCA分析、绘制内参箱线图等方法,查看是否存在批次效应。关于批次效应的说明,可参看批次效应(Batch effect)解读一、数据准备1 合并后的表达矩阵exp_tcga.tpm <- read.csv(file = "exp_tcga.tpm.csv", header=T, row.names=...

2022-05-08 12:12:49 6338 16

原创 TCGA_联合GTEx分析1_得到表达矩阵.tpm

TCGA联合GTEx分析1

2022-05-04 13:36:05 7763 19

原创 raw_count、tpm、fpkm、rpkm如何选择

转录组测序中常见的数据类型有:raw_count、tpm、fpkm、rpkm。本文进行简单辨析:一、概念1 raw_countRNA-seq数据中,raw_count一般是指mapped到基因外显子区域的reads数目。比如说htseq,STAR,或者RSEM等NGS分析流程计算产生的counts值。其中RSEM(RNA-Seq by Expectation-Maximization),考虑到一条read 可能会匹配多个exon位置,故而其产生的为expected_count。2 TPM

2022-05-04 11:41:05 12080

原创 TCGA_DESeq2分析_TP vs NT

本篇是对“测序数据下载”、“DESeq2分析”的综合应用,因此会少一些说明:“测序数据下载”详见TCGA_改版后STAR-count处理方法_老实人谢耳朵的博客“DESeq2分析”详见TCGA_DESeq2分析_Gleason H vs L_老实人谢耳朵的博客一、数据下载library("TCGAbiolinks")library("rjson")1 下载tsv文件和json文件tsv文件下载:query <- GDCquery(project = "TCG...

2022-05-01 22:03:38 1008 4

原创 TCGA_生存分析

library("survival")library("survminer")生存分析需要三个 vector,在一个dataframe中:生存时间,以mouths或者days作单位; 结局,"Dead"或者"Alive","Alive"是截尾数据,"Dead"是完全数据; 分组信息。Age_old vs young一、读入数据data_cl <- read.csv(file = "Results/测序or临床数据下载/data_cl.csv", header=T, r..

2022-04-29 20:46:33 7263 5

原创 富集分析(GO、KEGG、GSEA)

library("clusterProfiler")library("org.Hs.eg.db")GO分析GO分析需要一个基因 symbol列表,列表中为差异表达基因。一、读入数据result<- read.csv(file = "Results/gleason high vs low_DESeq2差异分析/gleason high vs low_result.csv", header=T, row.names=1,check.names=FALSE)t_index=r..

2022-04-27 13:12:16 13068 2

原创 ggplot2 绘制火山图

使用 ggplot包 绘制火山图,需要一个dataframe并包含如下信息:log2FoldChange:绘制x轴 pvalue或padj:绘制y轴 Change:元素为up、down或none,用于散点上色library("ggplot2")一、添加"Change"列View(result)log2FC阈值:0.5;padj阈值:0.05result[which(result$log2FoldChange >= 0.5 & result$padj .

2022-04-27 09:30:37 3103 1

原创 TCGA_DESeq2分析_Gleason H vs L

加载

2022-04-27 01:25:34 1115 2

原创 如何根据数据框的列名提取指定列?

View(gene_cl)gene_cl 格式为 dataframe,想提取列名为 'Sample','SMC4','t_gleason_sum' 的3列,尝试以下三种方法:方法1library("dplyr")gene_gleason=select(gene_cl,'Sample','SMC4','t_gleason_sum')select(x,colname1,colname2,colname3...) 得到的 gene_gleason 为dataframe,且列名..

2022-04-25 16:04:36 7077

原创 TCGA_改版后STAR-count处理方法

TCGA改版后,workflow.type只有STAR-counts数据,先对所尝试的几种处理方法进行记录:R version 4.1.2 ; TCGAbiolinks version2.23.11方法1最新版TCGA 矩阵整理,百分百复现成功_sayhello1025的博客-CSDN博客一、从TCGA网站上下载tsv文件query <- GDCquery(project = "TCGA-PRAD", #项目名 data.category =.

2022-04-25 15:21:09 9849 55

原创 matrix和dataFrame有什么区别?

一、数据格式matrix 中只能有一种数据格式,全为 character 或者 numeric;dataframe 中可有多种格式,每列的格式相同。注意:将 dataframe 转为 matrix 时,如果 dataframe 中有字符串如“ACTB”等,会导致 matrix 中全部元素都变为 character 格式。二、dataframe中行名不允许重复matrix 中行名允许重复,dataframe 中行名不允许重复注意: 将有重复行名的 matrix 转为 datafra

2022-04-25 11:44:32 1537

原创 check.names=FALSE参数处理读入csv文件乱码

现有一matrix如下:View(puried_data)write.csv(puried_data,file = 'puried_data.csv')尝试读入该matrix时遇到困难,puried_data1<- read.csv(file = "puried_data.csv")不仅rowname错误,colname也出现了乱码 ——列名乱码的原因下代码可正常读取:puried_data2<- read.csv(file =........

2022-04-24 22:11:10 2889

原创 表达谱芯片原理

一、Agilent芯片生产原理Agilent芯片的基片是一个玻璃片。它的大小和一张标准的病理载玻片一样大小。它的芯片制作过程,是用和喷墨打印一样的技术来进行制作的。喷墨打印机,是在墨盒里面是装了“红、黄、蓝、黑”四种颜色的墨水。而Agilent打印生物芯片的墨盒里面,是用带保护基团的A/C/G/T四种碱基底物,来代替了颜色墨水。分别含有4种碱基底物的小液滴,被按照设计的探针序列,依次、层叠地喷到玻璃板的确定的位置上。在每一个碱基的延伸过程当中都有 3 个步骤,分别是偶联、氧化、 去除保护基团

2022-04-06 00:55:12 1100

原创 TCGA_不同gleason评分的 gene 表达

library("stringr")library("dplyr")library("ggplot2")library("readr")加载数据(将第1列转为行名):if(T){ dataFilt=read_csv(file = 'dataFilt.csv') dataFilt=as.data.frame(dataFilt) rownames(dataFilt)=dataFilt[,1] dataFilt=dataFilt[,-1] dataFilt=log(da.

2022-03-29 23:19:32 279

原创 TCGA_临床数据下载

一、数据下载1GDCquery筛选-GDCDownload下载-GDCprepare_clinic()读取 数据query <-GDCquery(project = "TCGA-LUAD", data.category = "Clinical", file.type = "xml")GDCdownload(queryDown, method = "api", dir.

2022-03-22 21:53:49 2430

原创 TCGA_测序数据下载

R包加载library("TCGAbiolinks")一、数据下载1GDCquery筛选数据query <- GDCquery(project = "TCGA-LIHC", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.t.

2022-03-21 23:55:36 2033 5

原创 DESeq2,EdgeR,limma对比

参考:【陈巍学基因】RNA-seq - 知乎关于基因差异化的那些事 edger Deseq2和limma的使用及一些总​​​​​​结_forever luckness 的博客-CSDN博客_deseq2和limma补:芯片和高通量测序(HTS)基因芯片的差异表达分析而言,由于普遍认为其数据是服从正态分布,因此差异表达分析无非就是用t检验和或者方差分析应用到每一个基因上。目前在基因芯片的分析用的最多的就是limma。高通量一次性找的基因多,于是就需要对多重试验进行矫正,控制假阳性。高.

2022-03-20 00:29:47 7198

原创 RNA-seq技术原理

参考:【陈巍学基因】RNA-seq - 知乎一、基本原理去除rRNA、tRNA等干扰,因此利用高等生物的mRNA都有Poly(A)尾巴这个特点,用带有Poly(T)探针的磁珠与总RNA进行杂交。然后Poly(T)探针就和带Poly(A)尾巴的mRNA结合在一起,接下来就回收磁珠,然后把这些带Poly(A)的mRNA从磁珠上洗脱下来。第6步在cDNA两端加上A序列,再加上Y型序列,就成了标准的测序文库,这个标准的测序文库就可以拿到HiSeq测序仪上进行测序了。其中第4部得到的能够比对到基.

2022-03-19 23:49:29 5725

原创 TCGA_相关信息汇总

一、TCGA条码(barcode)1 概念:条码(barcode)是TCGA纳入的每一个标本的专有标识符。2 结构:

2022-03-19 10:30:42 618

原创 如何下载旧版本R和R包?

旧版本R包

2022-03-18 15:23:51 7969

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除