自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 ezygene-如何导出基因表达矩阵

默认选择mean的方法进行去重,提交后,等待运行成功即可,操作简单到难以想象的地步。在数据库中随机选择自己关注的数据集,并上传特征基因列表,只要一列就可以了。不想整理表达谱矩阵,还想简单的导出关注基因的表达谱,怎么做最简单呢?简单的操作,完成复杂的分析,尽在简析基因的鼠标点点。

2026-06-01 18:42:48 226

原创 ezygene-预后分析

使用survival包对数据进行单因素或者多因素,区别是,选择单因素则计算一个变量与预后的关系,选择多因素则计算多个变量同时与预后的关系。在分析的时候需要注意,生存时间必须大于0,同时在进行分析的同时,基因的数量不能太多,如果太多如2000个以上,则这时候通过lasso分析最后得到的基因数量可能为0,所以在分析的时候尤其需要注意!第二个文件:生存数据,包含三列信息,第一个为样本名,第二列为生存时间,第三列为生存状态,顺序不能改变。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点。

2026-06-01 18:39:12 242

原创 ezygene-ImmuCellAI预测24种免疫评分

ImmuneCellAI能够估计18种T细胞和6种其他类型免疫细胞(B细胞,NK细胞,Monocyte细胞,Macrophage细胞,Neutrophil细胞和DC细胞.)的比例,同时可以预测患者对免疫检查点抑制剂治疗的反应,如果有分组信息,使用传统的方差检验的方法比较不同分组下各个免疫细胞比例的差异。这里可以选择上传数据,也可以直接选择数据库里面的数据直接进行。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点。

2026-06-01 18:38:26 226

原创 ezygene-TIP预测免疫及可视化

TIP 是由哈尔滨医科大学开发的肿瘤免疫表型分析元服务器,核心是将肿瘤免疫应答拆解为 7 个连续步骤,通过基因表达特征量化每一步的免疫活性,同时推断免疫细胞浸润比例,实现肿瘤免疫状态的全景式解析。这里可以选择上传数据,也可以直接选择数据库里面的数据直接进行。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点之间。这里提供两种可视化的方法。

2026-05-31 13:12:41 148

原创 ezygene-submap预测亚组的敏感性

SubMap(亚类映射)用于跨数据集验证肿瘤 / 细胞亚群是否具有一致性,其敏感性指算法准确识别真实同源亚组、避免漏判的能力。该方法通过双向基因表达富集比较与置换检验,计算亚组间相似性,判断不同数据集亚型是否可重复。敏感性高意味着能稳定检出跨队列一致的亚组,不易受批次效应、样本量或噪声影响;反之则易遗漏真实亚群,导致亚组分类不可靠。提升敏感性常依赖筛选稳健特征基因、控制数据批次偏差,是单细胞与肿瘤分子分型中评估亚组可重复性的关键指标。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点之间。

2026-05-31 13:10:39 174

原创 ezygene-降维分析

PCA 为主成分分析,通过线性变换提取方差最大的主成分,速度快、可解释性强,适合初步数据探索,但难以保留非线性结构。t-SNE 基于概率分布优化,擅长聚类展示,局部结构清晰,适合可视化,却计算慢、难以还原全局关系。UMAP 兼顾 t-SNE 的聚类效果与更快速度,同时保留局部与全局结构,应用更广泛。MSD(平均平方距离)侧重衡量数据离散程度,常辅助评估降维后数据分布的紧凑性与聚类质量,多用于降维效果验证与特征筛选。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点之间。

2026-05-31 12:58:03 226

原创 ezygene-聚类分析

ConsensusClusterPlus 是基于重抽样策略的一致性聚类算法,通过多次抽样迭代计算样本相似性,确定最佳聚类数并实现稳定分型,常用于肿瘤分子亚型识别,结果稳健可靠。NMF 即非负矩阵分解,可将高维表达数据分解为特征矩阵与系数矩阵,挖掘潜在分子模式与样本亚型,适合基因表达数据降维和特征提取。NMF和ConsensusClusterPlus 都可以选择,选择不同,参数不同,需要注意的是,NMF的矩阵绝对不能有负数不然会出错。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点之间。

2026-05-31 12:42:09 251

原创 ezygene-TIDE预测免疫逃逸及可视化

TIDE分析,主要是用于预测免疫逃逸,TIDE评分越高,约容易发生免疫逃逸。这里可以选择上传数据,也可以直接选择数据库里面的数据直接进行。简单的操作,完成复杂的分析,尽在简析基因的鼠标点点之间。当然可以自己上传表达谱矩阵。提供了四种可视化方式。

2026-05-31 12:25:10 17

原创 ezygene-Timer 免疫评分预测及可视化

这里先选择数据库里面的数据直接运行,Timer分析必须要选择肿瘤的类型,只能针对人且为肿瘤才可以进行。肿瘤的名字是按照TCGA的名字进行的。Timer的分析,可以选择上传数据,也可以直接选择数据库里面的数据直接进行。可以按照自己的需求自己进行选择,来试试,强大的功能,只在鼠标点点间。该工具的强大,不仅仅可以做分析,该可以直接关联做可视化。当然也可以选择上传数据集,提交后即可等待运行成功。

2026-05-30 22:42:47 220

原创 ezygene-多种算法计算免疫评分

其中CIBERSORT_ABS,CIBERSORT,mcpcounter,xcell,quantiseq方法是通过R语言的IOBR包预测的细胞丰度,EPIC方法,是通过R语言的EPIC包预测的,TME方法是通过R语言的TMEscore包预测的TME评分,immnue_28方法是通过ssGSEA的方法对pmid:28052254文章中获得的28个细胞的特征基因计算的评分,immnue_13方法是通过ssGSEA的方法对pmid:28428277文章中获得的13个细胞的特征基因计算的评分。quantiseq;

2026-05-30 20:12:05 257

原创 ezygene-导出样本信息

为什么要导出样本信息,因为本身库里面只有表达谱矩阵信息,而常见的如差异分析等在内,都需要分组信息等,预后分析,需要一些生存数据信息。这些信息庞杂,需要我们自己进NCBI的GEO进行查找,或者去已经发表的文章中查找才可以,找到后,如何和样本的信息对上呢?剩下的等待运行成功后,把样本信息复制下来,直接放在表格里面即可,准备后续的分组或者预后信息。就需要知道库里面的样本信息是啥,样本的编号是啥?选择自己关注的数据集名称,直接提交就可以了。

2026-05-30 19:27:47 234

原创 ezygene-转录组数据集建库

合并多个数据集,一定会去批次,这里去批次之后的效果如下所示(这里使用sva包对多个数据集进行去批次,同时使用PCA分析绘制去批次前(befor)和去批次后的(after)的效果)选选择库库面的数据集,如这里选了两个,每一个数据集对应有一个名字,这个名字不能重复,用英文的逗号隔开,最后输入一个新的数据集的名称。可以上传一个表达谱矩阵,其中行为基因,列为样本,建库后,即可进行各种分析,如免疫分析等等。从下面的结果可以看到,这两个名称,就是我们刚刚建库的结果,已经自动录入了。

2026-05-30 19:17:29 226

原创 ezyegene-差异分析原来可以这么简单

差异分析,老生常谈的问题,代码网上一搜都是一堆,但是真正难的地方在于如何准备数据集,我要怎么做,才是最优解呢?简单的爆炸,当然,你也可以使用上传数据的形式进行,只需要自己准备一个表达谱矩阵即可,分组文件一样的设置。内嵌数据库,可自由选择合适的数据集,当然也支持自己上传表达矩阵。如这里选择GSE31210的数据集,先获取样本信息,在设置分组。在分析的时候需要注意的是分组文件如何获取。根据差异分析的结果制作一个基因分组的表格。将该样本的信息导出,自己设置分组即可。这里的分组我写的A和B。logfc排序散点图。

2026-05-30 18:57:12 219

转载 在线版的CellOracle 虚拟串扰来了,你还在傻傻的敲代码?

CellOracle是2023年发表于《Nature》的单细胞分析工具,能构建基因调控网络并模拟转录因子扰动。该工具只需单细胞转录组数据,搭配scATAC-seq数据可提高精度。本地版配置复杂,平台提供在线简化版本,支持从细胞注释结果跳转使用。操作步骤包括:筛选细胞类型、构建调控网络、模拟基因扰动并可视化结果。相比其他工具更直观,测试网址:https://www.ezygene.com/tool/CellOracle。

2026-05-13 11:12:48 90

原创 基于pathway的疾病个性化分析

说到pathway的疾病个性化分析,大家第一时间是不是就会想起来GSVA中的ssGSEA分析,这个也是目前使用相对来说比较多的一种方式了,今天给大家介绍的是一个新的方法。他主要的方法是通过pathifier包计算实验组中样本的通路失常得分,该得分主要通过实验组和对照组在通路上的拟合距离所计算得到。不介绍那么多,我得抓紧去看看,在新的文章投稿中,将这个方法引入其中,操作简单的工具,值得去推荐哦!参考的文章:https://pmc.ncbi.nlm.nih.gov/articles/

2025-03-19 16:12:52 236

原创 零基础怎么快速进行单细胞分析?

两者之间的最大的区别在于,一个测的是单个细胞的表达,一个测的是一堆细胞的表达之和。在第二步中,通过TSNE/UMAP的图,查看样本细胞的分布,如果不同样本之间泾渭分明,差别很大,则选择去批次的方法,如果各个样本之间相互杂糅你中有我,我中有你,可以选择不去批次,这时候直接选择none即可。我们要理解不是所有的细胞都要表达2w个基因,细胞在机体内有各自的分工,所以有的细胞可能就只表达了几百个基因,有的是几十个,有的是几千个,所以单细胞数据中会存在大量的零,这种数据又被称为稀疏矩阵。

2024-05-10 14:45:10 1437 2

原创 零代码学生信第十一天-临床特征的比较

生信套路分析的文章中临床表型的比较往往用来进一步衬托基于特征基因构建的分子亚型或者是风险模型,更具有临床意义,而这里的临床意义更多的指的是,预后价值和诊断价值。如果这里比较组的名字写Cluster则说明其他表型都要和Cluster进行比较。这里比较的是cluster和Grade这两类分组的样本分布,记得不能是连续型的变量。这里给大家介绍一些文章常见临床特征比较的形式。这里柱子的顺序就是表格列名的顺序。这里需要上传一个表型数据。3、样本分布比较的热图。5、样本分布比较的圈图。4、两组比较的柱状图。

2024-04-27 08:31:41 444

原创 零代码复现5-CAF细胞的套路文章

选择合适的分辨率,上传特征基因的名字,如这里做的CAF细胞,选择的是ACTA2,FAP,FDGFRB,NOTCH3这四个基因,输入的这些基因 为CAF的marker基因,后面用于筛选CAF的亚群。哔哩哔哩链接:https://www.bilibili.com/video/BV1PF4m1A7D8/?选择去批次的方法,当然你也可以选择不去批次,如果这里选择none的话,那么结果得到的两个图片和第二步结果是一样的。这里需要注意,单细胞目前的数据有三种格式,如果不清楚,可以查看之前的文档。

2024-04-26 11:06:38 2169 1

原创 零代码学生信第十天-差异基因的富集分析

基于通路拓扑结构的PT富集分析方法就是把基因在通路中的位置(上下游关系),与其他基因的连接度和调控作用类型等信息综合在一起来评估每个基因对通路的贡献并给予相应的权重,然后再把基因的权重整合入功能富集分析。这些方法的主要思路是利用现有的全基因组范围的生物网络,如HPRD、FunCoup、STRING等,来提取基因间的相互作用关系,包括基因的连接度及基因在网络中的距离等,来计算一给定的基因列表与一待测的基因功能数据集在网络中的连接关系,从而来推测待测基因功能集是否与给定基因列表紧密相关;

2024-04-23 08:38:16 859

原创 零代码学生信第十天-差异基因的富集分析

基于通路拓扑结构的PT富集分析方法就是把基因在通路中的位置(上下游关系),与其他基因的连接度和调控作用类型等信息综合在一起来评估每个基因对通路的贡献并给予相应的权重,然后再把基因的权重整合入功能富集分析。这些方法的主要思路是利用现有的全基因组范围的生物网络,如HPRD、FunCoup、STRING等,来提取基因间的相互作用关系,包括基因的连接度及基因在网络中的距离等,来计算一给定的基因列表与一待测的基因功能数据集在网络中的连接关系,从而来推测待测基因功能集是否与给定基因列表紧密相关;

2024-04-22 12:54:53 1184

原创 零代码学生信第九天-差异分析的可视化有哪些?

前面学习怎么做差异分析,差异分析的R包是需要根据数据进行选择的,前面我们提到了芯片数据一般用limma包做差异,高通量的二代测序如果是count数据(全是整数),可以选择使用edgeR或者Deseq2进行分析,如果是TPM/FPKM的数据呢?生信豆芽菜提供了一个差异分析的可视化,比如说常见的火山图,单个特征基因山峦图,多个特征的山峦图,单个特征的基因箱线图,多个特征的箱线图,配对型的箱线图,配对型的复杂箱线图,热图都是。列名不重要,重要的是,三列的顺序不能变。比如说配对型的复杂箱线图。

2024-04-17 13:17:06 423

原创 零代码学习第八天-什么是差异分析?怎么做差异分析?

1、预处理,不管是什么样的表达数据,数据的预处理是非常重要的,过滤/取对数,过滤的目的是为了去除某一些基因在所有样本的表达变化较小的基因,或者去除表达量较低的基因;2、差异计算,即计算两组比较中,不同基因在两组的表达的差距,如用A组的基因比B组的基因的表达量,得到差异倍数,差异倍数越大,说明该基因在A组和B组的表达差别越大,同样的也说明该基因也就越重要。上传准备的文件都是一样的,需要准备一个基因的表达谱数据,和一个分组文件,记得比较组和被比较组尽量不要出现中文,或者空格这些。这里推荐生信豆芽菜平台。

2024-04-16 13:20:33 1176

原创 零代码复现4-基于中性粒细胞胞外陷阱的泛癌预后特征

导入数据后,选择p的阈值,这里我现在的是0.05,选择是否进行lasso分析,是否进行逐步回归,如果单因素cox分析p小于0.05的基因比较少,可以选择不做lasso和逐步回归,一般默认构建模型的基因不要10个以内,或者不要超过15个,基因太多了,不利于后期验证。绘制AUC的时候需要输入时间,默认这里写的是3年的,可以按照自己的需求写,需要输入四个颜色,是AUC的颜色(训练集nom的颜色,训练集风险得分的颜色,验证集nom的颜色,验证集风险得分的颜色)

2024-04-15 12:33:38 1682 1

原创 零代码复现3-肝细胞癌Anoikis相关亚群的鉴定及预后模型

在这次的分析中,总共有10000多个差异基因,Anoikis差异的基因有272个基因,这些基因的信息叫表com.gene.txt,表tcga.diff.fit.txt为阈值筛选后差异基因差异分析的结果。以下就是一致性聚类的结果,这里只要选择亚型的个数,一般是通过KM曲线和热图一起选择的,这里不做多描述,KM曲线的p值一定要小于0.05,热图得到的亚型的分布不能过于弥散。第一个为癌组织+癌旁组织的样本的表达谱,第二个为癌组织和癌旁组织的样本分组文件,第三个为样本的生存数据,第四个癌组织的表达谱数据。

2024-04-14 09:48:40 881 1

原创 零代码复现2-基于TGF-β个性化纯生信套路

基于TCGA的数据构建风险模型,如果需要上传一个基因集,一般为差异分析的差异基因,首先会通过单因素cox分析筛选预后相关的基因(这里选择p<0.05),选择是否进行lasso,逐步回归进行分析,绘制ROC曲线的时间段,以及高低风险组的颜色进行后续分析。该工具主要用来比较分子亚型临床特征的比较,要注意的是,这里需要选择亚群聚类的个数,默认是2,3,4选择一个,可以参考第五步中的2,3,4三个亚型KM曲线,保证预后有意义即P<0.05。第一列为样本,第二列为生存时间,第三列为生存状态,记得顺序不要错!

2024-04-13 16:36:12 2130

原创 零代码复现1-BNIP3作为识别实体瘤预后和诊断的潜在生物标志物

fig1:A:BNIP3 mRNA在不同类型的癌症中的表达。输入想要分析的基因名,然后选择对应的数据库,可以直接选择TCGA或者是TCGA+GTEx,选择两个颜色,第一个为正常组织的颜色,第二个为肿瘤组织的颜色。在第三步获取的基因高低表达组,通过秩和检验比较高低组中免疫细胞评分的差异,这里的免疫细胞评分是根据CIBERSORT的方法预测的22种免疫细胞评分。基因与免疫评分的相关性分析,默认选择pearson进行分析,这里主要是使用ESTIMATE的方法预测免疫浸润的评分,计算与基因表达之间的相关性。

2024-04-12 10:46:05 916

原创 零代码学生信第七天-没有验证数据怎么做预后模型(三)

这里有一些用户会觉得得到的结果可能与module_res.csv的结果不是完全一样的,首先,AUC的值主要是因为他计算的是1,2,3年最大的AUC,结果会有一些变化,但是大致上是不会改变的。设置循环的开始和结束的数字,如这里开始写1,结束写5,那么得到的结果就是1-5次循环,但是不是所有的循环都有结果,比如说到3这个种子的时候,发现没有基因 满足要求,就会自动跳过。有一些数据在分析的过程中,没有合适的独立数据集怎么办,或者是验证集怎么验证结果,AUC的值始终达不到0.7,那这时候怎么办呢?

2024-04-09 14:51:39 461

原创 零代码学生信第六天-怎么构建风险模型(二)

1、训练集的队列名写了TCGA,验证集又写了TCGA,两个名字重复了,绘制的热图只有一个TCGA的组,所以这里需要注意,训练集和验证集队列名不能一样!第二个数据和第四个数据,生存数据,第一列为样本,第二列为数据集的名字,第三列为生存状态,第四列为生存时间。2、生存时间和生存状态,有的用户,竟然第一个数据集是一样的,第二个数据集,生存时间和生存状态反了!3、生存时间保持一致,要么多少天,要么都是月,要么都是年,不要一会天,一会月,一会年。之前在qq群中,经常遇到一些常见的数据错误。

2024-04-07 09:28:04 355

原创 零代码学生信第五天-怎么构建风险模型(一)

lasso的目的其实更多是为了解决共线性的问题,所以在lasso分析的时候,不是基因越多越好,我曾经遇到过用了1000个基因进行分析,结果压缩后,基因数量变成了0,当只有20个基因进行lasso分析的时候,可能就剩下了十几个。文件上传极其简单,还是三个,需要注意的时候,需要根据基因的数量选择是否进行逐步回归分析,并展示构建风险模型后的KM曲线和AUC,默认是展示1,2,3,有几个时间写几个就好。目前生信豆芽菜提供了一些分析工具,但是需要进行组合,我通过学习这部分的内容,进行总结,如果写的不好,敬请见谅。

2024-04-06 14:28:35 915 1

原创 零代码学生信第四天-单/多变量cox分析

在肿瘤数据挖掘中,单变量cox分析(单因素cox分析)和多变量cox分析(多因素cox分析)是非常重要的一个环节。为此,我特意查了一下,这里的单变量cox分析是为了筛选单个基因与预后的关系,这里是可以选择用几万个基因进行盲筛的。2,通过相关性分析(如WGCNA)筛选相关的基因集,然后通过单变量cox分析筛选预后相关的基因,如果基因数量比较多,有的会通过lasso分析进一步压缩基因数量(lasso分析),如果这时候筛选的基因数量还是比较多,可以选择使用逐步回归的方法进一步筛选基因。很多文章是怎么做的呢?

2024-04-03 23:22:46 517 1

原创 零代码学生信第三天-什么是TIDE?

作为一个肿瘤科的小主治来说,数据挖掘是一个不错的选择,在看了很多文章后,我发现,基本上所有的肿瘤生信文章中,不可避免的都有免疫分析,在分析的过程中,会将样本进行分组,预后差的亚组如果具有较高的免疫浸润的评分,那这时候,很多就会往免疫逃逸中进行讲解,从哪些角度分析去解析免疫逃逸呢?主要上传一个表达谱矩阵,其中行为基因,列为样本,记得上传的矩阵数据,一定要是蛋白编码的基因,差不多1-2w的基因,可以做一些过滤去除一些基因,基因太少不利于相关的分析,这个很重要。其他的参数就正常按照自己的需求进行选择即可。

2024-04-02 10:12:19 1162 1

原创 零代码学生信第二天-TIP是什么?

但是该工具运行非常费内存,之前我也是充值了钻石会员发现还是内存超出了限制,并因此联系了平台技术负责人小白老师,她告诉我,因为我在上传数据的过程中使用了5万多个基因的表达矩阵,而基因数量越多,越吃内存,有两种解决方案,一种是升级为至尊会员,一种是进行基因过滤,选择蛋白编码的基因(差不多也就是2w来个基因),经过这一点拨后,我过滤了基因,果然内存不再报错。慢不慢,看你怎么选择了,其实 我之前买过很多课程,也有师兄师姐,朋友们分享过给我一些代码,其中就有TIP,在运行的过程中,我做过对比,该分析也确实慢。

2024-04-02 10:11:45 720 1

原创 零代码学生信第一天-如何进行免疫浸润分析

很多方式都可以实现,最近特别喜欢用生信豆芽菜的平台,他们的网站设计的理念和我们学医的经历很像,先分析,后可视化,分析是针对数据分析的具象化,而可视化就是一个结果的展示,就像我们学医一样,先学理论,后学临床,临床的学习主要是通过最后的规培来实现的。规培很苦,三年很难熬,但是医生这个职业与生命挂钩,只有理论扎实,通过实践的锻炼,才有可能成为一个优秀的医生。免疫浸润,换言之就是通过bulk RNA的数据进行分析预测每一个组织样本关于免疫浸润相关细胞的丰度,也就是一个细胞占比情况。

2024-04-02 10:10:57 562 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除