自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(950)
  • 收藏
  • 关注

转载 《实用医学统计学与SAS应用》学习笔记 | 协方差分析

一.协方差分析的基本思想和应用条件协变量:影响处理效应而无法人为控制或难以控制的实验因素,称为协变量。协方差分析:协方差分析可以消除协变量对处理效应的影响,将不同处理的处理效应真正地显现出来,它是一种将直线回归和方差分析结合起来的统计学分析方法通过一个示例来理解下协变量和协方差分析在上述例题中,样本分为3个治疗组,每个治疗组所用药物不同,这个分组变量就是想探究的处理因素X,实验效应通过患者治疗...

2023-03-10 18:30:22 1805

转载 《实用医学统计学与SAS应用》学习笔记 | 统计表和统计图

一.统计表统计表的基本结构:标题:统计表的名称标目:说明表内数字的含义,分为横标目和纵标目线条:一般采用三线结构,即顶线,底线,标目线(即纵标目下横线)数字:表示数字一律用阿拉伯数字表示常见统计表的基本格式如下二. 统计图常用统计图:条图:又称直条图,用等宽度直条的长短表示所比较指标的数值大小和它们之间的对比关系,示例如下圆图:表示事物各组成部分在总体中所占的比重,适合描述分类变量资料的各类...

2023-03-08 18:30:33 1266

转载 《实用医学统计学与SAS应用》学习笔记 | 两个数值变量或等级变量间的相关与回归分析

一. 直线回归分析线性回归分析是分析两变量间的依存关系,即数量关系,某一变量变化一个单位,另一变量会变化几个单位根据两变量的取值情况,直线回归分析分为两种类型:I型回归,其中一个变量为选定变量,另一个变量为随机变量,选定变量一般不服从正态分布,另一变量的取值是随机的,并且呈正态分布II型回归,两个变量都是随机变量,并且呈正态分布,称为双随机变量正态分布I型回归中,选定变量称为自变量,用x表示,随...

2023-03-06 18:30:26 2783

转载 《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验

一. 完全随机设计两样本率比较的卡方检验1. 四格表的基本公式当比较两个样本率之间的差异时,可以得到如下所示的资料上述表格的研究目的是探究,利伐沙班和依诺肝素两种药物对预防全膝关节术后形成静脉血栓效果的比较,将患者分为两组,分别使用两种药物,观察并统计各组术后发生静脉血栓的人数。该表中79, 745, 166, 712这四个基本数据,习惯上用a, b, c, d来表示,表格中的其他几个数据可以基于...

2023-03-03 18:30:05 1564

转载 《实用医学统计学与SAS应用》学习笔记 | 数值变量资料或等级资料比较的秩和检验

一.非参数统计的概念非参数检验对总体的分布类型不做严格规定,又称为任意分布检验,它直接对总体分布进行假设检验,应用时可以不考虑研究对象为何种分布以及分布是否已知,也由于这种假设检验方法并不是参数间的比较,而是应用于分布间的比较,故称为非参数检验。优点:不受总体分布的限制,适用范围广,且计算简便缺点:对于符合参数检验的资料,如果选用非参数检验,则会降低检验效能(1-β)非参数检验方法很多,其中较...

2023-03-01 19:12:22 1172

转载 《实用医学统计学与SAS应用》学习笔记 | 多组样本均数比较的方差分析

1. 方差分析的基本思想和应用条件方差分析是由英国著名统计学家R.A.Fisher首创,为纪念他,又被称为F检验。方差分析的基本思想:根据资料的设计类型,即变异的不同来源,将全部观察值之间的变异-总变异分解为两个或多个部分,除随机误差外,其余每个部分的变异都可用某个因素的作用来解释,通过比较不同变异来源的均方,借助F分布做出统计推断,以了解某因素对观察指标是否有影响或某因素是否有效应。以单个处理因...

2023-02-27 18:30:19 1433

转载 《实用医学统计学与SAS应用》学习笔记 | 两组数值变量资料均数比较的t检验

1. t检验的基本概念t检验用于检验两个正态分布总体的均数是否相等,检验统计量为t检验的统计量可以由样本均数的z变换推导得出,服从自由度为n-1的t分布,t检验得到的P值含义如下在原假设成立的情况下,样本统计量t值出现的概率t检验适用于连续型资料,用于比较两个样本均数间的差异是否具有统计学意义,应用条件是1)当样本含量较小时,理论上要求样本来自正态分布总体2)要求两总体方差齐同,即方差齐性t检验的...

2023-02-24 18:30:15 1242

转载 《实用医学统计学与SAS应用》学习笔记 | 参数估计与假设检验的基本思想

1.区间估计参数估计:用样本统计量来估计总体参数,包括点值估计和区间估计点值估计:直接用样本统计量作为总体参数的估计值,这种方法简单方便,但是没有考虑抽样误差区间估计:利用样本统计量,考虑抽样误差的大小,在一定的可信度1-α下估计总体参数所在的区间范围,得到的区间称为总体参数的置信区间,较小者称为置信下限,较大者称为置信上限,α一般取0.05或0.01置信区间的含义总体均数的95%置信区间的实际...

2023-02-22 18:30:04 634

转载 《实用医学统计学与SAS应用》学习笔记 | 实验设计

1. 实验研究的特点及分类实验研究的特点1)处理因素可以根据研究目的人为设置2)受试对象可以随机分配到各组中去3)研究过程中除了处理因素不同外,其他干扰因素能够在一定程度上控制齐同4)若各组间研究结果有差别,并且该差别经统计检验后排除抽样误差的可能性,则可以认为这个差别是由于处理因素所致实验研究的分类1)按照研究对象分类实验室研究:受试对象是动植物或者来自人的血液,尿液等标本临床试验:受试对象是患...

2023-02-17 21:26:09 497

转载 《实用医学统计学与SAS应用》学习笔记 | 基本分布

1.随机变量及其分布随机现象: 也称为不确定现象,是指在相同条件下重复试验可能得到不同结果的现象,比如掷骰子,抛硬币等。随机事件: 对随机现象进行观测和试验,事先并不能确定这次试验的结果是什么,随机试验所得到的每一种可能的结果,称为随机事件。随机变量:随机事件在数学上可用一个变量,比如x来描述,称为随机变量,随机变量可分为两大类:离散型随机变量:随机变量的取值为有限或无限可列个数值连续型随机变量...

2023-02-15 18:30:41 512

转载 《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的统计描述

在医学研究中,对于分类变量统计得到的频数称之为绝对数,比如某年某月甲小学学生手足口病发病人数50人,乙小学发病人数40人。根据这两个绝对数,我们不能人为甲小学的发病情况比乙小学严重,因为两个学校的学生人数不一定相等。所以为了进行统计学描述及比较,应该将绝对数转换为相对数。1. 常用的相对数2.率的标准化适用场景:对两组的率进行比较时,若其他影响因素如年龄,性别,病情等在两组间的构成不同,并足以影...

2023-02-10 18:30:57 415

转载 《实用医学统计学与SAS应用》学习笔记 | 数值变量资料的统计描述

欢迎关注”生信修炼手册”!当拿到一组数据时,很难直接从一连串的数字中发现有用的信息,此时就需要借助统计描述的方法,对数据进行一个概括性的认识。统计描述的方法有两大类:1)统计图或者统计表,对于数值变量资料,常用频数分布表和频数分布的直方图2)统计指标,对于数值变量资料,常用的有描述集中趋势和离散程度的统计指标数值变量资料根据取值的类型,可以分为以下两种离散型数值变量资料:变量取值可以一一列举,不...

2023-02-08 18:47:27 1223

转载 《实用医学统计学与SAS应用》学习笔记 | 绪论

欢迎关注”生信修炼手册”!1.医学统计学的地位和应用统计学这门工具学科将有助于我们解决工作中所遇到的问题:如何做一个好的科研设计如何记录或描述人类疾病的分布特征如何研究影响疾病发生,发展的相关因素和机制?如何发现和验证新的临床治疗药物或治疗技术的疗效和副作用?如何科学地向大众呈现和传播研究成果?2. 医学统计学的定义与内容统计学的概念:统计学是一门处理数据中变异性的科学与艺术,内容包括收集,...

2023-02-06 18:48:43 466

原创 校准曲线的绘制的小技巧

欢迎关注”生信修炼手册”!在之前关于列线图的文章中,我们介绍了利用列线图来可视化预后模型,同时也提到了模型性能的几种评估方式,校准度以及校准曲线就是其中一种方式。校准度,用来描述一个模型预测个体发生临床结局的概率的准确性。在实际应用中,通常用校准曲线来表征。校准曲线展示了模型预测值与实际值之间的偏差,一个典型的校准曲线示例如下横轴表示模型预测的不同临床结局概率,纵轴表示实...

2022-06-15 20:30:34 3438

转载 《零基础免费学扩增子分析》视频课(含ppt及相应代码),无需转发,直接获取...

扩增子测序是一种二代靶向测序技术,它使用PCR技术来生成称为扩增子的DNA序列。它简单、快速、应用广泛。扩增子测序可以有效地识别微生物高可变区并有效获取微生物物种的信息。扩增子测序包括16S rDNA, 18S rDNA以及ITS的测序。16S rDNA是细菌分类学研究中最常用分类的marker基因信息,其序列包含9个可变区(Variable region)和10个保守区...

2022-06-13 20:28:46 407

原创 如何绘制一幅优雅的列线图

欢迎关注”生信修炼手册”!列线图在预后建模的相关文章中随处可见,除了传统的只有坐标轴的列线图,还包括下列这种展示信息更加丰富的列线图在经典的列线图的坐标轴元素的基础上,对于连续型变量,采用了直方图的形式来展示其分布,另外还可以在图上标记比较某个患者各个指标的points 以及基于模型预测的生存概率。像这样一张信息丰富的列线图如何来实现呢? ...

2022-06-10 20:34:56 1092 2

原创 手把手教你绘制最基础的列线图

欢迎关注”生信修炼手册”!在之前的文章中,我们介绍了列线图的含义和构建方法,本文重点介绍下绘制列线图的代码,经典的列线图如下所示当我们构建好一个预后模型之后,可以通过列线图来可视化其公式,最常用的绘图方法是通过rms这个R包,以pbc这个生存分析的数据为例,展示下其基本用法> library(rms)> pbc <- pbc[pbc$status %i...

2022-06-08 20:24:39 5812 1

转载 半年新增56家公司招CADD/AIDD,搞生信,大家是认真的

创新药内卷严重,九死一生,而且烧钱速度惊人。不管Big Pharma还是Biotech都压力山大,销售额、利润要涨,研发费用要边涨边控。Biotech求活下去,求快速具备造血能力;Big Pharma求踩稳创新药这一条新成长曲线,探索国际化的发展模式。如何做到:速度要快,姿势还要帅?第一:堆新药研发人才自己培养和直接抢人,这两条路一般同时进行。培养一个新药研发人才和培养一...

2022-06-06 20:32:43 710

原创 文献阅读|Nomograms列线图在肿瘤中的应用

欢迎关注”生信修炼手册”!列线图,也叫诺莫图,在肿瘤研究的文章中随处可见,只要是涉及预后建模的文章,展示模型效果除了ROC曲线,也就是列线图了。那么列线图究竟是什么,列线图怎么得到,从图中我们可以得到哪些信息,带着这些问题,我们来阅读下面的这篇文献,地址如下>https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4465353/1...

2022-06-01 20:27:06 2169 1

原创 绘制cox生存分析结果的森林图

欢迎关注”生信修炼手册”!在之前meta分析的文章中我们介绍了森林图的画法,典型的森林图如下所示每一行表示一个study,用errorbar展示log odds ratio值的分布,并将p值和m值标记在图中。森林图主要用于多个study的分析结果的汇总展示。在构建预后模型时,通常会先对所有基因进行单变量cox回归,然后筛选其中显著的基因进行多变量cox回归来建模,对于co...

2022-05-30 20:32:22 4689

原创 组间差异分析就要这样可视化!

欢迎关注”生信修炼手册”!在之前的文章中,我们分享了多个基因差异分析的可视化,使用的是ggpubr这个R包,ggpubr在标记p值时,可以根据指定的差异分组自动添加组间的连线,非常方便,但是无法指定添加的p值的位置,在某些时候会缺乏灵活性,今天要介绍的是另外一个R包ggsignif,其帮助手册链接如下https://cran.r-project.org/web/packa...

2022-05-25 20:26:15 978

原创 冲击图和桑基图,傻傻分不清楚!

欢迎关注”生信修炼手册”!在之前的文章中,我们介绍了桑基图的可视化原理,而冲击图作为桑基图的一个子类,其展示的信息和桑基图基本一致,只不过在输入数据的格式上要略作调整。绘制冲击图,推荐使用ggalluvial这个R包,从名字也可以看出,这个一个建立在ggplot2语法基础上的扩展包,官方链接如下http://corybrunson.github.io/ggalluvial...

2022-05-23 20:22:26 1406

原创 两组数据的相关性如何可视化,这个思路值得借鉴!

欢迎关注”生信修炼手册”!相关性分析是最常用的分析策略之一,对于两组数据相关性结果的可视化,可以借鉴文献中的表现形式,图示如下采用了组合图表的形式,主体是两组数据构成的散点图,在散点图中显示线性拟合的直线,并标记相关系数和相关性检验的p值;同时在上方和右侧方,用直方图的形式展示看每组数据的各自分布。这样的一幅图表,把相关性分析的多种信息同时展现了出来,信息量丰富而且美观。...

2022-05-20 20:25:01 4916

原创 多组差异分析的可视化,这样做最省心!

欢迎关注”生信修炼手册”!下图是来自文献中的一个示例图,展示了不同亚型之间risk score值的差异分析结果从图形的主题可以看出,这是一幅基于ggplot2绘制的图片,但是如果完全基于ggplot2的基础函数的话,我们需要手动绘制组间比较的连线,计算对应的坐标并添加p值,虽然也可以实现,但不免太过繁琐。想要更加便利的展示组间差异的结果,可以使用ggpubr这个R包。这是...

2022-05-18 20:29:54 5778

原创 快速掌握生存分析的可视化

欢迎关注”生信修炼手册”!生存分析在预后建模中的作用不必多言,在之前介绍的NAD+基因的文献中,出现了3种生存分析的可视化方式,文献链接如下https://www.frontiersin.org/articles/10.3389/fcell.2022.831273/full对于生存分析的可视化,最常用的就是R包survminer,核心函数就是ggsurvplot,链接如...

2022-05-16 20:21:36 247

原创 一键获取graphpad同款主题

欢迎关注”生信修炼手册”!graphpad是一款商业化的绘图软件,支持多种可视化形式,而且样式美观,下图就是其典型的输出graphpad的强大之处在于默认样式的美观,以及所有组件的可编辑,通过鼠标操作可以像ps一样添加和修改任何图片中的元素。ggplot2则是基于R语言的开源免费工具,其特点在于自动化,所有的操作都通过代码来实现,为了进一步扩增ggplot2的功能,开发者...

2022-05-13 20:23:00 397

原创 表达量差异分析结果的可视化

欢迎关注”生信修炼手册”!对于任意的表达量数据,定量加差异分析都是一套经典的组合拳。当我们想要展示特定基因的组间差异结果时,下面这种图表就派上了用场横坐标为基因,纵坐标是基因表达量,每一组的表达量采用了箱体图的形式来展现,当然也可以换成小提琴图等其他描述总体分布的可视化方式。对于每一个基因,通过并列的两组箱体来定性的展示两组间的分布差异,而图中星号则表示差异分析的p值,定...

2022-05-11 20:27:00 1629

原创 好看的桑基图是如何炼成的!

欢迎关注”生信修炼手册”!Sankey Diagram,也叫做桑基图,是一种展示数据流的可视化方式,一张典型的桑基图示例如下这张图展示的是不同国家之间的人口流动,可以看到图中包含了如下几个因素1. node,即节点,常用矩形方块和文字注释来表示,在上图中表示的是不同的国家2. link,即连线,表示不同节点之间的数据流通,这个连线是有方向的,从节点A流向节点B,节...

2022-05-09 20:29:00 1789

原创 预后建模绕不开的lasso cox回归

欢迎关注”生信修炼手册”!回归我们并不陌生,线性回归和最小二乘法,逻辑回归和最大似然法,这些都是我们耳熟能详的事物,在生物信息学中的应用也比较广泛, 回归中经常出现两类问题,欠拟合和过拟合。对于欠拟合,简单而言就是我们考虑的少了,一般通过在回归模型中增加自变量或者扩大样本数量来解决;对于过拟合,简单而言就是考虑的太多了,模型过于复杂了,这时候可以对已有的自变量进行筛选,在...

2022-05-07 20:27:00 9762 1

原创 学会富集分析,必须掌握的clusterProfiler生态!

欢迎关注”生信修炼手册”!clusterProfiler是富集分析最强大的R包,内置支持多种物种,并且支持自定义数据库来进行富集。为了进一步强化clusterProfiler的功能,其开发者开发了一系列富集分析的R包,可谓是富集分析的生态圈,掌握这些包的用法,拿下富集分析不在话下。本文重点介绍如何使用这个包来完成富集分析并进行可视化,我们的目标图像展示如下 ...

2022-04-29 20:26:00 2219

原创 ConsensusClusterPlus, 一步到位的一致性聚类!

欢迎关注”生信修炼手册”!在之前的文章中分享了一致性聚类的原理,本文介绍下如何用R语言进行分析。ConsensusClusterPlus这个R包,就是专门用于一致性聚类分析的,为了简化调用,甚至将所有的步骤都封装到了一个函数里面,所以其使用方法非常的简单,一共三步1. 加载R包2. 把表达量数据读进去3. 运行一致性聚类的函数是不是和把大象装进冰箱一样简单,但是我们必须注...

2022-04-27 20:28:00 13766 5

原创 一致性聚类的最佳K值如何选,你真的搞清楚了吗?

欢迎关注”生信修炼手册”!聚类,是机器学习领域的一大研究方向,属于无监督学习,其算法也是层出不穷,多种多样,在本公众号之前的文章中也详细介绍了各种聚类算法,感兴趣的读者可以搜索之前的文章进行查看。将聚类算法应用于基因表达谱数据,来挖掘其中有价值的生物学信息,是非常典型的一类机器学习算法在生物学领域的应用。本文要介绍的一致性聚类,就是这样的一种聚类算法, 这种方法在癌症基因...

2022-04-25 20:25:00 2860

原创 巧用热图展示基因分布的总体趋势

欢迎关注”生信修炼手册”!热图是最常见的基因表达量数据的可视化方式,将每个单元格的表达量按照数值高低映射为不同的颜色,可以直观展示表达量在不同样本间的分布,再综合聚类的结果和基因/样本的注释信息,进一步丰富了展示的信息,一个经典的热图如下图中提供了两大类的信息,第一大部分也是热图的主体部分,即表达量信息,上图中,每一列表示样本,每一行表示基因,用不同颜色表征表达量的不同数...

2022-04-24 20:35:00 2257

原创 使用sva包处理批次效应

欢迎关注”生信修炼手册”!SVA适用于高维数据的批次效应校正,支持以下数据1. 基因芯片2. RNA-seq3. 甲基化表达谱4. 其他表达量数据提供了两种方法来处理不同的批次效应1. 直接校正已知的batch effect,使用ComBat函数2. 识别未知的batch effect,并校正,使用sva函数需要注意的是,在校正批次效应之前,表达量数据必须经过归一化操...

2022-04-22 20:22:00 4666 1

原创 batch effect究竟是什么?

欢迎关注”生信修炼手册”!在数据分析中,经常会看到进行batch effect校正的分析,那么batch effect到底是什么,在我们自己的数据中存不存在batch effect,在做哪些分析之前需要需要进行batch effect的校正,带着这些问题,我们来看下发表在natrure reviews上的一篇描述batch effect的文献,链接如下https:/...

2022-04-20 20:27:00 154

原创 整理NAD+代谢相关基因

欢迎关注”生信修炼手册”!在ALS患者NAD+基因预后模型的文献中,提供了NAD+代谢相关基因的集合来自KEGG和Reactome两个数据库,本文主要介绍下从这两个数据库获取基因列表的方法1. KEGG在该数据库中,代谢通路hsa00760表示烟酸和烟酰胺代谢通路,链接如下https://www.genome.jp/dbget-bin/www_bget?pathway+h...

2022-04-18 20:22:00 3736

转载 手把手教你处理illumina beadchip芯片数据

欢迎关注”生信修炼手册”!在NAD+代谢相关的文献中,使用了两批illumina beadchip的芯片数据进行分析,本文以其中一篇数据为例,详细展示该平台的数据处理流程。GSE112676包含741个样本的全血基因表达谱数据,链接如下https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112676该数据的处理流程在...

2022-04-15 20:24:00 3204 1

原创 cel格式的表达谱芯片数据如何读取?

欢迎关注”生信修炼手册”!后缀为cel的芯片文件,对应的芯片平台为Affymetrix,针对这一平台的数据,可以通过R包affy来读取,读取时我们需要以下两种文件1. 后缀为cel的探针荧光信号强度文件2. 后缀为cdf的探针布局文件cel文件是芯片扫描之后的原始数据文件,而cdf文件是每个芯片平台对应的文件,cdf格式的详细解释可以参考如下链接https://medi...

2022-04-13 20:34:00 5085 1

原创 教你分析后缀为gpr的芯片数据

欢迎关注”生信修炼手册”!分析芯片数据,我们首先需要确定芯片平台。不同的芯片平台技术不同,既有单通道,也有双通道,而且输出文件的格式也不同。目前常见的平台有以下几种1.genepix2. illumina beadchip3. Agilent4. Affymetrix对于前三种平台而言,我们都可以通过limma包来进行处理,本文主要介绍genepix的芯片处理。示例文...

2022-04-11 20:23:00 3482

原创 背景校正,芯片预处理的第一步!

欢迎关注”生信修炼手册”!对于芯片数据而言,在分析之前,需要先进行背景校正background correct。所谓背景校正,其本质上都是一个减法,将总体信号看做由探针特异性的结合信号(真实信号)和非特异性结合(噪声信号)两部分组成,背景校正的工作就是从总体信号中减去噪声信号,从而得到真实信号。具体到应用层面,有多种算法可供选择,在limma包中,通过background...

2022-04-08 20:28:00 773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除