一. 直线回归分析
线性回归分析是分析两变量间的依存关系,即数量关系,某一变量变化一个单位,另一变量会变化几个单位
根据两变量的取值情况,直线回归分析分为两种类型:
I型回归,其中一个变量为选定变量,另一个变量为随机变量,选定变量一般不服从正态分布,另一变量的取值是随机的,并且呈正态分布
II型回归,两个变量都是随机变量,并且呈正态分布,称为双随机变量正态分布
I型回归中,选定变量称为自变量,用x表示,随机变量称为因变量或应变量,用y表示;II型回归中两随机变量均可作为自变量,用x表示,其中一随机变量若为自变量,则另一随机变量为因变量或应变量,用y表示,因此,II型回归可以有两个回归方程。
两变量间的回归方程表示如下
其中a称为常数项,是回归直线在y轴上的截距,其统计学意义是当x取0时相应y的均数估计值; b称为回归系数,是直线的斜率,其统计意义是当x变化一个单位时,y的平均改变的估计值
回归方程的求法一般为最小二乘法,即残差平方和最小的直线为理想直线,按照这一原则,各参数的公式如下
求出回归方程之后,仍需要对回归方程进行假设检验,即对总体回归系数β是否等于0进行假设检验,有两种假设检验的方式
1)方差分析
回归方程中的变异可以拆解为两部分,各部分的计算公式和自由度如下
2)t检验
检验统计量计算公式如下
对于总体回归系数,还可以进行区间估计,公式如下
二. 直线相关
线性相关又称简单相关或Pearson相关,要求两变量为双随机正态变量。
相关系数又称为积差相关系数,以符号r表示,是说明具有直线关系的两变量间相关关系的密切程度与相关方向的指标,取值范围为-1≤r≤1。r为样本相关系数,是总体相关系数p的估计值,必须对其进行假设检验,有统计学意义才可以考虑相关程度的大小。
计算公式如下
相关系数的假设检验使用t检验,检验 统计量如下
直线回归与相关的区别和联系
区别:
1)在资料要求上,回归分析要求应变量y是服从正态分布的随机变量,x是可以固定的非随机变量的模型,一般称为I型回归模型;相关分析要求两个变量x,y是服从双变量正态分布的随机变量。
2)在应用上,回归分析说明两变量间依存关系,相关分析说明变量间的相互关系
联系:
1)对一组数据同时计算r和b, 二者的正负号是一致的
2)r和b的假设检验是等价的,对同一样本,二者的t值相等
3)可用回归解释相关,
三. 等级相关
等级相关也称秩相关, 这类方法对原变量的分布不做要求,属于非参数统计方法,适用于以下资料
1)不服从双变量正态分布而不宜做简单线性相关分析的资料
2)总体分布类型未知的资料
3)原始数据为等级资料
Spearman等级相关的基本思想:
将观察值x和y分别由小到大编秩,通过秩次之差的平方和来描述两个变量的密切程度,公式如下
当两变量完全正相关时,秩次完全相同,上述统计量的值最小,为0,当两变量完全负相关时,上述统计量的值最大。
为了与简单线性相关系数r表示相关程度与方向的形式一致,Spearman等级相关系数的公式如下
当取相同秩次的例数较多时,上述公式计算的数值偏大,校正后的公式如下
四. 曲线拟合
当散点图中因变量y与自变量x间表现出非线性趋势时,可以通过曲线拟合(curve fitting)方法来描述两变量间数量上的依存关系。
1. 选择合适的曲线类型
一般有以下三种方法
1)根据专业知识及过去经验(或文献)选择曲线类型
2)利用算数格纸,半对数格纸,双对数格纸等,将实测数据绘制散点图
3)如果既无前人经验作为参考,有无合适的格纸可做散点图趋势分析,则可先绘制散点图,再根据各点分布趋势用试配法来选择曲线类型
2. 选用恰当的估计方法求得回归方程
如果曲线可表示为x的某种变换形式与y的线性关系,例如对数曲线,则可采用所谓"曲线直线化"的方法对变换后的x'与y做最小二乘拟合;
如果曲线可表示为y的某种变换形式y'与x的线性关系,比如指数曲线,这时采用非线性最小二乘法
在实际工作中,可根据散点图试配几种不同形式的曲线方程并计算R2, 一般来说,R2较大时拟合效果较好。
但同时也应注意,为了单纯得到较大的R2,模型的形式可能会很复杂,甚至使其中的参数无法解释实际意义,这是不可取的。要充分考虑专业知识,结合实际解释和应用效果来确定最终的曲线。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
更多精彩
写在最后
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!
一个只分享干货的
生信公众号