连续性变量与连续性变量之间,就有使用线性回归或者是相关
相关表示的是两个变量之间或者是多个变量之间相关关系的方向和强弱关系
如果我们想要知道两个变量或者多个变量之间具体的关系,那么我们就要使用回归。
处理一个连续性变量与一个连续性变量之间的关系的时候,可以采用简单线性回归。
如果是多个连续性变量则需要采用多重线性回归。
如果其中有一个变量是分类变量的话,那么我们则需要进行logistic回归。
如果这是二分类变量的话,那就是二元logistic回归
如果这个分类变量是多分类变量的话,那我们就要用多元logistic回归
logistic回归里面分为有序和无序的。如果是有序的分类变量,那么就要使用有序logistic回归,分类变量为无序的,则为无序logistic回归。
条件logistic回归,就是指配对之后的,要进行回归分析。
简单线性回归
就是自变量解释因变量变异的比例。自变量改变,一个单位因变量变化情况。根据新增自变量预测自变量的情况。
它的前提:杜宾检验,散点图,pp图,个案诊断
1.自变量与因变量都为连续变量
2.判断是否有线性关系,也就是一个是否会随着另一个变量的改变而改变。相互独立观测值。durbin越接近于2,有可能为独立。以及散点图
3.不存在显著异常值,个案判断当中会发现异常值为第几例,我们直接将他踢出就行,然后重新进行分析,我们也可以将异常值保留,我们需要做两套模型,这样的异常模型与不异常模型进行比较
第三种方法,也就是因变量进行数据转换。
4.之后我们要注意等方差性。也就是看散点图是不是均匀分布?
5.回归残差的正态性,p-p图的观察方法是越贴近对角线越符合正态分布。
结果
模型摘要中的啊,只有一个自变量,代表着两者相关程度。我们这个时候可以看皮尔逊系数,r方的话就是自变量,对因变量变异的一个解释程度越接近越好,调整后r方。会变得更加准确,更加标准。
方差检验P大于0.05即不存在息息相关,没有统计学意义。
如果是系数P大于0.05就没有统计学意义
常量就是截距就是自变量,等于零的时候因变量取值,p要小于0.05,才有意义。
常量下的指标为方程的斜率的,取值范围在95%的置信区间内。
因此,我们可以构建简单线性回归方程Y,等于y=ax+b+误差模型构建好后,在操作栏保存,将模型信息导出到XML文件中,然后准备好要预测的数据集,实用程序,评分向导即可完成预测,也就是模型的应用。
多重线性回归
多重线性回归是探索对因变量有影响的因素,控制混杂因素,评价多个因变量评价多个自变量,对因变量的影响可以用。这边要去推导因变量它的前提是因变量与自变量简笔消费线性关系。
前提
自变量与因变量之间线性关系,因变量为连续性,变量自变量也为连续性变量,或者是分类变量。但不能存在多重共线性
残差,要服从正态方差齐性,相互独立
样本量必须为自变量的20倍以上。
加上共线性诊断
结果上
首先要看个自变量与因变量的散点图验,证线性关系
模型摘要上要看杜宾检验,如果趋向于零或者四则