使用python进行回归分析

一、概述

1.回归:利用样本(已知数据),产生拟合方程,从而对未知数据进行预测

2.分类

*线性回归:一元线性;多元线性
*逻辑回归:实际上预测的是数据X属于分类Y的概率p。逻辑回归公式由 log(p/(1-p))=β0+β1X 推导求得。
*非线性回归

3.求解回归时需考虑的问题

1)样本是否符合正态分布假设?
2)误差是否满足独立性、等方差、正态分布等假设条件?
3)是否存在离群值导致模型产生较大误差?
4.)线性模型是否合理,是否存在拟合不足?
5)观察拟合方程,是否存在多重共线性?
6)如何选择变量?如何进行特征工程?

4.需要进一步解决的问题

1)怎么进行正态性检测?
2)怎么处理离群点?
3)非线性回归方程要怎么构建?
4)R中有岭回归可以解决多重共线性的问题,python中要怎么处理?
5)怎么构建多重逻辑回归模型,用于预测分类大于2的情形?

5.个人思考

从本质上来看,回归分析不管是线性回归还是逻辑回归,拟合的都是一条线(二维)或者一个平面(三维)或者更高维度,因此更适合使用连续型的数值型特征进行预测,而对于有太多分类型特征的数据,即使转换为哑变量,也必然会存在拟合不足的现象。

二、线性回归

1.协方差和相关系数:评估线性相关性
*协方差
cov(X,Y)=E[(X-E[X])(Y-E[Y])]

相关系数:消除协方差中数据变动的影响
相关系数r=(x和y的协方差)/(x的标准差
y的标准差)

*相关系数函数:data.corr()

2.决定系数R2:评估模型精确度

有多少百分比的y波动被回归曲线描述=R2=1-误差平方和/总波动
值大小:R2越大,回归模型越精确

3.线性回归算法概述

将拟合平面(线)整合成矩阵形式,矩阵计算通常比较高效
真实值和预测值之间肯定是存在差异(用ε表示误差)。误差服从高斯分布,将拟合函数带入到误差服从的高斯分布中。
通过最大似然估计推导出最小二乘法。
求解最小二乘法。在实际应用中一般使用梯度下降策略,而不是直接求解。

4.python进行线性回归一般框架

a.在sklearn中搜索linear regression用法
b.提取特征和标签

在这里插入图片描述
c.建立训练数据和测试数据
在这里插入图片描述
d.训练模型
在这里插入图片描述
e.评估模型:决定系数R2
在这里插入图片描述
f.最佳拟合线
在这里插入图片描述

三、逻辑回归:最经典,最牛逼的二分类算法

1.sigmoid函数

y=S(z)=1/(1+exp(-z))

其中,z=Θ(转置) · x(例如,z=a+bx)

2.使用python进行逻辑回归分析

a.谷歌Sklearn logistic regression用法
b.提取特征和标签
在这里插入图片描述
c.建立训练数据和测试数据
在这里插入图片描述
d.训练模型
在这里插入图片描述
e.评估模型
在这里插入图片描述
3.预测

a.标示出各标签概率
在这里插入图片描述
b.预测结果值
在这里插入图片描述
c.构建回归函数
在这里插入图片描述
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bd9fb365-ae11-4182-84d0-af28197bac71.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值