![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读书笔记:Python预测分析核心算法
zhchou8972
这个作者很懒,什么都没留下…
展开
-
相关系数热力图
import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv(target_file)cormat = pd.DataFrame(df.corr())plt.pcolor(cormat)plt.show()属性之间如果完全相关(相关系数=1)意味着数据可能有错误,如同样的数据录入两次。多个属性间的...原创 2019-08-31 23:53:38 · 5753 阅读 · 0 评论 -
数据标准化后画盒图和平行坐标图
import pandas as pdimport matplotlib.pylot as pltfrom pylab import *from math import expsummary=data.describe()data_normalized=datancols=len(data_normalized.columns)nrows=len(data_normalized...原创 2019-09-01 21:39:57 · 330 阅读 · 0 评论 -
影响算法选择及性能的因素:复杂度和数据
影响预测算法性能的因素主要有三个:问题的复杂度、模型的复杂度、可用的训练数据量。一个复杂问题同时拥有大量训练数据,一个复杂模型可以得到比较精确的结果。一个复杂问题没有足够多的数据,一个线性模型可能就是最好的结果。一个简单问题,一个线性模型就可以解决。方法:用复杂模型解决复杂问题,用简单模型解决简单问题,同时必须考虑数据规模。列比行多的数据集或者相对简单的问题,倾向于使用线性模型;行...原创 2019-09-03 23:33:14 · 2695 阅读 · 0 评论 -
回归模型的性能评价指标
评估方法:求目标值与预测值的差异。评估指标:MSE均方误差:误差平方和的均值MAE平均绝对误差:误差绝对值的和RMSE根均方误差:MSE开平方计算目标值的方差和标准差,如果MSE与方差几乎相差或者RMSE与标准差几乎相等,说明预测算法不好。原因是该模型可以用对目标值求均值来替代。...原创 2019-09-04 23:14:56 · 990 阅读 · 0 评论 -
控制过拟合
普通的最小二乘法,当过拟合发生时,没有办法阻止学习过程。过拟合的根源在于X中有太多的列,解决的方法是去掉X中的一些列,这样就转化为去掉多少列以及哪几列应该去掉的问题。调整普通最小二乘法瓶颈的方法:前向逐步回归和岭回归。前向逐步回归就是要找出最佳的特征子集。如果把所有特征的1列-n列子集全部计算一次,会花费大量时间。所以从1列子集开始,找到效果最佳的那一列特征,接着寻找与其组合与效果最佳...原创 2019-10-06 18:49:24 · 241 阅读 · 0 评论