自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 控制过拟合

普通的最小二乘法,当过拟合发生时,没有办法阻止学习过程。 过拟合的根源在于X中有太多的列,解决的方法是去掉X中的一些列,这样就转化为去掉多少列以及哪几列应该去掉的问题。 调整普通最小二乘法瓶颈的方法:前向逐步回归和岭回归。 前向逐步回归就是要找出最佳的特征子集。如果把所有特征的1列-n列子集全部计算一次,会花费大量时间。所以从1列子集开始,找到效果最佳的那一列特征,接着寻找与其组合与效果最佳...

2019-10-06 18:49:24 333

原创 使用sklearnr的交叉验证计算分类器的性能

import numpy as np import pandas as pd from sklearn.model_selection import cross_val_score from sklearn.naive_bayes import GaussianNB from sklearn.ensemble import RandomForestClassifier 函数classifier...

2019-09-27 23:44:22 419

原创 使用健康档案数据计算OLT的用户光衰不合格率

import pandas as pd import numpy as np def read_unqualified_light_decay_excel(excel_name): data=pd.read_excel(excel_name,skiprows=[0,1,2],header=None) colname=['本地网','区县','运营分局','运营包区','营销中...

2019-09-27 23:31:06 1575

原创 pandas根据特征条件打标签

data['y']=data['streambreak_daysum'].apply(lambda x:1 if x>=streambreak_threshold else 0) | data['kanum_daysum'].apply(lambda y:1 if y>=kanum_threshold else 0)

2019-09-19 11:45:46 1409

原创 回归模型的性能评价指标

评估方法:求目标值与预测值的差异。 评估指标: MSE均方误差:误差平方和的均值 MAE平均绝对误差:误差绝对值的和 RMSE根均方误差:MSE开平方 计算目标值的方差和标准差,如果MSE与方差几乎相差或者RMSE与标准差几乎相等,说明预测算法不好。原因是该模型可以用对目标值求均值来替代。 ...

2019-09-04 23:14:56 1159

原创 影响算法选择及性能的因素:复杂度和数据

影响预测算法性能的因素主要有三个:问题的复杂度、模型的复杂度、可用的训练数据量。 一个复杂问题同时拥有大量训练数据,一个复杂模型可以得到比较精确的结果。 一个复杂问题没有足够多的数据,一个线性模型可能就是最好的结果。 一个简单问题,一个线性模型就可以解决。 方法:用复杂模型解决复杂问题,用简单模型解决简单问题,同时必须考虑数据规模。列比行多的数据集或者相对简单的问题,倾向于使用线性模型;行...

2019-09-03 23:33:14 3126

原创 数据标准化后画盒图和平行坐标图

import pandas as pd import matplotlib.pylot as plt from pylab import * from math import exp summary=data.describe() data_normalized=data ncols=len(data_normalized.columns) nrows=len(data_normalized...

2019-09-01 21:39:57 415

原创 相关系数热力图

import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv(target_file) cormat = pd.DataFrame(df.corr()) plt.pcolor(cormat) plt.show() 属性之间如果完全相关(相关系数=1)意味着数据可能有错误,如同样的数据录入两次。 多个属性间的...

2019-08-31 23:53:38 5991

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除