- 博客(8)
- 收藏
- 关注
原创 控制过拟合
普通的最小二乘法,当过拟合发生时,没有办法阻止学习过程。 过拟合的根源在于X中有太多的列,解决的方法是去掉X中的一些列,这样就转化为去掉多少列以及哪几列应该去掉的问题。 调整普通最小二乘法瓶颈的方法:前向逐步回归和岭回归。 前向逐步回归就是要找出最佳的特征子集。如果把所有特征的1列-n列子集全部计算一次,会花费大量时间。所以从1列子集开始,找到效果最佳的那一列特征,接着寻找与其组合与效果最佳...
2019-10-06 18:49:24
333
原创 使用sklearnr的交叉验证计算分类器的性能
import numpy as np import pandas as pd from sklearn.model_selection import cross_val_score from sklearn.naive_bayes import GaussianNB from sklearn.ensemble import RandomForestClassifier 函数classifier...
2019-09-27 23:44:22
419
原创 使用健康档案数据计算OLT的用户光衰不合格率
import pandas as pd import numpy as np def read_unqualified_light_decay_excel(excel_name): data=pd.read_excel(excel_name,skiprows=[0,1,2],header=None) colname=['本地网','区县','运营分局','运营包区','营销中...
2019-09-27 23:31:06
1575
原创 pandas根据特征条件打标签
data['y']=data['streambreak_daysum'].apply(lambda x:1 if x>=streambreak_threshold else 0) | data['kanum_daysum'].apply(lambda y:1 if y>=kanum_threshold else 0)
2019-09-19 11:45:46
1409
原创 回归模型的性能评价指标
评估方法:求目标值与预测值的差异。 评估指标: MSE均方误差:误差平方和的均值 MAE平均绝对误差:误差绝对值的和 RMSE根均方误差:MSE开平方 计算目标值的方差和标准差,如果MSE与方差几乎相差或者RMSE与标准差几乎相等,说明预测算法不好。原因是该模型可以用对目标值求均值来替代。 ...
2019-09-04 23:14:56
1159
原创 影响算法选择及性能的因素:复杂度和数据
影响预测算法性能的因素主要有三个:问题的复杂度、模型的复杂度、可用的训练数据量。 一个复杂问题同时拥有大量训练数据,一个复杂模型可以得到比较精确的结果。 一个复杂问题没有足够多的数据,一个线性模型可能就是最好的结果。 一个简单问题,一个线性模型就可以解决。 方法:用复杂模型解决复杂问题,用简单模型解决简单问题,同时必须考虑数据规模。列比行多的数据集或者相对简单的问题,倾向于使用线性模型;行...
2019-09-03 23:33:14
3126
原创 数据标准化后画盒图和平行坐标图
import pandas as pd import matplotlib.pylot as plt from pylab import * from math import exp summary=data.describe() data_normalized=data ncols=len(data_normalized.columns) nrows=len(data_normalized...
2019-09-01 21:39:57
415
原创 相关系数热力图
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv(target_file) cormat = pd.DataFrame(df.corr()) plt.pcolor(cormat) plt.show() 属性之间如果完全相关(相关系数=1)意味着数据可能有错误,如同样的数据录入两次。 多个属性间的...
2019-08-31 23:53:38
5991
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅