- 博客(11)
- 收藏
- 关注
转载 用python处理亿万级别的数据
https://blog.csdn.net/chuanda112233/article/details/51707386
2018-10-26 21:15:07
3391
1
原创 数据预处理过程
1,去除唯一属性: 如id属性,自增列,含唯一值的列,这些属性并不能描述本身的分布规律。 2,处理缺失值: (1)直接使用含有缺失值的特征,如决策树算法。 (2)删除含有缺失值的特征,如果特征列含有大量缺失值,而仅包含极少量的有效值,则删除是最有效的。 (3)缺失值补全,其思想是用最有可能的值来插补缺失值 常见的缺失值补全方法:均值插补、同类均值插补、建...
2018-09-01 15:35:19
2689
转载 使用selenium操作PhantomJS的常用操作
https://blog.csdn.net/weixin_39198406/article/details/78231439
2018-08-29 10:03:25
140
原创 有监督学习和无监督学习的区别
有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT) 无监督学习:对未标记的样本进行训练学习,发现这些样本中的结构知识。...
2018-08-29 08:50:24
684
转载 用python实现8大排序算法
[https://blog.csdn.net/aliceyangxi1987/article/details/50522071]
2018-08-29 08:48:20
149
原创 overfitting怎么解决
overfitting就是过拟合, 其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标,没有良好的泛化,就等于南辕北辙, 一切都是无用功...
2018-08-29 08:42:56
504
转载 梯度下降法
1、什么是梯度下降法 经常在机器学习中的优化问题中看到一个算法,即梯度下降法,那到底什么是梯度下降法呢? 维基百科给出的定义是梯度下降法(Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部...
2018-08-29 08:40:27
96
原创 数据归一化(或者标准化,注意归一化和标准化不同)的原因:
数据归一化(或者标准化,注意归一化和标准化不同)的原因: 要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如SVM)需要归一化。 有些模型伸缩与原来等价,如:LR则不用归一化,但是实际中往往通过迭代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发生不收敛的情...
2018-08-29 08:36:10
719
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人