yjw_Jone-CSDN博客

转载用python处理亿万级别的数据

https://blog.csdn.net/chuanda112233/article/details/51707386

2018-10-26 21:15:07 3391 1

转载 5类推荐算法

https://blog.csdn.net/u010670689/article/details/71513133/

2018-09-07 00:16:32 297

转载基于内容的推荐算法

https://blog.csdn.net/nicajonh/article/details/79657317

2018-09-06 11:39:26 171

原创数据预处理过程

1，去除唯一属性：如id属性，自增列，含唯一值的列，这些属性并不能描述本身的分布规律。 2，处理缺失值： (1)直接使用含有缺失值的特征，如决策树算法。 (2)删除含有缺失值的特征,如果特征列含有大量缺失值，而仅包含极少量的有效值，则删除是最有效的。 (3)缺失值补全，其思想是用最有可能的值来插补缺失值常见的缺失值补全方法：均值插补、同类均值插补、建...

2018-09-01 15:35:19 2689

转载使用selenium操作PhantomJS的常用操作

https://blog.csdn.net/weixin_39198406/article/details/78231439

2018-08-29 10:03:25 140

原创有监督学习和无监督学习的区别

有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（LR,SVM,BP,RF,GBDT）无监督学习：对未标记的样本进行训练学习，发现这些样本中的结构知识。...

2018-08-29 08:50:24 684

转载用python实现8大排序算法

[https://blog.csdn.net/aliceyangxi1987/article/details/50522071]

2018-08-29 08:48:20 149

转载大型网站架构

https://blog.csdn.net/baidu_39511645/article/details/78345573

2018-08-29 08:44:38 107

overfitting就是过拟合, 其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标，没有良好的泛化，就等于南辕北辙, 一切都是无用功...

2018-08-29 08:42:56 504

转载梯度下降法

1、什么是梯度下降法经常在机器学习中的优化问题中看到一个算法，即梯度下降法，那到底什么是梯度下降法呢？维基百科给出的定义是梯度下降法（Gradient descent）是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部...

2018-08-29 08:40:27 96

原创数据归一化（或者标准化，注意归一化和标准化不同）的原因:

数据归一化（或者标准化，注意归一化和标准化不同）的原因: 要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化。有些模型伸缩与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情...

2018-08-29 08:36:10 719

yjw_Jone的博客