2019年12月_Evil

原创机器学习实战10：Apriori

关联分析- Apriori算法优点：易编码实现。缺点：在大数据集上可能较慢。适用数据类型：数值型或者标称型数据。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集（ frequent item sets）是经常出现在一块的物品的集合，关联规则（ association rules）暗示两种物品之间可能存在很强的关系。一个项集的支...

2019-12-28 22:41:18 537

聚类聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。K-均值（ K-means）聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别在介绍K-均值算法之前，先讨论一下簇识别（ cluster identification）。簇识别给出聚类结果的...

2019-12-28 21:59:21 679

原创机器学习实战08：树回归

树回归优点：可以对复杂和非线性的数据建模。缺点：结果不易理解。适用数据类型：数值型和标称型数据。连续和离散型特征的树的构建在树的构建过程中，需要解决多种类型数据的存储问题，可以使用一部字典来存储树的数据结构，该字典将包含以下4个元素：（1）待切分的特征（2）待切分的特征值（3）右子树。当不再需要切分的时候，也可以是单个值（4）左子树。与右子树类似树包含左键和右键，可以存储另一棵...

2019-12-28 20:30:07 216

原创机器学习实战07：线性回归、岭回归、套索回归、逐步回归等

- 用线性回归找到最佳拟合直线优点：结果易于理解，计算上不复杂。缺点：对非线性的数据拟合不好。适用数据类型：数值型和标称型数据。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。- 回归的一般方法(1) 收集数据：采用任意方法收集数据。(2) 准备数据：回归需要数值型数据，标称型数据将被转成二值型数据。(3) 分析数据：绘出数据的可视化二维图将有助于...

2019-12-14 22:02:14 1283

原创机器学习实战06：利用AdaBoost元算法提高分类性能

我们可以将不同的分类器组合起来，而这种组合结果则被称为集成方法或者元算法。使用集成方法时会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成 ,还可以是数据集不同部分分配给不同分类器之后的集成。优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整。缺点：对离群点敏感。适用数据类型：数值型和标称型数据。- bagging：基于数据随机重抽样的分类器构建方法自举...

2019-12-14 21:22:31 258

原创机器学习实战05：支持向量机

- 基于最大间隔分隔数据关于支持向量机优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。如果数据点离决策边界越远，那么其最后的预测结果也就越可信。我们希望找到离分隔超平面最近的点，确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔。我们希望间隔尽可能地大，这是因为如果我...

2019-12-02 15:50:14 470

一七

原创机器学习实战10：Apriori

原创机器学习实战09：K均值聚类

原创机器学习实战08：树回归

原创机器学习实战07：线性回归、岭回归、套索回归、逐步回归等

原创机器学习实战06：利用AdaBoost元算法提高分类性能

原创机器学习实战05：支持向量机

空空如也

空空如也

原创 机器学习实战10：Apriori

原创 机器学习实战09：K均值聚类

原创 机器学习实战08：树回归

原创 机器学习实战07：线性回归、岭回归、套索回归、逐步回归等

原创 机器学习实战06：利用AdaBoost元算法提高分类性能

原创 机器学习实战05：支持向量机

空空如也

空空如也

原创机器学习实战10：Apriori

原创机器学习实战09：K均值聚类

原创机器学习实战08：树回归

原创机器学习实战07：线性回归、岭回归、套索回归、逐步回归等

原创机器学习实战06：利用AdaBoost元算法提高分类性能

原创机器学习实战05：支持向量机