自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习实战10:Apriori

关联分析- Apriori算法优点:易编码实现。缺点:在大数据集上可能较慢。适用数据类型:数值型或者标称型数据。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。 频繁项集( frequent item sets)是经常出现在一块的物品的集合, 关联规则( association rules)暗示两种物品之间可能存在很强的关系。 一个项集的支...

2019-12-28 22:41:18 537

原创 机器学习实战09:K均值聚类

聚类聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。K-均值( K-means)聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。簇识别在介绍K-均值算法之前,先讨论一下簇识别( cluster identification)。簇识别给出聚类结果的...

2019-12-28 21:59:21 679

原创 机器学习实战08:树回归

树回归优点:可以对复杂和非线性的数据建模。缺点:结果不易理解。适用数据类型:数值型和标称型数据。连续和离散型特征的树的构建在树的构建过程中,需要解决多种类型数据的存储问题,可以使用一部字典来存储树的数据结构,该字典将包含以下4个元素:(1)待切分的特征(2)待切分的特征值(3)右子树。当不再需要切分的时候,也可以是单个值(4)左子树。与右子树类似树包含左键和右键,可以存储另一棵...

2019-12-28 20:30:07 216

原创 机器学习实战07:线性回归、岭回归、套索回归、逐步回归等

- 用线性回归找到最佳拟合直线优点:结果易于理解,计算上不复杂。缺点:对非线性的数据拟合不好。适用数据类型:数值型和标称型数据。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式 。- 回归的一般方法(1) 收集数据:采用任意方法收集数据。(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。(3) 分析数据:绘出数据的可视化二维图将有助于...

2019-12-14 22:02:14 1283

原创 机器学习实战06:利用AdaBoost元算法提高分类性能

我们可以将不同的分类器组合起来,而这种组合结果则被称为集成方法或者元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成 ,还可以是数据集不同部分分配给不同分类器之后的集成。优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。缺点:对离群点敏感。适用数据类型:数值型和标称型数据。- bagging:基于数据随机重抽样的分类器构建方法自举...

2019-12-14 21:22:31 258

原创 机器学习实战05:支持向量机

- 基于最大间隔分隔数据关于支持向量机优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。如果数据点离决策边界越远,那么其最后的预测结果也就越可信。 我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔。我们希望间隔尽可能地大,这是因为如果我...

2019-12-02 15:50:14 470

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除