《白话大数据与机器学习》读书笔记2

这部分介绍数据挖掘基础知识与算法

多维向量空间

1、向量:Vector这个词最初来源于几何学,几何向量也称为欧几里得向量,通常简称向量、矢量,是指具有大小和方向的几何对象表示,在平面几何和立体几何中通常把一个向量画成一个箭头。除了用箭头表示外,还有一种在数据计算领域更常用的方法,即用(a,b,c,d…)来表示。其中,a、b、c、d等每个元素都是一个维度上的数据取值。
2、维度:指的是参照系,有多少个维度就有多少个参照系,2D就是有两个参照系,3D就是有3个参照系。

回归

1、回归:是一种结题方法,或者说“学习”方法。简单说就是“因果索因”的过程,是一种归纳的思想——当看到大量的事实所呈现的样态,推断出原因是如何的;当看到大量的数字对是某种样态,推断出它们之间蕴含的关系是如何的。
2、过拟合:为了迎合所有样本向量点甚至噪声点而使模型描述过于复杂。
过度拟合的危害:描述复杂、失去泛化能力。
过度拟合的原因:训练样本太少、力求“完美”。
3、欠拟合:顾名思义,就是由于操作不当——也可以说建模不当产生的误差e分布太散或者太大的情况,这种情况下,通常体现出来的都是在线性回归中的因素考虑不足的情况,常见的原因有以下两种,参数过少或拟合不当。

聚类

1、聚类:指的是一种学习方式(操作方式),即把物理或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。
2、k-means算法:是基于向量的距离来做聚类,步骤如下。
首先从n个向量对象任意选择k个向量作为初始聚类中心,计算每个对象与这k个中心对象各自的距离;然后把这个向量和距离它最近的中心向量对象归为一类簇,并重新计算每个类簇的中心对象向量的位置;重复上一步骤,直到类簇聚类方案中的向量归类变化极少为止。此方法需要事先指定类簇的数量和给定初始的类中心。
3、有趣模式:是指容易让我们产生兴趣的模式,特点是,易于被人理解;在某种确信度上对于新的或检验数据有效;是潜在有用的;是新颖的。
4、层次聚类分两种:凝聚和分裂。凝聚的层次聚类方法就是在大量的样本中自底向上找那些距离比较近的样本先聚类成小群,聚合到一定程度再由小的群聚合成更大的群;分裂的层次聚类方法,就是先把所有样本分为若干个大群,再在每一个群里各自重新进行聚类划分。
5、密度聚类::用于形状不规则的情况,通过调整权值、设置阈值和最小向量的方式进行聚类

分类

分类和聚类不同的是:分类是有监督的学习,训练前会给出一个理想的结果,通过不断的训练和学习构建所需的分类器。常用的分类训练算法有:
1、朴素贝叶斯:是一种概率计算模型,通过对先验概率和类条件概率密度函数表达式来转化为后验概·率,根据后验概率进行决策分类。
公式为:P(A|B)P(B)=P(B|A)P(A)
2、决策树归纳:是一种树形分类结构,包括根节点(样本全集)、叶节点(分类结果)、内部节点(属性测试)。通过对样本进行特征提取来划分最优属性,最后达成分支节点属性相同的效果。
3、 随机森林:是一个构造多颗决策树的过程,人们为一个训练集构造若干颗决策树,当有新样本需要进行分类时,同时把这个样本给这几棵数,然后用类似民族投票表决的方式来决定新样本应该归属于哪类,哪一类“得票多”就归为哪一类。
4、隐马尔可夫模型:是基于马尔科夫链,通过观察过程中的隐含参数做进一步分析,进行模式识别。
5、支持向量机(SVM):它可以用来做模式识别、分类或回归的机器学习,解决问题的方法有以下几步,把所有的样本和其对应的分类标记交给算法进行训练;如果发现线性可分,那就直接找出超平面;如果发现线性不可分,那就映射到n+1维空间,找出超平面;最后得到超平面的表达式也就是分类函数。
6、遗传算法:是一种处理问题的思想方式,遗传算法这个体系都是在说对于一种问题处理的思路和原则。关键步骤,先通过对已有的基因进行编码;再设计初始群体;适应度计算,对那些不太适应的个体进行裁剪;通过直接选择、基因重组或基因突变方法产生下一代;重复以上过程直到连续好几代都没有明显的适应函数的增长则表示找到最优解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值