【论文学习笔记】机器学习发展及八种机器学习的基础算法

你可以在我的幕布里面查看这篇文章,也可以查看对应的思维导图
在这里插入图片描述
你可以转载或者保存,如果能注明出处或者点个赞那是最好的啦
感谢!


论文学习:机器学习及其相关算法综述(2007)

  • label: 国内,机器学习,综述,人大统计学院

  • 分类

    • 按样本特性分??

      • 监督学习(有指导的学习):带有标签

      • 无监督学习:无标签

      • 半监督学习:部分带有标签

        • 采用归纳——演绎式方法:从带标签样本推断出一定规律,再用规律推断无标签样本的标志

        • 现阶段半监督学习性能不太稳定(2007)

        • 代表方法:1利用朴素贝叶斯生成式模型.
          2通过EM算法进行标记估计和参数估计。3.通过转导推断优化特定测试集上的性能。
          4.利用独立冗余属性来进行协同训练

    • 按度量结果分

      • 回归问题(定量分析):针对连续数据

      • 分类问题(定性分析):针对离散数据

  • 发展历程(四个时期)

    • 机器学习是人工智能研究较为年轻的分支

    • 第一阶段(热烈时期):20世纪50年代中叶到60年代中叶

      • 热烈时期:“没有知识”的学习

      • 研究对象:各类自组织系统和自适应系统

      • 研究方法:不断修改系统的控制参数和修改系统的执行能力,不涉及具体任务

      • 代表成果:塞缪尔(Samuel)下棋程序

      • 结果:不能满足对机器学习系统的期望

    • 第二阶段()冷静时期):20世纪60年代中叶到70年代中叶

      • 研究目标:模拟人类的概念学习过程

      • 研究方法:采用逻辑结构或图结构作为机器内部描述

      • 代表成果:温斯顿的结构学习系统,海梅罗思的基本逻辑的归纳学习系统

    • 第三阶段(复兴阶段):20世纪70年代中叶到80年代中叶

      • 进步:开始把学习系统与各种应用结合,从学习单个概念拓展到多个概念

      • 1980年美国卡内基梅隆(CMU)召开第一届及去学习国际研讨会——机器学习研究兴起

    • 第四阶段(现阶段):从三个研究方向进行

      • 1.面向任务:分析跟开发学习系统——专家系统

      • 2.认识模拟:研究模拟人类的学习过程——心理学角度

      • 3.理论分析

    • 八种常用算法

      • 1.决策树

        • 树状预测模型,核心是选择分裂属性和决策树的剪枝

        • 算法:ID3,C4.5,CART。均采用自顶向下的贪婪算法

      • 2.随机森林算法

        • 当数据中噪声或者分裂属性过多时,无法解决决策树不平衡或过拟合的问题

        • 通过构造多分类器或回归器的集成能提高分类或预测精度

        • 随机森林由多个决策树构成,每一颗决策树对输入向量X进行投票,最终票数最多的就是最终标签

        • 可用于处理回归、分类、聚类以及生存问题等

        • 随机森林的广义误差上界可以根据两个参数推推导出来

      • 3.人工神经网络(ANN)

        • ANN模型之间的差异主要表现再:研究途径、网络结构、运行方式、学习算法和应用上

        • 常见模型:多层前向神经网络(MLFN)、自组织神经网络SOM、ART、Hopfield神经网络、模糊神经网络FNN

        • 重点:构造阈值逻辑单元

        • 神经网络是基于经验风险最小化原则的学习算法

        • 缺陷:层数跟神经元个数难以确定,容易陷入局部最优,过拟合。能通过SVM算法进行优化

      • 4.支持向量机(SVM算法)

        • 建立在统计学习理论基础上,自动寻找出那些对分类有较好区分能力的支持向量

        • 最大化类与类之间的间隔

        • 寻找一个超平面,将数据分开且类域边界沿垂直于改平面方向距离最大

        • 非线性问题可以通过非线性变化转化为某个高位空间中的线性问题

        • 核函数:多项式核、高斯(径向基函数)核、二层神经网络核

        • 算法:SVM—light、SMO、Chunking

        • 三个特点(1)结构风险最小化原则。(2)算法转化为线性约束的凸优化问题,保证全局最优解。(3)应用核技术,将输入空间中现性不可分问题转化为特征空间线性可分问题

      • 5.Boosting与Bagging算法

        • 是一种提高学习算法准确度的方法,通过构造预测函数,将弱学习算法提升为强学习算法

        • AdaBoost:对训练失败的样本赋予较大权重

        • Boosting是一种基于其他算法之上用于提高精度与性能的算法,无论用于线性回归、神经网络还是SVM都可以有效的提高精度。

        • 可以看作一种通用的增强基础算法性能的回归分析算法

        • Bagging与Boosting的区别在于Bagging的训练集是随机选择的,格伦训练集之间相互独立,所以可以通过并行训练节省大量时间开销

      • 6.关联规则算法

        • 关联规则课理解为:分析变量之间的饿关系,并且把这种关系表达成非常容易理解的规则的方法

        • 关联规则分析对数据分布不做任何要求,结构完全基于数据,反应数据,可以看作是数据中所有变量间规律的总结

      • 7.贝叶斯算法

        • 在已知先验概率与类条件概率的情况下的模式分类方法
      • 8.EM算法

        • 在存在潜在变量的情况下对模型参数进行估计的方法,极大似然估计

        • 不是直接对复杂的后验分布进行极大化或模拟,而是添加一些潜在数据

        • 特点是简单稳定,每一次迭代保证单调不减

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值