《机器学习》总复习(上)

本文是机器学习的全面复习,涵盖了绪论、回归、LDA主题模型、决策树和支持向量机。讨论了模式识别、预测与数据挖掘的区别、模型评估、参数选择、正则化以及监督学习和非监督学习的分类。还详细讲解了线性回归、Logistic回归、LDA模型的生成过程,以及决策树的构造、剪枝策略和支持向量机的超平面与最大间隔概念。
摘要由CSDN通过智能技术生成

**

第一章《绪论》

**
1.1从两个问题谈起
1.相关概念:
(1)机器学习:是人工智能的另一部分,也是核心技术。其利用经验、建立统计模型、概率模型,去解决问题。是对某个实际问题建立计算模型,并利用已知的经验来提升模型效果的一类方法。
(2)模式识别:用计算的方法根据样本的特征将样本划分到一定的类别中去。
2.相关流程:
(1)一个标准的模式识别流程:
“客观对象”——>“数值表示”——>“计算机算法”——>“识别结果”
3.相关区别:
(1)预测和数据挖掘的区别:
①预测是偏重得到决策结果,而数据挖掘是偏重分析决策原因和过程。
②预测问题主要是在生物特征鉴别、机器视觉、目标跟踪等领域,代替人进行决策。数据挖掘问题主要是在商业数据、医学数据里,给人提供参考。
4.两个问题:
(1)选择何种模型?
(2)如何最优化该模型?
1.2模型评估与模型参数选择
1.训练得到一个模型的最终目的:在未知的数据上得到尽可能准确的结果。
2.衡量一个模型泛化能力的重要标准:泛化误差。
3.区分误差:
①训练误差:训练集上的平均误差
②泛化误差:测试集上的误差
4.不能把训练误差作为模型参数选择的标准的原因:
①训练集样本太少,缺乏代表性。
②训练集中本身存在错误的样本,即噪声。
5.为了选择效果最佳的模型,防止过拟合的问题,可采取的方法:
(1)使用验证机调参。
调参(参数的选择)的要求:必须在一个独立于训练集和测试集的数据集上进行。(用于模型调参的数据集被称为开发集和验证集)。交叉验证常用方法:
①简单交叉验证
②K-重交叉验
(2)对损失函数进行正则化。
正则化:为了避免过拟合,需要选择参数复杂度最小的模型。
1.3机器学习算法分类
1.机器学习的分类:监督学习与非监督学习
(1)监督学习:样本点以<x,y>这样的输入-输出二元组的形式出现。
①适用于两大类问题:回归和分类(这两类问题的区别在于:回归问题的输出是连续值,分类问题的输出是离散值。)
回归:以“均方损失函数”作为度量模型效果的指标。
分类:以“准确率”作为度量分类问题的指标。
②分类问题中的相关知识点:
· 分类问题分为“平衡问题”和“不平衡问题”。
· 在不平衡类问题中,使用“F-度量”作为评价模型的指标。
· F-

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金子的限定三文鱼块

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值