《机器学习》总复习（上）

最新推荐文章于 2024-07-25 16:05:31 发布

金子的限定三文鱼块

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量487

点赞数 1

分类专栏：机器学习与模式识别文章标签：机器学习决策树算法

本文链接：https://blog.csdn.net/weixin_45981515/article/details/112391135

版权

本文是机器学习的全面复习，涵盖了绪论、回归、LDA主题模型、决策树和支持向量机。讨论了模式识别、预测与数据挖掘的区别、模型评估、参数选择、正则化以及监督学习和非监督学习的分类。还详细讲解了线性回归、Logistic回归、LDA模型的生成过程，以及决策树的构造、剪枝策略和支持向量机的超平面与最大间隔概念。

摘要由CSDN通过智能技术生成

第一章《绪论》

**
1.1从两个问题谈起
1.相关概念：
（1）机器学习：是人工智能的另一部分，也是核心技术。其利用经验、建立统计模型、概率模型，去解决问题。是对某个实际问题建立计算模型，并利用已知的经验来提升模型效果的一类方法。
（2）模式识别：用计算的方法根据样本的特征将样本划分到一定的类别中去。
2.相关流程：
（1）一个标准的模式识别流程：
“客观对象”——>“数值表示”——>“计算机算法”——>“识别结果”
3.相关区别：
（1）预测和数据挖掘的区别：
①预测是偏重得到决策结果，而数据挖掘是偏重分析决策原因和过程。
②预测问题主要是在生物特征鉴别、机器视觉、目标跟踪等领域，代替人进行决策。数据挖掘问题主要是在商业数据、医学数据里，给人提供参考。
4.两个问题：
（1）选择何种模型？
（2）如何最优化该模型？
1.2模型评估与模型参数选择
1.训练得到一个模型的最终目的：在未知的数据上得到尽可能准确的结果。
2.衡量一个模型泛化能力的重要标准：泛化误差。
3.区分误差：
①训练误差：训练集上的平均误差
②泛化误差：测试集上的误差
4.不能把训练误差作为模型参数选择的标准的原因：
①训练集样本太少，缺乏代表性。
②训练集中本身存在错误的样本，即噪声。
5.为了选择效果最佳的模型，防止过拟合的问题，可采取的方法：
(1)使用验证机调参。
调参（参数的选择）的要求：必须在一个独立于训练集和测试集的数据集上进行。（用于模型调参的数据集被称为开发集和验证集）。交叉验证常用方法：
①简单交叉验证
②K-重交叉验
(2)对损失函数进行正则化。
正则化：为了避免过拟合，需要选择参数复杂度最小的模型。
1.3机器学习算法分类
1.机器学习的分类：监督学习与非监督学习
（1）监督学习：样本点以<x,y>这样的输入-输出二元组的形式出现。
①适用于两大类问题：回归和分类（这两类问题的区别在于：回归问题的输出是连续值，分类问题的输出是离散值。）
回归：以“均方损失函数”作为度量模型效果的指标。
分类：以“准确率”作为度量分类问题的指标。
②分类问题中的相关知识点：
· 分类问题分为“平衡问题”和“不平衡问题”。
· 在不平衡类问题中，使用“F-度量”作为评价模型的指标。
· F-

最低0.47元/天解锁文章

金子的限定三文鱼块

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
《机器学习》总复习（上）

**第一章《绪论》**1.1从两个问题谈起1.相关概念：（1）机器学习：是人工智能的另一部分，也是核心技术。其利用经验、建立统计模型、概率模型，去解决问题。是对某个实际问题建立计算模型，并利用已知的经验来提升模型效果的一类方法。（2）模式识别：用计算的方法根据样本的特征将样本划分到一定的类别中去。2.相关流程：（1）一个标准的模式识别流程：“客观对象”——>“数值表示”——>“计算机算法”——>“识别结果”3.相关区别：（1）预测和数据挖掘的区别：①预测是偏重得到决
复制链接

扫一扫