机器学习-期末复习

whh_0509

已于 2023-04-16 10:50:07 修改

阅读量965

点赞数 1

文章标签：机器学习人工智能深度学习

于 2022-01-02 14:00:47 首次发布

本文链接：https://blog.csdn.net/whaha12/article/details/122265349

版权

文章目录

考题分数分配
第一讲人工智能的引擎
第二讲模型评估（简答）
第三讲 k近邻算法
- 1.简答题：
第四讲决策树（有log的不作考点，连续值不考）
第五讲朴素贝叶斯（课件绝大部分都要）
第六讲逻辑回归
- 简答为什么要把阶跃式函数变成Sigmoid函数？
- 极大似然估计过程（重点）
第七讲支持向量机（简答计算设计皆可）
第八讲深度学习
第九讲主成分分析
- 简答题
- - 优点
  - 掌握pca流程:

考题分数分配

简答题 5题 x 7分
计算题 3题 x 15分
设计题 1题 x 20分

两篇别人总结西瓜书：
西瓜书
 周志华老师

第一讲人工智能的引擎

1.什么是机器学习

学习某个函数，这个函数里面可能有很多参数，一旦有参数必定有参数取值范围，大部分参数的取值范围都是通过某些数据来学出这些参数值。

一要有数据、样本，二要有设计好的函数或模型，包含参数待求解，接下来要把数据样本喂到模型里面，通过某些策略去评估当前模型好坏程度，有了好坏程度就可以想办法调整模型里面的参数，使得最后的参数能得到最好的预测或分类的效果。使得学到的模型能很好的适用于“新样本”。

本质上是函数，函数里面包含待求解参数，这些待求解参数是需要通过数据样本学习出来的。

2.机器学习三要素

见第1点

3.设计人脸识别系统/分为几个步骤

（其实就是复述【什么是机器学习】的内容）
首先，收集大规模人脸数据库；
接下来，设计人脸识别算法，这个算法可以基于神经网络，也可以基于特征提取＋分类器的；
然后把大规模人脸识别数据扔到这个算法，可以评估当前模型的好坏程度，算出误差；
再通过误差想办法调整模型里面的参数，经过若干轮的迭代，使得模型参数能够收敛，收敛完之后就可以把模型做人脸识别过程。

4.机器学习的分类

问：学了哪些监督学习方法，学了哪些非监督学习方法？
监督学习：样本有标签，用标签对你预测的结果评估，学习过程有个老师来指导你（当你学完一个模型之后，可以用样本的标签来计算当前模型错误的程度）
无监督学习：在学习过程当中，不需要样本标签，（PCA算法，整个过程不需要样本标签，只需要对样本的分布做分析，构造投影矩阵，这个矩阵可以把高维变成低维。）

在这里插入图片描述

生活中的应用：1.Google新闻按照内容结构的不同分成财经，娱乐，体育等不同的标签，这就是无监督学习中的聚类。

在这里插入图片描述

第二讲模型评估（简答）

怎么去评估机器学习模型是好的还是不好的，最简单的是假设像分类那种应用，做对就是做对，做错就是做错，还有一种是衡量做对做错的程度。
在这里插入图片描述

1.过拟合欠拟合

在这里插入图片描述
如图所示，过拟合过于强调细节，边缘没有尺状的就判断它不是树叶
欠拟合没有学到本质，以为凡是绿色的一片就认为是树叶

过拟合定义：对训练数据练得太好了，真正把它拿到现实应用场景时，发现可能跟训练数据相比，准确率会大幅度下降。

过拟合原因：样本太少，样本分布和真实世界采集的样本是有差异的。（举例子：比如做监控系统，目标是抓拍一些违章的车和人，数据收集起来的全都是白天光照条件非常好的环境，那实际上应用到真实系统中，会有一些下雨天或天气情况比较不好的情况，那练的模型是针对于光照条件比较好的数据，测试的时候如果是在比较复杂的天气环境，应用场景和训练场景这两个场景分布是不一致的，数据的分布不是同分布）

如何解决：增大训练样本量，尽可能在跟应用背景相关的环境里面采集足够多的数据，使得训练样本和测试样本尽可能同分布，比例尽可能相同，当测试数据和训练数据是独立同分布时，那练出来的模型相对效果会好。

欠拟合原因：模型本身设置不够好，模型超参数调不够好。

【补：如何解决欠拟合】添加新特性、增加模型复杂度、减小正则化系数

2.训练集测试集验证集

请问训练集测试集验证集分别是什么？

【百度】：

训练集（train set） —— 用于模型拟合的数据样本。

验证集（validation set）—— 是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能

最低0.47元/天解锁文章

whh_0509

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
机器学习-期末复习

文章目录第一讲人工智能的引擎1.什么是机器学习2.机器学习三要素3.设计人脸识别系统/分为几个步骤4.机器学习的分类第二讲模型评估（简答）1.过拟合欠拟合2.训练集测试集验证集请问训练集测试集验证集分别是什么？请问如何切割训练集验证集测试集？准则是什么？怎么样做评估？评估里面传统方法有哪些方法？什么叫留出法？什么叫交叉验证法？3.性能度量第三讲 k近邻算法1.简答题：kNN概念关于学不学习？流程比如1近邻算法是过拟合还是欠拟合？K不一样时会面临什么问题？有什么优缺点？给个向量，如何找到最近邻的K个点..
复制链接

扫一扫