机器学习-期末复习

文章目录


考题分数分配

简答题 5题 x 7分
计算题 3题 x 15分
设计题 1题 x 20分

两篇别人总结西瓜书:
西瓜书
周志华老师

第一讲 人工智能的引擎

1.什么是机器学习

学习某个函数,这个函数里面可能有很多参数,一旦有参数必定有参数取值范围,大部分参数的取值范围都是通过某些数据来学出这些参数值。

一要有数据、样本,二要有设计好的函数或模型,包含参数待求解,接下来要把数据样本喂到模型里面,通过某些策略去评估当前模型好坏程度,有了好坏程度就可以想办法调整模型里面的参数,使得最后的参数能得到最好的预测或分类的效果。使得学到的模型能很好的适用于“新样本”。

本质上是函数,函数里面包含待求解参数,这些待求解参数是需要通过数据样本学习出来的。

2.机器学习三要素

见第1点

3.设计人脸识别系统/分为几个步骤

(其实就是复述 【什么是机器学习】的内容)
首先,收集大规模人脸数据库;
接下来,设计人脸识别算法,这个算法可以基于神经网络,也可以基于特征提取+分类器的;
然后把大规模人脸识别数据扔到这个算法,可以评估当前模型的好坏程度,算出误差;
再通过误差想办法调整模型里面的参数,经过若干轮的迭代,使得模型参数能够收敛,收敛完之后就可以把模型做人脸识别过程。

4.机器学习的分类

问:学了哪些监督学习方法,学了哪些非监督学习方法?
监督学习:样本有标签,用标签对你预测的结果评估,学习过程有个老师来指导你(当你学完一个模型之后,可以用样本的标签来计算当前模型错误的程度)
无监督学习:在学习过程当中,不需要样本标签,(PCA算法,整个过程不需要样本标签,只需要对样本的分布做分析,构造投影矩阵,这个矩阵可以把高维变成低维。)

在这里插入图片描述
在这里插入图片描述
生活中的应用:1.Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。

在这里插入图片描述
在这里插入图片描述

第二讲 模型评估(简答)

怎么去评估机器学习模型是好的还是不好的,最简单的是假设像分类那种应用,做对就是做对,做错就是做错,还有一种是衡量做对做错的程度。
在这里插入图片描述

1.过拟合欠拟合

在这里插入图片描述
如图所示,过拟合过于强调细节,边缘没有尺状的就判断它不是树叶
欠拟合没有学到本质,以为凡是绿色的一片就认为是树叶
在这里插入图片描述

过拟合定义:对训练数据练得太好了,真正把它拿到现实应用场景时,发现可能跟训练数据相比,准确率会大幅度下降。

过拟合原因:样本太少,样本分布和真实世界采集的样本是有差异的。(举例子:比如做监控系统,目标是抓拍一些违章的车和人,数据收集起来的全都是白天光照条件非常好的环境,那实际上应用到真实系统中,会有一些下雨天或天气情况比较不好的情况,那练的模型是针对于光照条件比较好的数据,测试的时候如果是在比较复杂的天气环境,应用场景和训练场景这两个场景分布是不一致的,数据的分布不是同分布)

如何解决:增大训练样本量,尽可能在跟应用背景相关的环境里面采集足够多的数据,使得训练样本和测试样本尽可能同分布,比例尽可能相同,当测试数据和训练数据是独立同分布时,那练出来的模型相对效果会好。

欠拟合原因:模型本身设置不够好,模型超参数调不够好。

【补:如何解决欠拟合】添加新特性、增加模型复杂度、减小正则化系数

2.训练集测试集验证集

请问训练集测试集验证集分别是什么?

【百度】:

训练集(train set) —— 用于模型拟合的数据样本。

验证集(validation set)—— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。 通常用来在模型迭代训练时,用以验证当前模型泛化能力,以决定是否停止继续训练。

测试集 —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值