人工智能考前复习（一）

伏尔加河的卷毛

已于 2022-06-07 13:59:48 修改

阅读量1.5k

点赞数 3

分类专栏： AI相关文章标签：人工智能 python

于 2022-06-07 13:53:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51005207/article/details/125163002

版权

AI相关专栏收录该内容

11 篇文章 0 订阅

订阅专栏

目录

考点一：计算假设空间大小

考点二：K近邻算法

考点三：线性模型拟合

例题1：求出对应的线性回归模型

例题2：线性回归方法处理非线性数据

考点四：OvO,OvR,MvM分类器

例题1：计算分类器个数

例题2： ECOC编码

考点五：决策树

例题1：计算信息熵、信息增益、信息增益率

例题2：ID3和C4.5算法

例题3：构造决策树与剪枝

例题4：什么是欠拟合和过拟合

例题5：简述预剪枝和后剪枝的区别

例题6：性能度量指标计算和理解

考点六：聚类

例题1：K-均值算法中求类中心

例题2：分层聚类应用

例题3：方差特征选择法

考点一：计算假设空间大小

注意：未来可能出现的样本/可能出现的样本种类没有+1，假设种类有+1

例题：

下表所示数据集的假设空间规模大小是多少（可产生多少种假设）？

3个属性“色泽”、“根蒂”、“敲声”，分别有2、3、3种可能取值：色泽={青绿,乌黑}、根蒂={蜷缩,硬挺,稍蜷}、敲声={浊响,清脆,沉闷}

• 注意“好瓜”是标签，因此不参与假设的表示，而是用于判断假设的成立

需考虑“*”，即属性对假设无限制的情况

因此假设空间规模大小为： (2 + 1) × (3 + 1) × (3 + 1) = 3 × 4 × 4 = 48

如果问：可能出现的样本种类是多少则不需要+1，结果为 2 × 3 × 3 = 18

考点二：K近邻算法

K近邻算法的工作流程：

1、输入：待分类样本；

2、选出最近的K个已知样本；

3、投票决定类别（少数服从多数）；

4、输出：预测的类别

K近邻算法特点：
消极学习(lazy learn），不描述函数，接收新样本后才启动

性能受K值、相似性度量、投票策略等控制
K值：
过小→相近邻居决定分类、易受噪声点干扰、鲁棒性弱

过大→不相似邻居参与决策、分类性能弱

距离加权式K近邻算法：

1、输入：待分类样本；

2、选出最近的K个已知样本；

3、计算K个邻居的投票权重；（一般题目会给）

4、投票决定新样本类别；

5、输出：预测的类别

例题：

注：需要记住欧式距离、汉明距离、曼哈顿距离的公式

考点三：线性模型拟合

例题1：求出对应的线性回归模型

题目一般会给出公式

给出下列3个数据样本，求出对应的线性回归模型

解出的答案为：

例题2：线性回归方法处理非线性数据

1. （多项式回归）多项式展开，在自变量x1,x2等的基础上构建新的自变量组合，比如x1的平方，x2的平方，x1*x2等选项；

2. 局部加权线性回归

局部加权线性回归，英文为local wighted linear regression, 简称为LWLR。从名字可以看出，该方法有两个关键点，局部和加权。

考的概率小，了解即可。具体可看下面这篇文章

使用局部加权线性回归解决非线性数据的拟合问题_生信修炼手册的博客-CSDN博客

考点四：OvO,OvR,MvM分类器

例题1：计算分类器个数

例题2： ECOC编码

要求：会计算测试示例与其他类别的海明（汉明）距离和欧式距离。

注意：海明（汉明）距离：相同的值+0，不同的值+1。不同的值里，特别地，遇到0则＋0.5。

考点五：决策树

要求：会计算信息熵、信息增益、信息增益率；会用ID3和C4.5构造决策树；明白ID3和C4.5的区别以及各自的特点；

例题1：计算信息熵、信息增益、信息增益率

计算信息熵、信息增益、信息增益率更多例子请看：

Python计算信息熵、条件熵、信息增益例子_feiyang5260的博客-CSDN博客_python计算信息熵

信息熵的计算_梵大仙的博客-CSDN博客_信息熵计算

信息增益率_醉糊涂仙的博客-CSDN博客_信息增益率

ID3算法是通过信息增益选择属性

例题2：ID3和C4.5算法

ID3和C4.5算法的优缺点:

ID3、C4.5、CART三种算法优缺点比较_独自凌寒的博客-CSDN博客_cart算法的优缺点

ID3和C4.5算法的区别：

ID3与C4.5的区别_ShenYounger的博客-CSDN博客_id3和c4.5的区别

例题3：构造决策树与剪枝

如何构造决策树（ID3）：（以西瓜数据集为例）

决策树（decision tree）(一)——构造决策树方法_天泽28的博客-CSDN博客_决策树

如何构造决策树（C4.5）：

数据挖掘--决策树C4.5算法（例题）_尾随大叔的博客-CSDN博客_c4.5算法例题

如何进行预剪枝和后剪枝：（以以西瓜数据集为例）

决策树的预剪枝与后剪枝_zfan520的博客-CSDN博客_预剪枝

例题4：什么是欠拟合和过拟合

从训练误差（在训练集上的误差）上体现：

训练误差太小→过拟合（overfitting）→ 泛化能力弱

训练误差太大→欠拟合（underfitting）→ 预测能力弱

例题5：简述预剪枝和后剪枝的区别

预剪枝：在生成决策树的过程中提前停止树的增长。核心思想是在树中结点进行扩展之前，先计算当前的划分是否能带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中，按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法：

( 1 ）当树到达一定深度的时候，停止树的生长。

( 2 ）当到达当前结点的样本数量小于某个阈值的时候，停止树的生长。

( 3 ）计算每次分裂对测试集的准确度提升，当小于某个阈值的时候，不再继续扩展。

预剪枝具有思想直接、算法简单、效率高等特点，适合解决大规模问题。但如何准确地估计何时停止树的生长（即上述方法中的深度或阈值），针对不同问题会有很大差别，需要一定经验判断。且预剪枝存在一定局限性，高欠拟合的风险，虽然当前的划分会导致测试集准确率降低，但在之后的划分中，准确率可能会高显著上升。

后剪枝：就是先生成一棵完全生长的决策树，然后自底向上的对非叶结点进行考察，计算是否剪枝。若将该结点对应的子树换为叶结点能够带来泛化性能的提升，则把该子树替换为叶结点。该结点的类别同样按照多数投票的原则进行判断。同样地，后剪枝也可以通过在测试集上的准确率进行判断，如果剪枝过后准确率有所提升，则进行剪枝。相比于预剪枝，后剪枝方法通常可以得到泛化能力更强的决策树，但时间开销会更大。

例题6：性能度量指标计算和理解

想了解更多请看：

【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）_齐在的博客-CSDN博客_留出法

考点六：聚类

K-均值算法（K-Means）：

1、选取相似性度量（路程远近的度量方式）

2、选取K值

3、选取簇核心

4、样本划分

5、调整核心（重新计算核心）

6、重复3、4步，循环至收敛（核心不再改变）

分层聚类：

1、将每个样本视作一个簇；

2、找出距离最近的两个簇进行合并；

3、重复2直至达到预期簇数或所有样本合并为一个簇。

具体可看：聚类Agglomerative Clustering 及其三种方法Single-linkage、Complete-linkage，Group average_吸一口柠檬茶的博客-CSDN博客_agglomerative clustering

例题1：K-均值算法中求类中心

注：K-均值算法和分层聚类算法在开始前数据需要归一化

例题2：分层聚类应用

例题3：方差特征选择法

方差公式：

注：要保留大于阈值的属性，原因具体请看下面的博客。

数据筛选特征方法-方差法_gao_vip的博客-CSDN博客_方差选择法特征筛选

伏尔加河的卷毛

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
人工智能考前复习（一）

大学人工智能课程考前复习，内容包括：线性模型，二分类器多分类方法，决策树，聚类等。
复制链接

扫一扫

专栏目录

伏尔加河的卷毛 CSDN认证博客专家 CSDN认证企业博客

码龄4年

40: 原创

105万+: 周排名

4万+: 总排名

4万+: 访问

: 等级

648: 积分

126: 粉丝

197: 获赞

48: 评论

325: 收藏

私信

关注

热门文章

分类专栏

k8s
测试 1篇
中间件 3篇
408 2篇
前端 2篇
Redis 1篇
Java开发 4篇
Java 6篇
AI相关 11篇
Django 3篇
git 2篇
数据库 2篇

最新评论

Redis连接报错-Could not connect to Redis at 127.0.0.1:6379: Connection refused
qq_58846177: 感谢大佬，找了一圈了都么办法
多媒体技术计算题：已知信源符号及其概率，试求其 Huffman 编码及平均码长
伏尔加河的卷毛: 不一样。平均码长是指每个字符在编码后所占用的平均比特数，而WPL是指哈夫曼树中所有叶子节点的带权路径长度之和。哈夫曼树的带权路径长度是指每个叶子节点的权值乘以它到根节点的路径长度，因此WPL是一个与编码无关的量，而平均码长则与编码有关。
多媒体技术计算题：已知信源符号及其概率，试求其 Huffman 编码及平均码长
ibecuhebb: 平均码长是wpl吗
Java中length、length()、size()的区别
CSDN-Ada助手: 恭喜您写了第20篇博客！题目“Java中length、length()、size()的区别”非常吸引人。您对于这些常用方法的区别进行了深入的探讨，这对于Java初学者来说非常有帮助。在下一步的创作中，我建议您可以继续探索Java中其他常用方法的使用和区别，比如equals()和==的区别，或者compareTo()方法的使用场景等等。这样的话，您的博客会更加全面，能够满足不同读者的需求。谦虚地说，我相信您在接下来的创作中会有更多精彩的内容呈现给我们。再次祝贺您取得了这个里程碑，期待您的下一篇博客！
Ant Design Pro初始化报错
CSDN-Ada助手: 恭喜您写了第19篇博客！标题“Ant Design Pro初始化报错”引人入胜。您对Ant Design Pro初始化问题的讨论十分有帮助。希望您能继续分享更多关于Ant Design Pro的使用心得和技巧，或者探索其他相关主题，让读者们受益匪浅。谦虚地建议您可以考虑分享一些关于Ant Design Pro的高级用法或者如何解决其他常见问题的文章，这将进一步丰富您的博客内容。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。