人工智能考前复习(一)

目录

考点一:计算假设空间大小

例题

考点二:K近邻算法

例题

 考点三:线性模型拟合

例题1:求出对应的线性回归模型

例题2:线性回归方法处理非线性数据

考点四:OvO,OvR,MvM分类器

例题1: 计算分类器个数

例题2: ECOC编码

考点五:决策树

例题1:计算信息熵、信息增益、信息增益率

例题2:ID3和C4.5算法

例题3:构造决策树与剪枝

例题4:什么是欠拟合和过拟合

例题5:简述预剪枝和后剪枝的区别

例题6:性能度量指标计算和理解

 考点六:聚类

例题1:K-均值算法中求类中心

例题2:分层聚类应用

例题3:方差特征选择法 


考点一:计算假设空间大小

注意:未来可能出现的样本/可能出现的样本种类没有+1,假设种类有+1

例题:

下表所示数据集的假设空间规模大小是多少(可产生多少种假设)?

3个属性“色泽”、“根蒂”、“敲声”,分别有2、3、3种可能取值: 色泽={青绿,乌黑}、根蒂={蜷缩,硬挺,稍蜷}、敲声={浊响,清脆,沉闷}

• 注意“好瓜”是标签,因此不参与假设的表示,而是用于判断假设的成立

需考虑“*”,即属性对假设无限制的情况

因此假设空间规模大小为: (2 + 1) × (3 + 1) × (3 + 1) = 3 × 4 × 4 = 48

如果问:可能出现的样本种类是多少则不需要+1,结果为 2 × 3 × 3 = 18

考点二:K近邻算法

K近邻算法的工作流程:

1、输入:待分类样本;

2、选出最近的K个已知样本;

3、投票决定类别(少数服从多数);

4、输出:预测的类别

K近邻算法特点:
消极学习(lazy learn),不描述函数,接收新样本后才启动

性能受K值、相似性度量、投票策略等控制
K值:
过小→相近邻居决定分类、易受噪声点干扰、鲁棒性弱

过大→不相似邻居参与决策、分类性能弱

距离加权式K近邻算法:

1、输入:待分类样本;

2、选出最近的K个已知样本;

3、计算K个邻居的投票权重;(一般题目会给)

4、投票决定新样本类别;

5、输出:预测的类别

例题:

注:需要记住欧式距离、汉明距离、曼哈顿距离的公式

 考点三:线性模型拟合

例题1:求出对应的线性回归模型

题目一般会给出公式

给出下列3个数据样本,求出对应的线性回归模型

 解出的答案为:

例题2:线性回归方法处理非线性数据

1. (多项式回归)多项式展开,在自变量x1,x2等的基础上构建新的自变量组合,比如x1的平方,x2的平方,x1*x2等选项;

2. 局部加权线性回归

局部加权线性回归,英文为local wighted linear regression, 简称为LWLR。从名字可以看出,该方法有两个关键点,局部和加权。

考的概率小,了解即可。具体可看下面这篇文章

使用局部加权线性回归解决非线性数据的拟合问题_生信修炼手册的博客-CSDN博客

考点四:OvO,OvR,MvM分类器

例题1: 计算分类器个数

例题2: ECOC编码

 要求:会计算测试示例与其他类别的海明(汉明)距离和欧式距离。

注意:海明(汉明)距离:相同的值+0,不同的值+1。不同的值里,特别地,遇到0则+0.5。

考点五:决策树

要求:会计算信息熵、信息增益、信息增益率;会用ID3和C4.5构造决策树;明白ID3和C4.5的区别以及各自的特点;

例题1:计算信息熵、信息增益、信息增益率

 

    

 

计算信息熵、信息增益、信息增益率更多例子请看:

Python计算信息熵、条件熵、信息增益例子_feiyang5260的博客-CSDN博客_python计算信息熵

信息熵的计算_梵大仙的博客-CSDN博客_信息熵计算

信息增益率_醉糊涂仙的博客-CSDN博客_信息增益率

 ID3算法是通过信息增益选择属性

例题2:ID3和C4.5算法

ID3和C4.5算法的优缺点:

ID3、C4.5、CART三种算法优缺点比较_独自凌寒的博客-CSDN博客_cart算法的优缺点

ID3和C4.5算法的区别:

ID3与C4.5的区别_ShenYounger的博客-CSDN博客_id3和c4.5的区别

例题3:构造决策树与剪枝

如何构造决策树(ID3):(以西瓜数据集为例)

决策树(decision tree)(一)——构造决策树方法_天泽28的博客-CSDN博客_决策树

如何构造决策树(C4.5):

数据挖掘--决策树C4.5算法(例题)_尾随大叔的博客-CSDN博客_c4.5算法例题

如何进行预剪枝和后剪枝:(以以西瓜数据集为例)

决策树的预剪枝与后剪枝_zfan520的博客-CSDN博客_预剪枝

例题4:什么是欠拟合和过拟合

从训练误差(在训练集上的误差)上体现:

训练误差太小→过拟合(overfitting)→ 泛化能力弱

训练误差太大→欠拟合(underfitting)→ 预测能力弱

例题5:简述预剪枝和后剪枝的区别

预剪枝:在生成决策树的过程中提前停止树的增长。核心思想是在树中结点进行扩展之前,先计算当前的划分是否能带来模型泛化能力的提升,如果不能,则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中,按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法:

( 1 )当树到达一定深度的时候,停止树的生长。

( 2 )当到达当前结点的样本数量小于某个阈值的时候,停止树的生长。

( 3 )计算每次分裂对测试集的准确度提升,当小于某个阈值的时候 ,不再继续扩展。

预剪枝具有思想直接、算法简单、效率高等特点,适合解决大规模问题。 但如何准确地估计何时停止树的生长(即上述方法中的深度或阈值),针对不同问题会有很大差别,需要一定经验判断。且预剪枝存在一定局限性,高欠拟合的风险,虽然当前的划分会导致测试集准确率降低 , 但在之后的划分中,准确率可能会高显著上升。

后剪枝:就是先生成一棵完全生长的决策树,然后自底向上的对非叶结点进行考察,计算是否剪枝。若将该结点对应的子树换为叶结点能够带来泛化性能的提升,则把该子树替换为叶结点。该结点的类别同样按照多数投票的原则进行判断。 同样地 ,后剪枝也可以通过在测试集上的准确率进行判断,如果剪枝过后准确率有所提升,则进行剪枝。 相比于预剪枝,后剪枝方法通常可以得到泛化能力更强的决策树,但时间开销会更大。

例题6:性能度量指标计算和理解

想了解更多请看:

【机器学习】模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)_齐在的博客-CSDN博客_留出法

 考点六:聚类

 K-均值算法(K-Means):

1、选取相似性度量(路程远近的度量方式)

2、选取K值

3、选取簇核心

4、样本划分

5、调整核心(重新计算核心)

6、重复3、4步,循环至收敛(核心不再改变)

分层聚类:

1、将每个样本视作一个簇;

2、找出距离最近的两个簇进行合并;

3、重复2直至达到预期簇数或所有样本合并为一个簇。

 

具体可看:聚类Agglomerative Clustering 及其三种方法Single-linkage、Complete-linkage,Group average_吸一口柠檬茶的博客-CSDN博客_agglomerative clustering

 例题1:K-均值算法中求类中心

 注:K-均值算法和分层聚类算法在开始前数据需要归一化

例题2:分层聚类应用

 例题3:方差特征选择法 

方差公式:

注: 要保留大于阈值的属性,原因具体请看下面的博客。

数据筛选特征方法-方差法_gao_vip的博客-CSDN博客_方差选择法 特征筛选

  • 3
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值