day7 AI面试刷题

1. 集成学习解决了什么样的问题?或者说集成学习提出的动机是什么?

参考答案:
集成学习提出的动机可以从以下三个角度来阐述:

  1. 统计:对于单个模型,当训练数据集的大小与整个问题解的搜索空间相比较小的情况下,会遇到一个常见的问题就是:面对数据分布不同的数据集,模型可能会给出大致相同的准确率。而采用集成学习后,每个算法可以学习到不同的数据特征,经过投票/平均之后,可以从整体上降低模型分类错误的概率,从而提高找到近似最优解的概率。
  2. 计算:当训练数据足够的时候,学习算法仍然可能会陷入局部最优解中,在这种情况下,跳出局部最优从而找到全局的最优解,就是一个需要解决的计算问题。在集成学习算法框架下,不同的模型可以从不同的起始点开始搜索,从而使得算法能够从整体上避免陷入局部最优解中,因此跟单模型的学习算法相比,集成学习能够更的解决这个问题。
  3. 模型表现(representation):在一个既定的搜索空间中,单个模型可学习到的表现(representation)是有限的。而集成学习算法,可以优化单个模型索要学习的搜索空间,从而使得集成学习模型整体上学习到更好的表现(representation)。

2. 简述一下随机森林算法的原理

参考答案:
随机森林算法是Bagging集成框架下的一种算法,它同时对训练数据和特征数据采用随机抽样的方法来构建更加多样化的基模型。随机森林具体的算法步骤如下:

  1. 假设有N个样本,则有放回的随机选择N个样本(每一次随机选择一个样本,然后将该样本放回并继续选择)。采用选择好的N个样本用来训练一个决策树,作为决策树根节点处的样本。
  2. 假设每个样本有M个属性,在决策树做节点分裂时,随机从这M个属性中选取m个属性,满足条件 m ≪ M m\ll M mM。然后采用某种策略(比如信息增益最大化)从m个属性中选择一个最优属性作为该节点的分裂属性。
  3. 决策树形成过程中重复步骤2来计算和分裂节点。一直到节点不能够再分裂,或者达到设置好的阈值(比如树的深度,叶子节点的数量等)为止。注意整个决策树形成过程中没有进行剪枝。
  4. 重复步骤1-3建立大量的决策树,这样就构成了随机森林。

在这里插入图片描述


3. 随机森林的随机性体现在哪里?

参考答案:
随机森林的随机性体现在每棵树的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。

  1. 随机采样:随机森林在计算每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的、大小同样为N的数据集进行训练(即Booststrap采样)
  2. 特征选取的随机性:在节点分裂计算时,随机地选取所有特征的一个子集,用来计算最佳分割方式。

4. 随机森林算法的优缺点

参考答案:
优点:
特征和数据的随机抽样

  1. 它可以处理很高维度(特征很多)的数据,并且不用降维,无需做特征选择
  2. 如果有很大一部分的特征遗失,仍然可以维持准确度
  3. 不容易过拟合
  4. 对于不平衡的数据集来说,它可以平衡误差
  5. 可以判断出不同特征之间的相互影响(类似于控制变量法)

树模型的特征:
6. 较好的解释性和鲁棒性
7. 能够自动发现特征间的高阶关系
8. 不需要对数据进行特殊的预处理,如归一化

算法结构:
9. 训练速度比较快,容易做成并行方法
10.实现起来比较简单

缺点:

  1. 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产生的属性权值是不可信的。

5. 随机森林为什么不能用全样本去训练m棵决策树?

参考答案:
随机森林的基学习器是同构的,都是决策树,如果用全样本去训练m颗决策树的话,基模型之间的多样性减少,互相相关的程度增加,不能够有效起到减少方差的作用,对于模型的泛化能力是有害的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值