文章目录
0、本节目标
1、近邻法(老师说很简单,直接过了)
最近邻法
对于一个新样本,把它逐一与已知样本比较,找出距离新样本最近的已知样本,以已知样本的类别作为新样本的类别。
k-邻法
选择前若干个离新样本最近的已知样本,用它们的类别投票来决定新样本的类别。
人话:找出新样本的k个近邻,看其中多数属于哪一类,则把新样本归为哪一类。
快速算法-分枝定界法
剪辑近邻法
2、决策树(强调了ID3方法)
ID3(计算)
3、集成学习的常见方法(异同)
Boosting(AdaBoost)
bagging
随机森林(考了)
随机森林方法的三个基本步骤:
- 随机森林方法对样本数据进行自举重采样,得到多个样本集。所谓自举重采样,就是每次从原来的 N 个训练样本中有放回地随机抽取 N 个样本(包括可能的重复样本。
- 用每个重采样样本集作为训练样本构造一个决策树。在构造决策树的过程中,每次从所有候选特征中随机地抽取 m 个特征,作为当前节点下决策的备选特征,从这些特征中选择最好地划分训练样本的特征。
- 得到所需数目的决策树后,随机森林方法对这些树的输出进行投票,以得票最多
异同