K近邻法(K-nearest neighbor, k-NN)
是一种基本的分类与回归方法
输入:训练数据集
输出:实例x所属的类y
k值得选择会对k近邻法结果产生重大影响。应用中,k值一般取一个比较小的数值。通常采取交叉验证法来选取最优k值
决策树(Decision tree)
是一种基本的分类与回归方法,常用算法有ID3、C4.5与CART
决策树学习通常包括3个步骤:特征选择、决策树生成和决策树的修剪。
1、通常使用信息增益最大、信息增益比最大或基尼系数最小作为特征选择的准则。
2、决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归的产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。
3、由于生成的决策树存在过拟合问题,需要对他进行剪枝,以简化学到的决策树。决策树的剪枝,往往从已经生成的树上减掉一些叶结点或者叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。
逻辑斯谛回归(Logistic regression)
经典的分类方法
logistic di