目录
2.1.1.2支持向量机(分类)
1、模型介绍
在“良/恶性乳腺癌肿瘤预测”的例子中,曾经使用多个不同颜色的直线作为线性分类的边界。同样,对于数据分类问题,更有无数种线性分类边界可供选择。
图2-5中提供了三种颜色的直线,用来划分这两种类别的训练样本。其中绿色直线H1在这些训练样本上表现不佳,本身就带有分类错误;橙色直线H2和红色直线H3如果作为这个二类分类问题的线性分类模型,在训练集上的表现都是完美的。
然而,由于这些分类模型最终都是要应用在未知分布的测试数据上,因此更加关注如何最大限度地为未知分布的数据提供足够的待预测空间。比如,如果有一个黑色样本稍稍向右偏离橙色直线,那么这个黑色样本很有可能被误判为白色样本,造成误差;而红色直线在空间中的分布位置依然可以为更多“稍稍偏离”的样本提供足够的“容忍度”。因此,更加期望学习到红色的直线作为更好的分类模型。
支持向量机分类器(Support Vector Classifier),便是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。进一步仔细观察图2-5中的红色直线,会发现决定其直线位置的样本并不是所有训练数据,而且其中的两个空间间隔最小的两个不同类别的数据点,把这种可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”。逻辑斯蒂回归模型在训练过程中由于考虑了所有训练样本对参数的影响,因此不一定获得最佳的分类器。
备注:这里所说的“最佳”不是绝对的。换句话说,不是在所有的数据集上,支持向量机的性能表现就一定优于普通的线性模型或者其他模型。这里的假设是:如果未知的待测数据也如训练数据一样分布,那么的确支持向量机可以找到最佳的分类器。然而,很多实际应用数据总是有偏差的。
2、数据描述
(1)手写体数据背景
邮政系统每天都会处理大量的信件,最为要紧的一环是要根据信件上的收信人邮编进行识别和分类,以便确定信件的