应用机器学习（二）：k-NN 分类器

最新推荐文章于 2024-06-09 23:26:16 发布

Goodsta

最新推荐文章于 2024-06-09 23:26:16 发布

阅读量9.8k

点赞数 5

本文链接：https://blog.csdn.net/wong2016/article/details/70482237

版权

分类问题

在统计和机器学习里，分类问题的目标是：取一个新的观测向量 $\mathbf{x}$ ，将它分到 $K$ 个离散的类 $\mathcal{C}_k$ ( $k=1, 2, \dots, K$ ) 之一。一般来说，类之间是互不相容的，因此，每一个观测只能被分到一个类中。举一个分类问题的例子：

例子：垃圾邮件的过滤

人们在日常email的处理中，总能不可避免地收到垃圾邮件。怎样从一批邮件中区别哪些是正常邮件，哪些是无用的垃圾邮件呢？这就是一个两类的分类问题，即，对收到的一个邮件，将它分到正常邮件类或者垃圾邮件类。那么，按照什么原则分类呢？可以考虑邮件的内容、文本模式、寄件人地址等，这些称为特征。根据这些特征来对邮件是否为垃圾邮件进行分类，分类的结果可能是这样的：

在机器学习里，分类( classification )是一种有监督学习（supervised learning )的方法。通常，将数据分成训练集（Training set）、验证集（Validation set）和检验集（Test set）三部分。在训练集上建立统计模型，估计未知参数；在验证集上优化模型，包括调整参数；最后，在检验集上检验该方法的优劣性及执行效率。所谓有监督学习，在分类问题里，指的是训练集的观测对象的类别标签（class labels）是已知的，即，已知对象的所属类别。

频率学派与贝叶斯学派的“分类”

早期的分类问题由频率学派的代表人物，著名统计学家 Fisher 提出，并应用于两类的分类问题。Fisher 假设每个类对应特定的正态总体，并提出了线性判别函数( Fisher’s linear discriminant function )作为观测对象的分类准则。

与频率学派的分类思想不同，贝叶斯( Bayesian )学派的分类，既考虑了不同类的总体，同时，也考虑不同总体出现的先验概率和错分类造成的损失，提出用损失函数 ( Loss of function ) 度量损失。

线性分类器

设输入向量为 $\mathbf{x}$ ，权向量 $\mathbf{w}$ ，令 $f(\mathbf{x}) = \mathbf{w}^{T} \mathbf{x}$ ，根据函数 $f(\mathbf{x})$ 的值决定 $\mathbf{x}$ 的分类结果，称 $f(\mathbf{x})$ 为线性分类器 ( Linear classifier )。其中，权向量 $\mathbf{w}$ 通过对已知类标签的训练样本学习得到。最简单的线性分类器应用于两类的分类问题。给定一个输入向量 $\mathbf{x}$ ，若 f