1. 分类概念
一组输入将每个输入与一组可能的类别比较,并为输入选择可能的类别
通过输入已确定的合适类别的数据来训练分类器
类别称为 实际值 、基本事实、专家标签、标签
2. 二维二元分类(2D binary classification)
二元分类:每个输入只有两种可能
第一类技术(统称为边界方法)
用于确定在二维二元分类中为每个样本分配哪个类
举个栗子
农民 养了很多只鸡 每一个蛋有两种情况:受精、未受精
假设有一个分类器 可通过重量、长度进行辨别是否受精
希望分类器考虑每个样本并且用其特征来分配标签
上述问题为二分类问题 一个鸡蛋只有两种分类 受精vs未受精
决策区域
如果可以很好的分割两类事物 则称分割后的区域为决策区域
决策边界
他们之间的直线、曲线称为决策边界
3. 二维多分类
拿例子来说就是煎鸡蛋有更多类别 但是 只有长度和重量两个维度
4. 多维二元分类
一堆二元分类器就可以进行多分类
- one-versus-rest(OvR)
又叫one-versus-all(OvA)、one-against-all(OAA)
每个维度一个分类器 用于区分当前维度与其他维度
如果有大量的复杂边界的类别,运行样本所需的时间会累加起来,随着分类器的集合越来越大,速度越来越慢,转用单个复杂的多分类器可能更有意义
- one-versus-one(OvO)这种方法所使用的二元分类器甚至比one-versus-rest更多
思想:查看数据中每一对类 并为这两个类构建一个分类器
为了对一个新的样本进行分类,遍历所有分类器 选出频率最高的标签
每个分类器为两个类中的一个进行投票 获胜者为票数最多的类
提供了每个样本与所有类组合更深入的分析
分类器的数量比类别数减一的平方一半多一点
5. 聚类(超参数-k)
倘若数据没有标签 那么可以使用聚类将数据分为k类 又叫k-均值聚类
预选k
缺点:
- 若k大了 则会在不同的类的类中得到非常相似的数据片段
- 若k小了 不会将数据划分到最有用的类别
对网络进行多次训练
每次都使用不同的k值,这种超参数调试允许计算机自动搜索一个好的k值,评估每个选择的预测结果,并报告表现最好的值
6. 灾难维度
表现:大量数据 但是空间密度是低密度的
描述具有过多特征或者维度的样本会造成系统正确分类的能力下降
空间密度
解决维度灾难的办法
非均匀性祝福 结构祝福
影响与解决办法
导致训练时需要大量数据
用尽可能多的数据填充样本空间
7 高维奇异性
进入多维空间直觉可能会让我们失望
任何时候处理超过三个特征数据时,不应该从2维 3维的经验中所知道的东西进行推理
2023/11/21 20:02