第七章 分类

1. 分类概念

一组输入将每个输入与一组可能的类别比较,并为输入选择可能的类别

通过输入已确定的合适类别的数据来训练分类器
类别称为 实际值基本事实专家标签标签

2. 二维二元分类(2D binary classification)

二元分类:每个输入只有两种可能

第一类技术(统称为边界方法)

用于确定在二维二元分类中为每个样本分配哪个类

举个栗子

农民 养了很多只鸡 每一个蛋有两种情况:受精未受精
假设有一个分类器 可通过重量、长度进行辨别是否受精
希望分类器考虑每个样本并且用其特征来分配标签
上述问题为二分类问题 一个鸡蛋只有两种分类 受精vs未受精

决策区域

如果可以很好的分割两类事物 则称分割后的区域为决策区域

决策边界

他们之间的直线、曲线称为决策边界

3. 二维多分类

拿例子来说就是煎鸡蛋有更多类别 但是 只有长度和重量两个维度

4. 多维二元分类

一堆二元分类器就可以进行多分类

  • one-versus-rest(OvR)

又叫one-versus-all(OvA)、one-against-all(OAA)
每个维度一个分类器 用于区分当前维度与其他维度

如果有大量的复杂边界的类别,运行样本所需的时间会累加起来,随着分类器的集合越来越大,速度越来越慢,转用单个复杂的多分类器可能更有意义

  • one-versus-one(OvO)这种方法所使用的二元分类器甚至比one-versus-rest更多

思想:查看数据中每一对类 并为这两个类构建一个分类器
为了对一个新的样本进行分类,遍历所有分类器 选出频率最高的标签
每个分类器为两个类中的一个进行投票 获胜者为票数最多的类
提供了每个样本与所有类组合更深入的分析

分类器的数量比类别数减一的平方一半多一点

5. 聚类(超参数-k)

倘若数据没有标签 那么可以使用聚类将数据分为k类 又叫k-均值聚类

预选k

缺点

  1. 若k大了 则会在不同的类的类中得到非常相似的数据片段
  2. 若k小了 不会将数据划分到最有用的类别

对网络进行多次训练

每次都使用不同的k值,这种超参数调试允许计算机自动搜索一个好的k值,评估每个选择的预测结果,并报告表现最好的值

6. 灾难维度

表现:大量数据 但是空间密度是低密度的
描述具有过多特征或者维度的样本会造成系统正确分类的能力下降

空间密度

空间密度公式

解决维度灾难的办法

非均匀性祝福 结构祝福

影响与解决办法

导致训练时需要大量数据
用尽可能多的数据填充样本空间

7 高维奇异性

进入多维空间直觉可能会让我们失望
任何时候处理超过三个特征数据时,不应该从2维 3维的经验中所知道的东西进行推理
2023/11/21 20:02

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李少女_辣辣妹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值