均值编码-处理高基数类别属性的一个方法

最新推荐文章于 2024-06-27 17:50:30 发布

z0n1l2

最新推荐文章于 2024-06-27 17:50:30 发布

阅读量4.1k

点赞数 3

分类专栏：数据分析文章标签：数据分析 mean encodign

本文链接：https://blog.csdn.net/z0n1l2/article/details/80791352

版权

在数据分析中，类别属性需要转化为数值型以适应算法。均值编码是一种参考目标值的方法，尤其适用于高基数类别属性，可以减少内存消耗。在分类问题中，均值编码用概率替换属性值，而在回归问题中，用均值来表示。然而，当样本数量较少时，计算的准确性可能受影响。

摘要由CSDN通过智能技术生成

转换类别属性量的一般方法

数据分析中经常会遇到类别属性,比如日期,性别,街区编号,IP地址等. 绝大部分数据分析算法是无法直接处理这类变量,需要先把他们处理成数值型量.

取消字符
参考 sklearn.preprocessing.LabelEncoder. 加入一个属性有 $N$ 个不同的值,通过这个函数将把它转换到 $[0,N-1]$ 上的整数. 转换后的属性具有了次序和可比较性,这个两个属性源属性值未必具备,是利是弊视具体应用而定.
编码
离散型数值对某些算法是可以进行训练的,比如决策树, 但是对于SVM/神经网络而言依然不合适,我们需要对其进行编码.
- one-hot-encoding
  参考 sklearn.preprocessing.OneHotEncoder
  离散型属性有 $N$ 个不同的值,则可以用长度为 $N$ 二进制序列 $(b_0,b_1,b_2,...,b_{N-1})$ 表示, $b_i$ 有且只有一个为 $1$ ,其他为 $0$ . 假设离散属性只有三个不同的值
  $\{A,B,C\}$
属性值二进制序列

A 001

B 010

C 100

one-hot-encoding后会增加 $N$ 列
- 均值编码
  如上所述, one-hot-encoding后会增加 $N$