分类编码方式

最新推荐文章于 2025-04-27 11:24:03 发布

回想sy

最新推荐文章于 2025-04-27 11:24:03 发布

阅读量468

点赞数 1

分类专栏：机器学习文章标签：分类 python

本文链接：https://blog.csdn.net/weixin_49708196/article/details/128597527

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

分类编码

记录一下除了one-hot编码、target-encoding和直方图编码等等，还有一些没有学习过的编码方式。使⽤不同的编码归根结底就是从具有分类特征的单个列中创建不同的 (设计) 矩阵。

1.Dummy coding（哑编码）

和 pandas 的 get_dummy 函数一致。设计矩阵为

$\begin{array}{ccc} 1 & 0 & 0\\\\ 1 & 0 & 0\\\\0 & 1 & 0\\\\0 & 1 & 0\\\\ 0 & 0 & 1\\\\0 & 0 & 1\end{array}$

2.effect encoding（效应编码）

ucla的一篇讲解文章FAQ: What is effect coding?

为什么使用effect encoding？

如果只有几个简单的类别变量，那么使用dummy encoding和effect encoding都是一样的。但是，对于有两个类别变量交互的情况，使用effect encoding会有更多好处。主要的好处是你可以使用效果编码对主效应和交互作用进行合理的估计。使用虚拟编码，对交互作用的估计很好，但主效应不是“真正的”主效应，而是所谓的简单效应，即一个变量在另一个变量的一个水平上的效应。这就是为什么大多数方差分析程序在估计方差分析模型中的各种效应时使用某种类型的效应编码。设计矩阵为

$\begin{array}{ccc} 1 & -1 & -1\\\\ 1 & -1 & -1\\\\1 & 1 & 0\\\\1 & 1 & 0\\\\ 1 & 0 & 1\\\\1 & 0 & 1\end{array}$

3.Treatment Coding

在 Treatment Coding 中，每个类别的权重是对应类别和参照类别之间预测的估计差值。线性模型的截距是参照类别的平均值 (当所有其他特征保持不变时)。设计矩阵的第⼀列是截距，它始终是 1。第⼆列表⽰实例是否在 B 类中，第三列表⽰实例是否在 C 类中。A 类不需要列，因为此时只要知道⼀个实例既不属于 B 类也不属于 C 类就⾜够了，不然线性⽅程会被过度指定，并且找不到权重的唯⼀解。

$\begin{array}{ccc} 1 & 0 & 0\\\\ 1 & 0 & 0\\\\1 & 1 & 0\\\\1 & 1 & 0\\\\ 1 & 0 & 1\\\\1 & 0 & 1\end{array}$