百面机器学习
第一章 特征工程
- 对原始数据进行一系列工程处理,并降级提炼为特征,作为输入供算发算法和模型使用
- 数据话结构:每列都有清晰的定义,包函数数值型和类别型;每一行数据表示一个样本的信息
- 非结构化数据:文本、图像、音频、视频等
1.1 特征归一化(Normalization)
- 为什么要进行特征归一化:将所有特征值都统一到一个大致相同的数值区间内
使数据各指标处于同一数值量级,以便进行分析,获得更准确的结果
方法一:

方法二:

- 用线性规划:线性规划、逻辑回归、支持向量机、神经网络
- 决策树模型不适用线性规划,因为决策树在节点分裂时主要依据数据集D冠以特征值x的信息增益比(与是否归一化无关)

1.2 类别型特征(Categorical Feature)
- 只在有限选项内取值的特征
- 原始输入通常是字符串形式
- 对于逻辑回归、支持向量机等模式来说,类别特征必须经过特征必须经过处理转化数据成数值型特征才能正确工作
在对数据进行预处理时,赢怎样处理类别型特征?
序号编码(Ordinal Encoding)
- 处理类别减有大小关系的数据
- 按照大小关系对类别型特征值赋予数值ID
独热编码(One-hot Encoding)

- 使用稀疏向量来节省空间
- 配合特征选择来降低维度
- 在K临近算法中,高维空间下两点之间的距离很难得到有效的衡量
- 在逻辑回归模型中,参数的数量会随维度的增高而增加,容易引起过拟合问题
- 通常只有部分维度是对分类预测有帮助,因此可以考虑配合特征选择来降低维度
二进制编码(Binary Encoding)
- 先用序号编码给每个类别赋予一个ID,然后将类别Id对应的二进制编码作为结果
- 本质上上是利用二进制对ID进行哈希映射,最终得到0/1特征向量,且维数少于都热编码,节省了存储空间

其他编码方式
Hekmert Conreast
Sum Conreast
Polynomial Contrast
Backward Difference Contrast
1.3 高维组合特征的处理
- 为提高复杂关系的拟合能力,在特征工程中常会把一阶离散特征两两组合,构成高阶组合特征



1.4 组合特征
怎样有效地找到组合特征?
- 基于决策树的特征特征组合寻找方法

- 采用梯度提升决策树:每次都在之前构建的决策树的残差上构建下一棵决策树
1.5 文本表示模型
有哪些文本表示模型,它们各有什么优缺点?
本文详细介绍了机器学习中的特征工程,包括特征归一化、类别型特征处理(如序号编码、独热编码、二进制编码等)、高维组合特征和组合特征选择策略,以及文本表示模型如词袋模型和N-gram模型。通过这些技术,提升模型对数据的理解和预测性能。
2021

被折叠的 条评论
为什么被折叠?



