百面机器学习第一章--特征工程

最新推荐文章于 2022-03-22 15:16:56 发布

zuolixiangfisher

最新推荐文章于 2022-03-22 15:16:56 发布

阅读量205

点赞数

分类专栏：机器学习文章标签：机器学习特征工程

本文链接：https://blog.csdn.net/zuolixiangfisher/article/details/114792089

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、特征归一化

1.1 为什么要对数值类型特征做归一化？

为了消除数据特征之间的量纲影响，对特征进行归一化处理，使不同指标之间具有可比性。
常用的归一化方法：

线性函数归一化， $X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$
零均值归一化，将原始数据映射到均值为0，标准差为1的分布上， $z=\frac{x-\mu}{\sigma}$
特征归一化后，在进行梯度下降过程中，可以更快找到最优解。
适用模型：线性回归，逻辑回归，SVM，神经网络等
不适用模型：决策树，归一化不改变样本在特征 $x$ 上的信息增益

2、类别型特征

2.1 在对数据处理时，应该怎样处理类别型特征？

序号编码：用于处理类别建具有大小关系的数据，例如高>中>低，可以映射为3，2，1
one-hot编码：特征某一维为1，其余为0，可以用稀疏表示来减少空间存储
二进制编码：先赋予一个id，然后将id转为二进制，所用空间少于one-hot编码。

3、高维组合特征的处理

3.1 什么是组合特征？如何处理高维组合特征？

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶特征。特征组合导致模型要学习的参数规模巨大，一般通过矩阵分解来降低复杂度。
常用的矩阵分解方法：

QR分解： $A_{mn}=Q_{mm}\cdot R_{mn}$ ，其中 $Q_{mm}$ 是一个正交阵， $R_{mn}$ 是上三角阵
LU分解：利用初等变换，将矩阵分解为一个上三角和一个下三角矩阵的乘积
SVD： $A_{mn}=U_{mm}\cdot \Sigma_{mn}\cdot V_{nn}^{T}$ ，其中 $U, V$ 均为酉矩阵( $U^{*}\cdot U=I_{n}$ )
Jordan分解

4、组合特征

4.1 怎样有效地找到组合特征？

通过构造决策树来进行特征选择

5、文本表示模型

5.1 有哪些文本表示模型？各自有什么优缺点？

词袋模型和N-gram模型
利用TF-IDF来计算每个词的重要性，随机采样

优点：简单易处理
缺点：单词级的拆分会导致语义丢失

主题模型

LDA

词嵌入与深度学习模型

6、Word2Vec

6.1 Word2Vec是如何工作的？它与LDA有什么区别和联系？

word2vec包括两种模型，CBOW和Skip-gram，CBOW是利用上下文出现的词来预测当前词的生成概率；而Skip-gram则是利用当前词来预测上下文各词出现的概率。
CBOW输入是一个 $V\times N$ 的矩阵，每一行代表一个词向量， $V$ 是上下文长度，乘以一个 $N\times K$ 大小的稀疏矩阵后按行求和，得到一个 $K$ 维的向量，再乘以一个 $K\times N$ 的矩阵，得到一个 $N$ 维的向量，每一维代表预测结果为该维对应词的概率，再由softmax激活函数输出， $p(y=w_n|x)=\frac{e^{x_n}}{\sum_{k=1}^{N}e^{x_k}}$ 这里要求 $K\times N$ 和 $N\times K$ 两个参数矩阵。
Skip-gram过程刚好相反。
主题模型和词嵌入两类方法最大的不同其实在于模型本身，主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量(即主题)，而词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出智商，需要通过学习网络的权重以得到单词的稠密向量表示。

7、图像数据不足时的处理方法

7.1 在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？

数据不足导致模型学习不充分，欠拟合，泛化能力弱，可以从两个方面来优化，一是基于模型的方法，主要是采用降低过拟合风险的措施，包括简化模型，增加约束项以缩小假设孔家，集成学习，dropout超参数等；二是基于数据的方法，主要通过数据扩充，在保持特定信息的前提下，对原始数据进行适当变换以达到扩充数据集的效果。

zuolixiangfisher

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习第一章--特征工程

目录1、特征归一化1.1 为什么要对数值类型特征做归一化？2、类别型特征2.1 在对数据处理时，应该怎样处理类别型特征？3、高维组合特征的处理3.1 什么是组合特征？如何处理高维组合特征？4、组合特征4.1 怎样有效地找到组合特征？5、文本表示模型5.1 有哪些文本表示模型？各自有什么优缺点？6、Word2Vec6.1 Word2Vec是如何工作的？它与LDA有什么区别和联系？7、图像数据不足时的处理方法7.1 在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？1、特征归一化1
复制链接

扫一扫

专栏目录