特征工程_cbow和skip-gram都可以表示为由输入层、映射层、输出层组成的浅层神经网络。其中-CSDN博客

本文链接：https://blog.csdn.net/weixin_43861721/article/details/105102259

对于一个机器学习，数据和特征决定了结果的上限，而模型、算法的选择及优化则是在逐步接近这个上限。

特征工程

是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上说，特征工程是一个表示和展现数据的过程。
在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。

特征归一化

目的

1、为了消除数据特征之间的量纲影响，需要对特征进行归一化处理，使得不同指标处于同一数值量级，让他们之间具有可比性。
2、对于随机梯度下降来讲，在学习速率相同的情况下，取值范围大的特征更新速度快，需要较多次迭代才能找到最优解。归一化后，特征的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。
3、在实际应用中，通过梯度下降法求解地模型通常是需要归一化的，包括线性回归，逻辑回归，支持向量机，神经网络等模型。

常用方法

线性函数归一化（Min-Max Scaling）

对原始数据进行线性变换，使结果映射到[0,1]的范围，实现对原始数据的等比缩放。归一化公式如下：

在这里插入图片描述
其中，X为原始数据，Xmax、Xmin分别为数据最大值和最小值。

零均值归一化(Z-Score Normalization)

将原始数据映射到均值为0、标准差1的分布上。具体来说，假设原始特征的均值为在这里插入图片描述标准差为那么归一化公式定义为：

类别型特征

定义

主要是指性别、血型等只在有限选项内取值的特征。
类别型特征原始输入通常是字符串形式，除了决策树等少数模型能直接处理字符串形式的输入，对于逻辑回归、支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

在对数据进行预处理时，应该怎样处理类别型特征？

序号编码

通常处理类别间具有大小关系的数据。序号编码会按照大小关系对类别型特征赋予一个数值ID，转换后依然保留了大小关系。例如成绩。

独热编码

处理类别间不具有大小关系的特征。例如血型。
对于类别取值较多的情况使用独热编码需要注意：

使用稀疏向量来节省空间。
配合特征选择来降低维度。高维度特征会带来几方面的问题。一是在K近邻算法中，高维空间下两点之间的距离很难得到有效的衡量；二是在逻辑回归模型中，参数的数量会随着维度的增高而增加，容易引起过拟合问题；三是通常只有部分维度是对分类、预测有帮助，因此可以配合特征选择来降低维度。

二进制编码

分为两步：先用序号编码给每个类别赋予一个类别ID，然后将类别ID对应的二进制编码作为结果。
二进制编码本质上是利用二进制对ID进行哈希映射，最终得到0/1特征向量，且维度少于独热编码，节省了存储空间。
在这里插入图片描述

高维组合特征的处理

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。
以逻辑回归为例，假设数据的特征向量为X=(x1,x2,…,xk)，则有
在这里插入图片描述
其中，<xi,xj>表示xi和xj的组合特征，wij的维度等于|xi|*|xj|，|xi|和|xj|分别代表第i个特征和第j个特征不同取值的个数。
若用户数量为m、物品的数量为n，那么需要学习的参数的规模为m×n。
缺点：数量太多
解决方法：降维
将用户和物品分别用k维的低维向量表示(k<<m，k<<n)
在这里插入图片描述

文本表示模型（非结构化数据）

词袋模型和N-gram模型

最基础的文本表示模型就是词袋模型。

定义

将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体来说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重。
在这里插入图片描述
TF(t,d)为单词t在文档d中出现的频率，IDF(t)是逆文档频率，用来衡量单词t对表达语义所起的重要性。
表示为

IDF的解释，如果一个单词在非常多的文章里面都出现，那么它可能是一个比较通用的词汇，对于区分某篇文章特殊语义的贡献较小，因此对权重做一定惩罚。（出现的次数越多，IDF越小）
缺点：将单词拆分开来所表达的意思与单词连续出现时大相径庭。
方法：
将连续出现的n个词（n<=N）组成的词组(N-gram)也作为一个单独的特征放到向量表示中去，构成N-gram模型。
另外，同一个词可能有多种词性变化，却具有相似的含义。在实际应用中，一般会对单词进行词干抽取处理，即将不同词性的单词统一成为同一词干的形式。

主题模型

用于从文本库中发现有代表性的主题（得到每个主题上面词的分布特性），并且能够计算出每篇文章的主题分布。
主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量（即主题）

词嵌入与深度学习模型

词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间上的一个稠密向量。K维空间的每一维也可以看作一个隐含的主题，只不过不像主题模型中的主题那么直观。
由于词嵌入将每个词映射成一个K维的向量，如果一篇文档有N个词，就可以用一个N×K维的矩阵来表示这篇文章。
词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。

Word2Vec(词嵌入模型)

是一种浅层的神经网络模型，有两种网络结构，分别是CBOW和Skip-gram。
CBOW的目标是根据上下文出现的词语来预测当前词的生成概率，而Skip-gram是根据当前词来预测上下文中各词的生成概率。
在这里插入图片描述
其中，w(t)是当前所关注的词，w(t-2)、w(t-1)、w(t+1)、w(t+2)是上下文中出现的词。这里前后滑动窗口大小设置为2.
CBOW和Skip-gram都可以表示成由输入层、映射层和输出层组成的神经网络。
输入层中的每个词由独热编码方式表示，即所有词均表示成一个N维向量，其中N为词汇表中单词的总数。在向量中，每个词都将与之对应的维度置为1，其余维度的值均设为0.
在映射层中，K个隐含单元的取值可以由N维输入向量以及连接输入单元和隐含单元之间的N×K维权重矩阵计算得到。
在CBOW中，还需要将各个输入词所计算出的隐含单元求和。
输出层向量的值可以通过隐含层向量（K维），以及连接隐含层和输出层之间的K×N维权重矩阵计算得到。输出层也是一个N维向量，每维与词汇表中的一个单词相对应。最后，对输出层向量应用Softmax激活函数，可以计算出每个单词的生成概率。
Softmax激活函数的定义为：
在这里插入图片描述
采用反向传播训练。

图像数据不足时的处理方法

当训练数据不足时，说明模型从原始数据中获取的信息比较少，这种情况下要想保证模型的效果，就需要更多先验信息。先验信息可以作用在模型上，例如让模型采用特定的内在结构、条件假设或添加其他一些约束条件；先验信息也可以直接施加在数据集上，即根据特定的先验假设去调整、变换或扩展训练数据，让其展现出更多的、更有用的信息，以利于后续模型的训练和学习。