[基本功]常见特征工程

特征工程

1、为什么要对数值类型的特征做归一化?

为了消除数据特征之间的量纲影响。

常用方法:

(1)线性函数归一化: X n o r m = ( X − X m i n ) / ( X m a x − X m i n ) X_{norm}=(X-X_{min})/(X_{max}-X_{min}) Xnorm=(XXmin)/(XmaxXmin)

特点:将结果映射到[0,1]范围,实现对原始数据的等比缩放

(2)零均值归一化: z = ( x − μ ) / σ z=(x-\mu)/\sigma z=(xμ)/σ

特点:将原始数据映射到均值为0、标准差为1的分布上

  • 学习速率相同时,未归一化的数据不同维度更新速度不同,需要较多迭代才能得到最优解
  • 而归一化处理后,不同维度更新速度一致,容易更快的通过梯度下降找到最低点
  • 实际应用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等模型。对于决策树模型并不适用,信息增益比与特征是否经过归一化无关

2、怎样处理类别型特征?

(1)序号编码:常用于有序类别

(2)独热编码:常用于无需类别

  • A型血(1,0,0,0);B型血(0,1,0,0);。。。
  • 类别较多时存在问题:①使用稀疏向量(如独热)可以有效节省空间;②配合特征选择来降低维度。高维特征可能导致:K近邻,难以衡量两点间的距离;逻辑回归,参数数量会随着维度增高而增加,容易导致过拟合;通常只有部分维度对分类、预测有帮助

(3)二进制编码

  • 先给每个类别赋予ID,然后转化成二进制编码
  • 维数少于独热编码,节省了存储空间

3、什么是组合特征?如何处理高维组合特征?

  • 为了提高复杂关系的拟合能力,在特征工程中常会把一阶离散特征两两组合,构成高阶组合特征。
  • 如果类别数量过多,组合特征会导致参数规模过大。可以尝试将两个特征分别降维

4、怎样有效找到组合特征?

  • 基于决策树的特征组合寻找方法:

    每一条从根节点到叶节点的路径都可以看成是一种特征组合的方式

5、有哪些文本表示模型?它们的优缺点?

  • 词袋模型

    将每篇文章堪称一袋子词,忽略每个词出现的顺序

    常用TF-IDF: I D F ( t ) = l o g ( ( 文 章 总 数 ) / ( 包 含 单 词 t 的 文 章 总 数 + 1 ) ) IDF(t)=log((文章总数)/(包含单词t的文章总数+1)) IDF(t)=log(()/(t+1))

    对文章进行单词级别划分有时并不合理,可将连续出现的n个词组成的词组作为一个单独特征放到向量表示中去,构成N-gram模型

    同一个词可能有多种词性变化,却有相似含义,可对单词进行词干抽取(word stemming),将不同词性的单词统一为同一词干的形式

  • 主题模型

    从文本库中发现有代表性的主题,得到每个主题上词的分布特性,计算出每篇文章的主题分布

  • 词嵌入与深度学习模型

    将每个词都映射成低维空间上的一个稠密向量

6、word2vec如何工作?它和LDA有什么区别与联系?

  • CBOW:根据上下文预测当前词的生成概率

  • skip-gram:根据当前词预测上下文各词的生成概率

  • 输入层:独热编码

  • 隐藏层:K个隐含单元由N维输入向量和N*K维权重矩阵计算得到。在CBOW中,还需求和各个输入词计算出的隐含单元

  • 输出层:K维隐藏层向量和K*N维权重矩阵计算得到。softmax激活函数,计算出每个单词的生成概率

  • 训练权重:反向传播算法,每次迭代将权重沿梯度更优的方向进行一小步更新

  • softmax存在归一化项,使得迭代过程慢,由此产生hierarchical softmax和negative sampling

  • 模型的改进:

    • 把常见词组作为一个单词
    • 少采样常见词,出现概率高就有越高的概率被扔掉
    • 负采样,每个训练样本只更新模型中一小部分权重(真实的正例+少数负例)(更常出现的词,更容易被选为负例)
  • 层次softmax:利用哈夫曼树结构,为每个词进行01编码。定义从根节点开始,每次经过中间节点,做二分类任务,不对词进行向量学习,而是对中间节点进行向量学习,每个叶子节点可通过路径中经过的中间节点去表示
  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。

  • word2Vec是对“上下文-单词”矩阵进行学习,上下文由周围几个单词组成。

7、图像训练数据不足会带来什么问题?如何缓解?

主要问题:过拟合

缓解:

(1)基于模型。简化模型(如将非线性模型简化成线性模型)、添加约束项以缩小假设空间(如L1、L2正则)、集成学习、Dropout超参数等

(2)基于数据。数据扩充

直接在图像空间进行变换:

  • 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等
  • 对图像中的像素添加噪声扰动,如椒盐噪声、高斯白噪声等
  • 颜色变换。在图像的RGB颜色空间上进行主成分分析,得到3个主成分的特征向量和特征值,在每个像素的RGB值上添加增量
  • 改变图像亮度、清晰度、对比度、锐度等

对图像进行特征提取,在图像特征空间内进行变换,利用通用数据扩充或上采样技术:

  • SMOTE算法

使用生成模型合成新样本:

  • 生成对抗网络

(3)借助已有的其它模型或数据进行迁移学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值