百面机器学习第一章--特征工程

1、特征归一化

1.1 为什么要对数值类型特征做归一化?

为了消除数据特征之间的量纲影响,对特征进行归一化处理,使不同指标之间具有可比性。
常用的归一化方法:

  1. 线性函数归一化, X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=XmaxXminXXmin
  2. 零均值归一化,将原始数据映射到均值为0,标准差为1的分布上, z = x − μ σ z=\frac{x-\mu}{\sigma} z=σxμ
    特征归一化后,在进行梯度下降过程中,可以更快找到最优解。
    适用模型:线性回归,逻辑回归,SVM,神经网络等
    不适用模型:决策树,归一化不改变样本在特征 x x x 上的信息增益

2、类别型特征

2.1 在对数据处理时,应该怎样处理类别型特征?

  • 序号编码:用于处理类别建具有大小关系的数据,例如高>中>低,可以映射为3,2,1
  • one-hot编码:特征某一维为1,其余为0,可以用稀疏表示来减少空间存储
  • 二进制编码:先赋予一个id,然后将id转为二进制,所用空间少于one-hot编码。

3、高维组合特征的处理

3.1 什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶特征。特征组合导致模型要学习的参数规模巨大,一般通过矩阵分解来降低复杂度。
常用的矩阵分解方法:

  • QR分解: A m n = Q m m ⋅ R m n A_{mn}=Q_{mm}\cdot R_{mn} Amn=QmmRmn,其中 Q m m Q_{mm} Qmm 是一个正交阵, R m n R_{mn} Rmn 是上三角阵
  • LU分解:利用初等变换,将矩阵分解为一个上三角和一个下三角矩阵的乘积
  • SVD: A m n = U m m ⋅ Σ m n ⋅ V n n T A_{mn}=U_{mm}\cdot \Sigma_{mn}\cdot V_{nn}^{T} Amn=UmmΣmnVnnT,其中 U , V U,V U,V均为酉矩阵( U ∗ ⋅ U = I n U^{*}\cdot U=I_{n} UU=In)
  • Jordan分解

4、组合特征

4.1 怎样有效地找到组合特征?

通过构造决策树来进行特征选择

5、文本表示模型

5.1 有哪些文本表示模型?各自有什么优缺点?

词袋模型和N-gram模型
利用TF-IDF来计算每个词的重要性,随机采样

  • 优点:简单易处理
  • 缺点:单词级的拆分会导致语义丢失

主题模型

  • LDA

词嵌入与深度学习模型

6、Word2Vec

6.1 Word2Vec是如何工作的?它与LDA有什么区别和联系?

word2vec包括两种模型,CBOW和Skip-gram,CBOW是利用上下文出现的词来预测当前词的生成概率;而Skip-gram则是利用当前词来预测上下文各词出现的概率。
CBOW输入是一个 V × N V\times N V×N 的矩阵,每一行代表一个词向量, V V V 是上下文长度,乘以一个 N × K N\times K N×K 大小的稀疏矩阵后按行求和,得到一个 K K K 维的向量,再乘以一个 K × N K\times N K×N的矩阵,得到一个 N N N 维的向量,每一维代表预测结果为该维对应词的概率,再由softmax激活函数输出, p ( y = w n ∣ x ) = e x n ∑ k = 1 N e x k p(y=w_n|x)=\frac{e^{x_n}}{\sum_{k=1}^{N}e^{x_k}} p(y=wnx)=k=1Nexkexn这里要求 K × N K\times N K×N N × K N\times K N×K两个参数矩阵。
Skip-gram过程刚好相反。
主题模型和词嵌入两类方法最大的不同其实在于模型本身,主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题),而词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出智商,需要通过学习网络的权重以得到单词的稠密向量表示。

7、图像数据不足时的处理方法

7.1 在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

数据不足导致模型学习不充分,欠拟合,泛化能力弱,可以从两个方面来优化,一是基于模型的方法,主要是采用降低过拟合风险的措施,包括简化模型,增加约束项以缩小假设孔家,集成学习,dropout超参数等;二是基于数据的方法,主要通过数据扩充,在保持特定信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值