百面机器学习W1

第一章 特征工程

在这里插入图片描述
数据和特征是很重要的,决定模型上限,模型算法的选择和优化来接近上限;数据包括两种类型:结构化数据(数值型,类别型)和非结构化数据(文本图像音频视频)

Q1为什么对数值类型的特征做归一化?

A1为了使个指标处于同一个数值量级或者叫区间,以便分析。最常用的两种方法是Min-Max Scaling(线性函数归一化映射到01区间内,等比例缩放)和Z-Score Normalization(零均值归一化,映射到标准正态分布),用梯度下降来举例子X1的取值范围为0-10,X2的取值范围为0-3,在学习率相同的情况下,X1的更新速度大于X2,需要多次迭代才能找到最优解,归一化之后,更新速度变得一致,就更快的通过梯度下降找到最优解。通过梯度下降求解的模型都是需要进行归一化的,线性回归,逻辑回归,支持向量机,神经网络,但是决策树不适用
在这里插入图片描述
在这里插入图片描述

Q2,数据预处理时,怎么处理类别型数据

A2 类别型数据指男女,血型这种在有限选项中取值的特征,通常为字符串形式,除了决策树等能直接处理字符串形式的输入,对于逻辑回归,向量机等模型来说,类别型数据要转化为数值型特征才能正常工作。解决方式包括三个:序号编码(Ordinal Encoding),独热编码(One-hot Encoding),二进制编码(Binary Encoding)。

a 序号编码:成绩分档,高中低可分为3,2,1,保留了大小关系
b 独热编码:不具有大小关系的,血型这种转化为4维的稀疏矩阵,可以使用稀疏向量来节省空间,
再配合特征选择来降低维度,高纬度特征带来的问题有:
1.在K近邻算法中高维空间下的两点之间的距离很难得到有效的衡量
2.在逻辑回归模型中参数的数量随着维度的增高而增加,容易引起过拟合问题
3.通常只有部分维度对分类预测任务有贡献,所以配合着特征选择来降低维度。
c 二进制编码:先用序号编码赋值一个类别ID,然后转化为二进制的形式

Q3 什么是组合特征?如何处理组合特征

A3 为了提高关系拟合能力,在特征工程中经常会把一阶离散特征两两分组,构成高阶组合特征。以广告点击预估问题为例。白话来说就是,本来特征为颜色,值为红色或者黄色,形状,值为圆形或者方形,然后将特征与值组合,用01来表示取没取到,特征就变成了红色+圆形,红色+方形,黄色和圆形,黄色和方形,用01来表示取哪个。

Q4 怎么找到特征组合

A4 特征组合时遇到的问题包括参数过多,过拟合等问题,而且并不是所有的组合都是有意义的,可以通过基于决策树的特征组合寻找方法,有效的构建决策树的方法是采用梯度提升决策树,思想是每次都在之前构建的决策树的残差下构建下一棵决策树

Q5有哪些文本表示模型,各自的优缺点是什么

A5文本是一种非结构化数据,包括词袋模型(Bag of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型。

a.词袋模型和N-gram模型:词袋模型也就是将每篇文章看成一袋子词,并忽略每个词出现的顺序,
具体操作就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,
向量中的每一维代表一个单词,该维度对应的权重反映了这个词在原文章中的重要程度,
常用TF-IDF来计算权重,TF-IDF(t,d)=TF(t,d)*IDF(t)TF(t,d)为单词t在文档d中出现的频率
IDF(t)为逆文档频率(用来衡量单词t对表达语义所起的重要性),
IDF(t)= log(文档总数/(包含单词t的文章总数+1))如果一个单词在非常多的文章里面都出现,
那么对于这种通用词汇对于区分文章特殊语义的贡献较小,要对权重做出一定的惩罚。
但是有的单词组合起来的意思和拆开的词的意思不是一样的,
所以可以将连续出现的n个词组成的词组(N-gram)作为一个单独的特征放在向量表示中去,构成N-gram模型;
还有同一个词可能有多个词形变化,却具有相似的含义,一般会对单词进行词干抽取(Word Stemming)处理,
即将不同词性的单词统一成为同一词干的形式
b.主题模型:用于从文本库中发现有代表性的主题,并且计算出每篇文章的主题分布。详见6.5
c.词嵌入和深度学习模型:词嵌入是一类将词向量话的模型的统称,
思想是将每个词都映射成低维空间上的一个稠密向量。K维空间的每一维可以看作一个隐含的主题,
只不过不想主题模型中的主题那样直观;深度学习模型正好为我们提供一种自动进行特征工程的方式,
模型中的每个隐层可以认为对应着不同层次抽象的特征

Q6 Word2Vec是如何工作的?它和LDA(隐狄利克雷模型)有什么区别和联系(用的gpt的答案,有条理一些)

A6 Word2Vec是谷歌2013年提出的最常用的词嵌入模型之一,是一种浅层的神经网络模型,是一种将词语表示为向量的算法,核心的思想是将语义相近的词映射到高维空间中的相邻位置,通过学习大量的文本数据中的上下文信息将每个词语映射到一个稠密的向量空间中去。他有两种模型,CBOW(Continues Bag of Words)和Skip-gram。
Skip-gram模型:
输入:给定一个中心词,模型的目标是预测其周围的上下文词。
网络结构:包含一个输入层,一个投影层(也叫嵌入层),一个输出层,输入层与输出层的词汇量相同,均为语料库中的所有词。
训练目标:通过最大化给定中心词情况下预测上下文词的概率,从而学习词嵌入
CBOW模型:
输入:给定上下文词,模型的目标是预测中心词
网络结构:输入层包含上下文词,输出层包含中心词
训练目标:通过最大化给定上下文词情况下预测中心词的概率,从而学习词嵌入
共同点:都通过反向传播算法和梯度下降法更新词嵌入矩阵,使得模型能够更好的预测上下文或者中心词。
W2V的优势在于能够捕捉词语之间的语义的关系,使得语义详尽的词在向量空间中表现为相似的向量。
key:相似的上下文的词在嵌入空间中距离较近
训练过程中通过最大化预测概率来学习有意义的词的嵌入
区别:
1.任务目标:
···W2V专注于学习词嵌入,将每个词映射到一个连续的向量空间,以捕捉词语之间的语义关系
···LDA专注于主题建模,旨在发现文档集合中隐藏的主体结构,将每个文档表示为主题的分布
2.输出形式
···W2V的输出的是词嵌入,目标是预测上下文或者中心词。
···LDA的输出是主题的分布,每个文档都表示为主题的概率分布,每个主题都表示为词的分布
3.学习方式:
···通过训练神经网络来学习词嵌入,目标是预测上下文或者中心词
···通过使用概率图模型,特别是潜在的狄利克雷分布来推断文档和主题之间的关系
4.应用领域
···用于NLP,文本分类,情感分析,命名实体识别
···用于主题建模,如文档归类,主题分析,信息检索
联系:
1.前者的词嵌入可以看作是对词语语义的一种表示,后者中的主题分布可以看作是对文档语义的一种表示
2.前者可以用于构建文本的表示,将文本中的所有词的词向量平均或者加权平均作为文本的表示;后者可以用于构建文档的表示,表示文档中主题的分布

Q7 在图像分类任务中,训练数据不足会带来的问题是什么,如何缓解数据量不足带来的问题

A7 训练数据不足会表现在过拟合,在训练集表现好,测试集表现差处理方法有:1.基于模型的方法,采用降低过拟合风险措施(L1/L2正则项),集成学习,Dropout超参数;2.基于数据的方法,采用数据扩充,即根据一些先验知识,在保持特定信息前提下,对原始数据集进行变换达到扩充数据集的效果,变化包括一定程度上的随机旋转,平移,缩放,裁剪,填充,左右翻转等,属于对同一个目标不同角度的观察结果。对像素添加噪声扰动,椒盐噪声和高斯白噪声,颜色变化,比如在RGB空间上进行主成分分析,得到三个主成分特征向量,及对应的特征值,然后在每个像素的RGB值上添加增量,改变图片的亮度清晰度对比度锐度。除了图像空间变换,3.还可以对图像进行特征提取,然后在图像的特征空间及逆行变换,利用通用的数据扩充或者上采样技术。也可以使用生成模型合成一些新样本。4.还有可以借助已有的其他模型或者数据来进行迁移学习也很常见。

  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值