AI百题突击营day01

1,为什么要对特征做归一化?

特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[ 1000 , 10000 ] [1000, 10000][1000,10000],另一个特征的变化范围可能是[ − 0.1 , 0.2 ] [-0.1, 0.2][−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特征其作用可能会被忽略,为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化。

原始特征下,因尺度差异,其损失函数的等高线图可能是椭圆形,梯度方向垂直于等高线,下降会走zigzag路线,而不是指向local minimum。通过对特征进行zero-mean and unit-variance变换后,其损失函数的等高线图更接近圆形,梯度下降的方向震荡更小,收敛更快。

更加详细的解说可参考链接:https://blog.csdn.net/blogshinelee/article/details/102875044

2,什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组 合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种 离散特征。为了提高拟合能力,语言和类型可 以组成二阶特征。

特征降维的好处:

  • 数据维度降低,存储所需的空间减少
  • 减少计算和训练模型的时间
  • 剔除无用或关系不大的特征,减小对模型的影响,提高模型可用性
  • 删除冗余特征(比如某几维特征存在多重共线性)
  • 便于数据可视化

更加详细的解说可参考链接:

https://blog.csdn.net/youif/article/details/106773637

https://www.cnblogs.com/MiQing4in/p/13954634.html


3,请比较欧式距离与曼哈顿距离?

欧式距离:应用勾股定理计算两个点之间的直线距离。

曼哈顿距离:两个点在坐标系上的绝对轴距之和。

曼哈顿距离示意图在早期的计算机图形学中,屏幕是由像素构成,是整数,点的坐标也一般是整数,原因是浮点运算很昂贵,很慢而且有误差,如果直接使用AB的欧氏距离(欧几里德距离:在二维和三维空间中的欧氏距离的就是两点之间的距离),则必须要进行浮点运算,如果使用AC和CB,则只要计算加减法即可,这就大大提高了运算速度,而且不管累计运算多少次,都不会有误差。
更加详细的解说可参考链接:https://blog.csdn.net/qq_42902997/article/details/104986119


5,One-hot的作用是什么?为什么不直接使用数字作为表示?

One-hot 主要用来编码类别特征,即采用哑变量(dummy variables) 对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。

直接使用数字会给将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及差异关系等等


6,在模型评估过程中,过拟合和欠拟合具体指什么现象?

过拟合是指模型在训练数据拟合呈过当的情况,反应到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现很差。欠拟合指的是模型在训练和预测时都不好的情况。

更加详细的解说可参考链接:

https://blog.csdn.net/qq_29678299/article/details/88763411


7,降低过拟合和欠拟合的方法?

欠拟合:1. 模型复杂化 2. 增加更多特征 3. 调整参数和超参 4. 降低正则化约束

过拟合:1.增加数据训练数  2.使用正则化约束 3. 减少特征数 4. 降低模型复杂度 5. 调整参数和超参 6. 使用dropout 7. 提前结束训练。

更加详细的解说可参考链接:

https://www.cnblogs.com/excellent-ship/p/9090949.html

 

8, L1和L2正则分別服从什么分布?
分别服从拉普拉斯分布和正态分布。

在概率论与统计学中,拉普拉斯分布是一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。

 正态分布(Normaldistribution),也称“常态分布”,又名高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。公式为:

更加详细的解说可参考链接:

https://blog.csdn.net/weixin_43786241/article/details/109605265


9,对于树形结构为什么不需要归一化?
因为数值缩放不影响分裂点的位置,对树模型结构不造成影响。
另外,树模型不使用梯度下降算法进行优化,不会有求导操作,不需要归一化去消除特征尺度差异。

更加详细的解说可参考链接:

https://zhuanlan.zhihu.com/p/64362722

​​​​​​​

10, 什么是数据不平衡,如何解决?

数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。

更加详细的解说可参考链接:

https://zhuanlan.zhihu.com/p/136802758

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值