机器学习-特征工程

最新推荐文章于 2024-07-15 22:10:26 发布

是akun吖

最新推荐文章于 2024-07-15 22:10:26 发布

阅读量110

点赞数

分类专栏：机器学习基础知识文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_44137632/article/details/129176911

版权

机器学习基础知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 特征归一化

（1）为了消除数据特征之间量纲的影响
（2）假如有两组数据特征 x1[0,100],x2[0,10],在相同学习率的情况下，x1的更新速度会大于x2的更新速度，需要更多的迭代才能找到最优解。如果归一化到相同的数值区间后，x1和x2的更新速度会变的更为一致，容易通过梯度下降找到最优解。
（3）特征归一化的两种方式
a.线性归一化：对原始数据进行线性变换，使得结果映射到[0,1]范围内，实现对数据的等比例缩放。
b.零均值归一化：将原始数据映射到均值为0，标准差为1的分布上。

def MaxMinNormalization(x,Max,Min):
    x = (x - Min) / (Max - Min);
    return x
def Z_ScoreNormalization(x,mu,sigma):
	x = (x - mu) / sigma;
    return x

2. 类别型特征

（1）主要是指类别等只在有限选项内取值的特征。
（2）三种编码格式
a.序号编码：通常用于处理类别间具有大小关系的数据。会按照大小关系对类别型特征赋予一个数值ID
b.one-hot 编码：用于处理类别间不具有大小关系的特征。可以使用稀疏向量来节省空间；配合特征选择来降低维度。
c.二进制编码：先赋予一个类别ID，然后将类别ID对应的二进制编码作为结果。本质是利用二进制对ID进行哈希映射，最终得到0/1特征向量，且维度少于one-hot编码，节省了存储空间。

3·.图像数据不足时的处理办法

（1）一个模型所能提供的信息来自两个方面，一是训练数据中蕴含的信息；二是在模型形成的过程中，人们提供的先验信息
（2）训练数据不足带来的问题主要体现在过拟合方面，即模型在训练样本上的效果可能不错，但在测试集的泛化效果不佳。
（3）解决方法主要有两种：一是基于模型的方法，主要是采用降低过拟合风险的措施，包括简化模型,添加约束项以缩小假设空间，集成学习，Droupout超参数等；二是基于数据的方法，主要通过数据扩充，即根据一些先验知识，在保持特定信息的情况前提下，对原始数据进行适当变换以达到扩充数据集的效果。可以采用如下几种方法：1.一定程度内的随机旋转，平移，缩放，裁剪，填充，左右翻转等。对图像中的像素添加噪声；颜色变换。改变图像的亮度、清晰度、对比度、锐度等。