数据分析——特征工程

1. 数据预处理

1.1 缺失值处理
  • 根据经验值填充失数据
  • 计算均值,中位数,众数。。等填充数据
  • 重新获取缺失数据
1.2 数据格式/字符类型不符
1.3 逻辑错误
  • 数据重复,去重操作
  • 数据逻辑不合理,如存在相关性的值之间存在矛盾(eg: 身份证号码和填写生日)
1.4 非需求数据处理
1.5 文本数据
  • 无关数据
  • 脏数据
1.6 图片数据
  • 图片格式
  • 图片本身质量

2. 数据变换

2.1 尺度缩放
  • 0-1标准化,z标准化(使不同特征的权重标准化)
  • 归一化操作对于向量
2.2 特征变化
  • 二值化,如将数据划分为0,1
  • 分区间,如对于面积,价格等量,划分区间处理
  • 精度调整,如小数点后保留的位数
  • log变换,处理大数据

3. 特征表示与特征交互

3.1 特征表示
  • 自然数编码与one-hot编码
    自然数编码对于有实际差别意义的场景;one-hot编码在特征空间中,坐标之间的距离是相等的,适用于无实际差别意义的场景
3.2 特征交互
  • 两个或多个特征,构建出新特征
  • 特征组合,多个特征放在一起处理

4. 文本

4.1 文本特征提取
  • 词袋:分词,编号(每个词出现的次数),将文本转化为特征向量
  • bag-of-ngram:对词进行组合
4.2 词频统计TF-IDF
TF * log(IDF), 对IDF log变换以压缩
TF词频=出现次数/文档总次数 -- 归一化效果,当前信息
IDF词频=文档总数/出现某词文档数 -- 整个环境的信息

5. 图像

  • 图像的边缘信息
  • 提起图像色彩直方图

6. 特征选择

  • 考虑每个特征的权重,以进行特征选择;
  • 对特征全集取子集,生成不同的组合;(控制变量)在模型既定时,加入不同的特征,选择准确度更高的
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值