机器学习 数据分析基础

1.数据类型

(1)数值型
   ● 连续型:利用实数表示属性
   ● 离散型:利用整数表示属性
(2)标称型
   ● 0-1型:预先定义一个类别,若记录属于该类别则为1,否则为0
   ● 多值标称型:预先定义一个类别集合,用类别集合中的一个或多个来描述样本
(3)序列型:有序的数值型或标称型值串
(4)序数型:具有偏序关系的离散数值

2.数据清洗 

(1)噪声数据
   ● 平滑
   ● 装箱
(2)缺失数据
   ● 均值/众数/中位数补全
   ● 启发式补全
(3)相关性计算
   ● 皮尔逊相关系数
   ● 斯皮尔曼相关系数
   ● 互信息

3.数据转换

(1)数据离散化
   ● 等频装箱
   ● 等宽装箱
(2)数据数值化
   ● One-Hot编码
   ● 排序编码
(3)数据归一化
   ● 最大最小归一化
   ● Z-SCORE归一化

参考链接:https://blog.csdn.net/yuxiao_v/article/details/79414022

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值