【特征工程入门与实践】【特征理解】

特征理解

  1. 结构化与非结构化数据
  2. 定量与定性数据
  3. 数据的4个等级
  4. EDA与数据可视化
  5. 描述性统计

一、结构化与非结构化

  • 结构化数据
    一般以表格形式组织,行是观察值,列是特征

  • 非结构化数据
    不遵循标准组织结构的数据,通常是一团的,或只有一列。例如服务器日志和推文

二、定量数据与定性数据

  • 定量数据本质上是数值,应该是衡量某样东西的数量。
  • 定性数据本质上是类别,应该是描述某样东西的性质。

如:今天的降雨量是定量,今天的天气是晴天还是阴天是定性。
数据可能同时是定量和定性,如餐厅评分,虽然是数值,但是这个数也可以代表类别。要按照实际问题去看,如果是星级系统打分,那么是定量。如果是评价(讨厌、一般、喜欢),那么是定性。

数据的4个等级
  • 定类等级 nominal level
  • 定序等级 ordinal level
  • 定距等级 interval level
  • 定比等级 ratio level

不同等级决定了它可以执行的可视化类型和操作。按照以上顺序,逐渐包含上一层的所有属性。

  1. 定类等级
    结构最弱,数据只按名称分类,如人名、物种名。都是定性的
    不可执行数学操作
    可以查看不同类别出现频率,可以绘制图表,如条形图、饼图
    例子:最普通的种类划分,如工种,既没有可比性,也无法计算

  2. 定序等级
    数据可以自然排序,代表数据之间有比较性。也是处理定性数据
    不可执行数学操作
    可以计数,同时可以比较和排序,能计算中位数和百分位数,可绘制茎叶图和箱线图
    例子:星级评价,分数代表着类别,评分有大小比较关系

  3. 定距等级
    可以研究定量数据,值之间的差异有意义,
    可执行数学操作,可以加减,均值、标准差等
    用直方图,不同桶代表不同数据。也可以绘制散点图
    例子:气温随着时间的变化,差值比较可以呈现温差的变化

  4. 定比等级
    处理定量数据
    有了绝对零点的概念,可以做乘除运算
    因为存在0这个概念,所以比值是有意义的
    例子:货币的价值,100块是50块的两倍

总结:

在这里插入图片描述
数学执行:
在这里插入图片描述
画图:
在这里插入图片描述
了解数据时的一个简单流程:在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值