【菜鸟系列读书会】3-4章读书笔记(入门篇)

3.1理解数据

3.1.1字段与记录

我们把表中的每一行叫做一个“记录”,每一个记录包含这行中的所有信息,就像在通讯录数据库中某个人全部的信息,但记录在数据库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录。字段是比记录更小的单位,字段集合组成记录,每个字段描述文献的某一特征,即数据项,并有唯一的供计算机识别的字段标识符。

3.1.2数据类型

  • 字符型数据
  • 数值型数据

3.1.3数据表

一维表、二维表:“维”指分析数据角度

二维表→一维表:导入“数据透视表和数据透视图向导”功能


3.2数据来源

3.2.1导入数据

  • 文本数据
  • 网站数据
  • 可以实时更新

3.2.2问卷录入要求

  • 数值题:实际填入数字
  • 单选题:定义变量,录入可采用1、2、3、4代表A、B、C、D
  • 多选题:二分法、多重分类法
  • 排序题:与多重分类法类似
  • 开放性文字题

4.1何为数据处理

①数据清洗②数据加工

4.2数据清洗

4.2.1重复数据的处理

  • 函数法:COUNTIF
  • 高级筛选法:数据-排序和筛选-高级
  • 条件格式法:开始-条件格式-突出显示单元格规则
  • 数据透视表法:插入-数据透视表

4.2.2删除重复数据

  • 通过菜单操作删除重复项
  • 通过排序删除重复项
  • 通过筛选删除重复项

4.2.3缺失数据处理

可以接受的标准是,缺失值在10%以下

缺失值:缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

  • 定位输入:快捷键“ctrl+G”,开始-编辑-定位条件

处理缺失值的四种方法:

  1. 用一个样本统计量的值代替缺失值,最典型的做法就是使用该变量的样本平均值代替缺失值。“ctrl+enter”
  2. 用一个统计模型计算出来的值去代替缺失值,常使用的模型有回归模型、判别模型等,不过这得用专业数据分析软件
  3. 将有缺失值的记录删除
  4. 将有缺失值的记录保留,仅在相应的分析中做必要的排除

  • 查找替换:“ctrl+f”查找“ctrl+h”替换

4.2.4检查数据逻辑错误

  • 利用IF函数检查错误
  • 利用条件格式标记错误

4.3数据加工

4.3.1数据抽取

  • 字段分列:①菜单法②函数法left、right
  • 字段合并:CONCATENATE
  • 字段匹配:VLOOKUP

4.3.2数据计算

  • 简单计算
  • 函数计算:①平均值与总和:AVERAGE、SUM②日期的加减法:DATE、YEAR、MONTH、DAY③计算工龄:DATEIF

4.3.3数据分组

VLOOKUP

4.3.4数据转换

  • 数据表的行列互换:ctrl+alt+v
  • 多选题录入数据方式之间的转换:HLOOKUP(按行)SEARCH

4.4数据抽样

RAND

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值