七、数据清洗
1、前置知识
伪造数据
正则表达式
2、数据清洗
清洗目标:
- 把空值处理掉
- 把id列删除
- 把 环线 生成新的一列
- 把 区 生成新的一列
- 把最小面积 和最大面积 生成新的列
2.1、初步清洗
2.2、字符串处理
series调用字符串方法,必须先写.str
# series 要想使用str的方法,必须写.str
# split 分割
# [] 切片
# extract 正则提取
# replace 替换
伪造数据
正则表达式
清洗目标:
series调用字符串方法,必须先写.str
# series 要想使用str的方法,必须写.str
# split 分割
# [] 切片
# extract 正则提取
# replace 替换