前言
接上一篇数据爬取的信息进行数据清洗。
一、数据清洗是什么?
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查 数据一致性 ,处理无效值和 缺失值 等。 与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 数据清洗 (Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供 数据一致性 。
二、我的代码呈现
1.引入包
代码如下(示例):
import pandas as pd
import numpy as np
import os