目录
不知道为什么很多教材上对于这两块知识点要采用一个标题——“数据清洗和预处理”。明明这俩也不是并列关系。
数据预处理与数据清洗的区别
数据清洗是数据预处理中的一个步骤,而且还是比较重要的步骤。
数据预处理和数据清洗在项目实际操作中特别重要,而且需要的时间也很长。一方面是为了提高数据的质量,另一方面是为了适应数据分析所要用到的软件或方法。
数据预处理
数据预处理包括:数据清洗、数据集成、数据变化和数据规约等。当然也不是所有步骤都需要用上。
数据清洗
数据清洗就是把数据集中的缺失值、重复着和异常值识别出并进行删除、填补和修正等一系列处理的过程,以便于更好地用于数据分析和建模。