数据清洗
高雅_GaoYa
一个励志成为优秀分析师的孩纸
展开
-
python数据清洗学习笔记--数据预处理
python数据清洗学习笔记–数据预处理重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除,例如订单明细数据或交易明细数据等df[df.duplicated()]np.sum(df.duplicated()) df.drop_duplicates() df.drop_duplicates(subset=['appname','...原创 2020-04-04 22:41:11 · 1166 阅读 · 0 评论 -
python数据清洗学习笔记--数据统计
python数据清洗学习笔记–数据统计文章目录python数据清洗学习笔记--数据统计1、数据分组运算2、聚合函数的使用3、分组对象与apply函数4、透视图与交叉表数据透视表交叉表用于计算分组频率1、数据分组运算分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定 的函数,得到结果• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(...原创 2020-04-04 15:51:45 · 354 阅读 · 0 评论 -
python数据清洗学习笔记--数据转换
python数据清洗学习笔记–数据转换目录python数据清洗学习笔记--数据转换1、日期格式数据处理2、字符串数据处理3、高阶函数数据处理1、日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间...原创 2020-04-04 11:01:56 · 246 阅读 · 0 评论 -
python数据清洗学习笔记--数据表处理
python数据清洗学习笔记–数据表处理数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类型']] basic.loc[0:2,['户主姓名', '户主身份证号']] orde...原创 2020-04-03 16:22:19 · 551 阅读 · 0 评论 -
python数据清洗学习笔记--文件读写
python数据清洗–文件读写目录python数据清洗--文件读写csv文件读写:excel文件读写:数据库文件的读写:创建连接数据保存:前期准备:#导入os模块import os#获得当前路径地址os.getcwd() # 更改文件路劲os.chdir('F:\python\数据清洗\代码和数据')#设置最大显示列数pd.set_option('display....原创 2020-04-02 23:00:05 · 636 阅读 · 0 评论 -
Python数据清洗学习笔记--常用工具
Python数据清洗–常用工具概述:目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率NumPy:NumPy常用的数据结构Numpy中常用的数据结构是ndarray格式使用a...原创 2020-04-02 22:23:07 · 440 阅读 · 0 评论 -
Python数据清洗学习笔记--概述
Python数据清洗学习记录–概述数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为’干净的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失 (Incomplete)是属性值为空的情况。如 Occupancy = “ ”数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”数据不一致 (Inconsistent)是数据前后存在...原创 2020-04-02 22:05:23 · 473 阅读 · 0 评论