python
明月何时园
这个作者很懒,什么都没留下…
展开
-
pandas 数据分析1
上一篇给大家介绍了使用pandas 读取Excel,CSV格式的数据。今天就给大家接一下数据清洗,在数据挖掘项目中数据清洗大要占到整个项目周期的60%的时间。并且数据清洗的效果很大程度上影响着模型的效果,因此数据清洗数分析和数据挖掘中占有的地位不言而喻。话不多,开始讲数据清洗。首先什么是数据清洗,数据清洗就是根据实际的项目需要,对要用到的数据进行清理。数据清洗主要进行的处理一:对数据中的缺失值进行处理。一般有两种方法,(1)直接删除(2)对缺失值进行补充。二:对异常值得处理。异常值的处理和确原创 2020-09-13 21:47:26 · 352 阅读 · 0 评论 -
pandas 数据处理1
本片给大介绍数据的读写部分(一)数据读取1:pandas 读取csv数据score_df=pd.read_csv("./学生成绩单.csv",index_col="序号",chunksize=10000,sep=",",skiprows=[1],encoding="utf-8",error_bad_lines=False)下面介绍下常用的参数和含义sep = ",", #csv文件的分割符号版默认为,# Column and Index Locations and Names原创 2020-08-23 10:58:17 · 294 阅读 · 0 评论 -
pandas 处理数据的一些常见操作,统一处理数据文件中的各种空值
我为一个使用pandas 的先手,在使用pandas 时总是出现各种问题,向大家分析一下。1:首先是数据的读入import pandas as pdscore_df=pd.read_csv("./学生成绩单.csv")当读入大量数据是需要分批读入,防止内存不够使用chunksize 来控制每次读入数据的行数score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)2:数据文件中空值的处理由于dataframe中的空值与python原创 2020-08-16 12:52:46 · 659 阅读 · 0 评论 -
Ubuntu pip 安装 ImportError: module 'setuptools.dist' has no attribute 'check_specifier'
在ubuntu 16.04 环境下使用pip3 下载pyhdfs 报错此前安装其他模块一直没有问题pip3 install pyhdfsImportError: module 'setuptools.dist' has no attribute 'check_specifier'使用pip install --upgrade setuptools==30.1.0 成功解决...原创 2020-03-02 10:51:53 · 1147 阅读 · 0 评论