Pandas剔除混合数据中非数字的数据

最新推荐文章于 2024-06-12 17:08:19 发布

zheng_weibin

最新推荐文章于 2024-06-12 17:08:19 发布

阅读量1.6w

点赞数 4

分类专栏： Pandas 文章标签：数据预处理 pandas

本文链接：https://blog.csdn.net/zheng_weibin/article/details/79375420

版权

Pandas 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

我们日常拿到的数据，指标字段有时会混入非数字的数据，这时候会影响我们的操作，

name	height
Hang	180
Ben	145
Cho	notknow
XIn	189

比如read_csv读入时，该列会以object形式读入，也不能直接进行计算，不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误

这时候就需要进行数据预处理，清除掉指标值中非数字的数据，这里我以2012_FederalElectionCommission_Database数据为例。首先读入数据，可以发现提示：Columns (6) have mixed types，这里Columns (6)是指标值混有字符串格式数据

fec = pd.read_csv('P00000001-ALL.csv')
D:\SOFTWARE\Anaconda\lib\site-packages\IPython\core\interactiveshell.py:2717: DtypeWarning: Columns (6) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)

#先使用str打开数据
fec = pd.read_csv('P00000001-ALL.csv',dtype={'contbr_zip':str})

#然后使用str函数isdigit()判断单元格是否全为数字

fec_isnum=fec.iloc[:,6].str.isdigit()

#得到使用bool索引把全为数字的表格cleaned

cleaned = fec[fec_isnum].copy()

zheng_weibin

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Pandas剔除混合数据中非数字的数据

我们日常拿到的数据，指标字段有时会混入非数字的数据，这时候会影响我们的操作，nameheightHang180Ben145ChonotknowXIn189比如read_csv读入时，该列会以object形式读入，也不能直接进行计算，不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误这时候就需要进行数据预处理，清除掉指标值中非数...
复制链接

扫一扫

专栏目录