pandas 处理数据的一些常见操作,统一处理数据文件中的各种空值

最新推荐文章于 2022-10-07 15:19:10 发布

明月何时园

最新推荐文章于 2022-10-07 15:19:10 发布

阅读量664

点赞数 2

分类专栏： python pandas 文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/yangheng1/article/details/108034880

版权

python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

pandas

3 篇文章 0 订阅

订阅专栏

我为一个使用pandas 的先手，在使用pandas 时总是出现各种问题，向大家分析一下。

1：首先是数据的读入

import pandas as pd
score_df=pd.read_csv("./学生成绩单.csv")

当读入大量数据是需要分批读入，防止内存不够

使用chunksize 来控制每次读入数据的行数

score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)

2：数据文件中空值的处理

由于dataframe中的空值与python的数据类型None不同，用可能是empty,nan等形式，在需要及进行判断是比较麻烦

可以将其统一转化为None，处理起来则要方便很多。

score_df=score_df.where(score_df.notnull(),None) #将空值同意转化为None

后面打算写一系列pandas 处理数据的系列，码字不易大家带那个赞哈。

pandas 数据分析系列欢迎大家阅读和提意见！！！

https://blog.csdn.net/yangheng1/article/details/108179976

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

明月何时园

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

这就是数据分析之Pandas与数据清洗

小白不白

12-03

792

总括在数据分析工作中，Pandas 的使用频率是很高的，一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高，转换起来就很方便。另一方面，如果我们日常的数据清理工作不是很复杂的话，你通常用几句 Pandas 代码就可以对数据进行规整。 Pandas 可以说是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包。在 NumPy 中数据结构是围绕 ndarray 展开的，那么在 Pandas 中的核心数据结构是什么呢？下面主要给你讲下 Series 和 Da

python数据表元素不为空值_python 填充空值失败_怎么用 Python 做数据分析实例

weixin_39588206的博客

02-21

829

01 生成数据表第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。获取外部数据python 支持从多种类型的数据导入。在开始使用 python 进行数据导入前需要先导入 pandas 库，为了方便起见，我们也同时导入 numpy 库。1import numpy a...

参与评论您还未登录，请先登录后发表或查看评论

python解决pandas处理缺失值为空字符串的问题

09-20

下面小编就为大家分享一篇python解决pandas处理缺失值为空字符串的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pandas 数据整合

xfzero的博客

04-16

895

Pandas 数据整合标签（空格分隔）： python pandas 合并数数据集 pandas.merge可以根据一个或者多个键将不同DataFrame合并起来 pandas.contact 可以沿着一个轴将多个对象叠到一起 combine_first可以将数据编接到一起,用一个对象中的值填充另一个值数据库风格DataFrame合并 pd.mer...

python读取csv文件忽略空值_如何跳过/忽略csv文件中的空字节pd.read_csv？

weixin_33520952的博客

01-14

2730

我有一个.csv文件，它有数百行/列，看起来像这样(小例子，请参阅图片，我无法复制/粘贴空字节必须手动键入它们)：9142,16.04000000,14.65000000<0x00><0x00><0x00>9143,16.19000000,14.65000000在尝试使用pandas读取csv时，有少量包含空字节(“&lt；0x00&gt；”)的...

python高级数据分析必备：pandas对各类文件的大统一

weixin_41855010的博客

03-07

354

pandas提供了一种标准的额数据格式DataFrame，类似于秦始皇统一度量衡，pandas可以用来统一csv、xlsx、sql甚至txt文件等，然后可以用pandas的数据处理方法来进行操作，以下整理了部分pandas文件操作的方法，供查阅参考。 pd读取csv文件 pd.read_csv的indel_col参数 pd读取excel文件 pd与np读取速度的比较 pd读取sql数据将pd数...

【Pandas】Pandas中以Series为基础对所有元素进行统一的操作

qq_41340996的博客

09-30

1391

在使用pandas对数据进行处理时，假设对于二维数组，每一行是一个数据，每一列是一个特征，可能需要对所有数据的特征进行一些缩放、平方、增加数值等操作。本文中介绍的方式，将每一个特征都取出作为一个 Series 来对当前 Series (特征)下的所有数据进行统一的操作。 # 假设 X 为所有的数据矩阵, feature 为某一个特征，其数据类型为DataFrame中的Series feature = X[0] # 假设 feature 取第0列表示的特征 new_f1 = feature + 1 #

python数据分析及可视化（七）pandas数据清洗，显性问题（异常、缺失、重复），隐形问题（离散、面元、字符串）

最新发布

hwwaizs的博客

10-07

2476

数据清洗是指我们拿到数据的格式、内容不方便直接做分析工作。比如要做土豆丝，买到土豆（拿到原数据）后不会直接做成菜，要先把土豆洗一下去掉泥土（相当于数据清洗），根据需求把土豆切成想要的形状（按照需求把数据进行规整），然后下锅炒，装盘（相当于数据分析的可视化，把数据通过图表的形式展现出来）。

python pandas数据清洗_Pandas进行数据清洗的方法介绍

weixin_35403151的博客

02-09

1760

Pandas进行数据清洗的方法介绍，数据清洗是一项复杂且繁琐的工作，同时也是整个数据分析过程中最为重要的环节。Pandas中常见的数据清洗操作有空值和缺失值的处理、重复值的处理、异常值的处理、统一数据格式等。前期采集到的数据或多或少都存在一些瑕疵和不足，如数据缺失、极端值、数据格式不统一等问题。在分析数据之前需要对数据进行预处理，包括数据的清洗、合并、重塑与转换。Pandas中专门提供了用于数据预...

用python处理excel数据做函数_如何使用python通过函数式编程完成excel中的数据处理及分析工作...

weixin_35949386的博客

02-05

1654

Excel是数据分析中最常用的工具，本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过python完成数据生成和导入，数据清洗，预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见...

Python-使用空值进行赋值-None

qq_17753903的博客

05-04

4万+

0.摘要在Python中，尤其是数组当中，对于一些异常值往往需要进行特殊处理。为了防止异常值与正常数据混淆，影响最终计算结果，常用的方法是将异常值置零或者置空。置零的方法较为简单，本文主要介绍如果对python中的数据进行置空。 1.赋值为None 对于一般数据，可以直接为其赋值为None。 i = 1 i = None # int 型数据置空 s = "strin...

pd.read_csv加载数据缺失值处理na_values与数据为空的填充。

wangwangstone的博客

03-28

8400

指定缺失值的填充值利用pd.read_csv读取文件加载时，默认会将文件中缺失的数据自动填充为NaN，如果想指定缺失数据的填充值，则可以利用里面的na_values参数。 import pandas as pd data=pd.read_csv("./selectRefer10PerClass0317.txt",sep='\t') data.head() 此时对于对于缺失数据的填充值为Nan 指定以某个值去填充缺失的数据，如字符串'-1' import pandas as pd data=p.

null和empty的区别

魏云舒的博客

06-01

2185

代码 String a = new String String b = "" String c = null 分析：此时a是分配了内存空间，但值为空，是绝对的空，是一种有值（值存在为空而已）此时b是分配了内存空间，值为空字符串，是相对的空，是一种有值（值存在为空字串）此时c是未分配内存空间，无值，是一种无值(值不存在) ...

【pandas】空数据处理

weixin_37804469的博客

07-16

6588

pd.isna() pd.dropna() pa.fillna()

pandas中read_csv的缺失值处理

dzysunshine的博客

10-26

1万+

今天遇到的问题是，要将一份csv数据读入dataframe，但某些列中含有NA值。对于这些列来说，NA应该作为一个有意义的level，而不是缺失值，但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。看pandas文档中read_csv函数中这两个参数的描述，默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#...

python改变numpy数据类型_Numpy数据类型转换astype,dtype的方法

weixin_39892460的博客

11-20

363

1、查看数据类型in [11]: arr = np.array([1,2,3,4,5])in [12]: arrout[12]: array([1, 2, 3, 4, 5])// 该命令查看数据类型in [13]: arr.dtypeout[13]: dtype('int64')in [14]: float_arr = arr.astype(np.float64)// 该命令查看数据类型in [1...

python处理csv文件里的空值_python处理csv中的空值方法

weixin_39884492的博客

11-30

1454

如下所示：# -*- coding: UTF-8 -*-import jieba.possegimport tensorflow as tfimport pandas as pdimport csvimport math"""1.必須獲取CSV文件夾（ID：文本）2.返回(ID：分词后的文本)"""flags = tf.app.flagsflags.DEFINE_string("train_fil...

pandas 缺失值与空值处理