手把手教你使用Pandas读取结构化数据

最新推荐文章于 2023-05-27 14:25:17 发布

大数据v

最新推荐文章于 2023-05-27 14:25:17 发布

阅读量1.2k

点赞数 2

文章标签： python 人工智能数据分析大数据机器学习

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/122227321

版权

本文介绍了如何使用Pandas库读取和处理结构化数据，包括DataFrame、Series和Panel的数据结构，以及read_csv函数的使用，如指定列、行、分块读取和处理异常数据。通过实例展示了从csv文件加载数据、读取指定行和列、分块读取数据以及处理编码问题。

摘要由CSDN通过智能技术生成

导读：Pandas是一个基于Numpy库开发的更高级的结构化数据分析工具，提供了Series、DataFrame、Panel等数据结构，可以很方便地对序列、截面数据（二维表）、面板数据进行处理。

作者：张秋剑张浩周大川常国珍

来源：大数据DT（ID：hzdashuju）

我们可通过限定时间ID和样本ID获得对应的Series和DataFrame。

由于这些对象的常用操作方法十分相似，因此本文主要使用DataFrame进行演示。

01 读取文件

Pandas库提供了便捷读取本地结构化数据的方法。这里主要以csv数据为例，read_csv函数可以读取csv数据，代码如下：

import pandas as pd
csv = pd.read_csv('data/sample.csv')
csv

id name   scores
0   1  小明    78.0
1   2  小红    87.0
2   3  小白    99.0
3   4  小青 99999.0
4   5  小兰     NaN

按照惯例，Pandas会以pd为别名，以read_csv函数读取指定路径下的文件，然后返回一个DataFrame对象。如果在命令行中打印DataFrame对象，可读性可能会略差一些；如果在Jupyter Notebook中打印的话，可读性会大幅提升。

打印出来的DataFrame包含索引（

关注