利用Python进行数据分析笔记－读写数据_python的root.indicator-CSDN博客

本文链接：https://blog.csdn.net/wuzlun/article/details/80283593

本文介绍了如何使用Python的Pandas库进行数据读取与保存，包括read_csv、read_json等方法。此外，还涉及了JSON数据转换、XML和HTML的解析，以及数据库交互和网络API的使用。

摘要由CSDN通过智能技术生成

Pandas方法

pandas有很多用来读取表格式数据作为dataframe的函数，下面列出来一些。其中read_csv和read_tabel是最经常用到的：

import pandas as pd
import numpy as np

# read_csv方法
df = pd.read_csv('../examples/ex1.csv')
df

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

# read_csv方法，没有head行文件
pd.read_csv('../examples/ex2.csv', header=None)

# read_csv方法，自定义head
pd.read_csv('../examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

如果想要从多列从构建一个hierarchical index(阶层型索引)，传入一个包含列名的list：

# 利用type查看原始结构
!type "csv_mindex.csv"

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16

parsed = pd.read_csv('csv_mindex.csv',
                     index_col=['key1', 'key2'])
parsed

# 读取前五行
pd.read_csv('../examples/ex6.csv', nrows=5)

	one	two	three	four	key
0	0.467976	-0.038649	-0.295344	-1.824726	L
1	-0.358893	1.404453	0.704965	-0.200638	B
2	-0.501840	0.659254	-0.421691	-0.057688	G
3	0.204886	1.074134	1.388361	-0.982404	R
4	0.354628	-0.133116	0.283763	-0.837063	Q

# 读取文件一部分，可以指定chunksize
chunker = pd.read_csv('../examples/ex6.csv', chunksize=1000)

#get_chunk方法，能返回任意大小的数据片段
chunker.get_chunk(10)

	one	two	three	four	key
0	0.467976	-0.038649	-0.295344	-1.824726	L
1	-0.358893	1.404453	0.704965	-0.200638	B
2	-0.501840	0.659254	-0.421691	-0.057688	G
3	0.204886	1.074134	1.388361	-0.982404	R
4	0.354628	-0.133116	0.283763	-0.837063	Q
5	1.817480	0.742273	0.419395	-2.251035	Q
6	-0.776764	0.935518	-0.332872	-1.875641	U
7	-0.913135	1.530624	-0.572657	0.477252	K
8	0.358480	-0.497572	-0.367016	0.507702	S
9	-1.740877	-1.160417	-1.637830	2.172201	G

# read_table方法
result = pd.read_table('../examples/ex3.txt', sep='\s+')  # \s+正则表示空格
result