Python for Data Analysis：数据加载、存储与文件格式

最新推荐文章于 2023-04-28 17:26:41 发布

Keiji1102

最新推荐文章于 2023-04-28 17:26:41 发布

阅读量209

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_44649331/article/details/104256724

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

读写文本格式的数据

函数	说明
read_csv	从文件、URL、文件型对象中加载带分割符的数据。默认分割符是逗号。
read_table	从文件、URL、文件型对象中加载带分割符的数据。默认分割符是\t。
read_fwf	读取定宽列格式数据，没有分割符设置。
read_clipboard	读取剪贴板中的数据。

(1) 读取一个以逗号分隔(csv)文件格式：pd.read_csv('ex1.csv')
(2) 用read_table读取csv文件需要指定分割符：pd.read_table('ex1.csv',sep = ",")
(3) 读取csv文件时不把第一行默认为列名：pd.read_csv('ex1.csv',header = None)
(4) 为csv文件设置列名：pd.read_csv('ex1.csv',names = ['a','b','c'])
(5) index_col参数指定行索引名。
(6) 若各个字段是由数量不同空白符分隔：pd.read_csv('ex1.csv',sep = '\s+')
(7) 跳过文件第一行、第三行和第四行：pd.read_csv('ex1.csv',skiprows = [0,2,3])
(8) na_value缺失值表示，可以传入一个字典。字典的key是列，value是该列中的某个值或值列表。
(9) nrows参数可以指定需要读取的行数。
(10) comment参数用于将注释信息从行尾拆分除去

读写文本格式的数据

(1) 利用DataFrame的to_csv()可以将数据写到一个以逗号分隔的文件中：data.to_csv('out.csv')
(2) 可以用sep参数指定其他分割符：data.to_csv('out.csv',sep = "|")
(3) na_rep参数可以将缺失值表示为别的标记值：data.to_csv('out.csv',na_rep = 'NULL')
(4) 设置行列：`data.to_csv(‘out.csv’,header = False,index = False,cols = [‘a’,‘b’,‘c’])

手工处理分割符格式

在这里插入图片描述
csv模块

import csv
f = open('./ex.txt')
reader = csv.reader(f)
for line in reader:
    print(line)

整理一下：

lines = list(reader)
header,values = lines[0],lines[1:]
data_dict = {h:v for h,v in zip(header,zip(*values))}

JSON数据

(1) 将JSON字符串转换为Python形式：result = json.loads(obj)
(2) 将Python对象转换为JSON格式：asjson = json.dumps(result)

二进制数据格式

(1) 以pickle形式保存frame：frame.save('out.csv')
(2) 将pickle形式的frame读回到Python：pd.load('out.csv')

HDF5格式

(1) pandas有个最小化的类似于字典的HDFStore：store = pd.HDFStore('data.h5')
(2) 读取HDFStore中的表：frame = store['obj1']

Keiji1102

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python for Data Analysis：数据加载、存储与文件格式

读写文本格式的数据函数说明read_csvread_tableread_fwfread_clipboard
复制链接

扫一扫

专栏目录