【读书笔记】《利用Python进行数据分析》第2版_第六章数据载入、存储及文件格式

最新推荐文章于 2022-08-06 12:11:51 发布

is_colorful

最新推荐文章于 2022-08-06 12:11:51 发布

阅读量2.3k

点赞数

分类专栏： python 文章标签： python 数据分析 jupyter

本文链接：https://blog.csdn.net/weixin_45640009/article/details/123821273

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

6.1 文本格式数据的读写

将表格型数据读取为DataFrame对象：read_csv()和read_table()
Pandas的解析函数
- 可选参数
  - 索引：可以将一或多个列作为返回的DataFrame
  - 类型推断和数据转换：包括用户自定义的值转换和自定义的缺失值符号列表。
  - 日期时间解析：包括组合功能，包括将分散在多个列上的日期和时间信息组合成结果中的单个列
  - 迭代：对大型文件的分块迭代
  - 未清洗数据问题：跳过行、页脚、注释以及其他次要数据，比如使用逗号分隔千位的数字。
- 一些数据载入函数（如pandas.read_csv等）会进行类型推断，因为列的数据类型并不是数据格式的一部分，不必指定那一列是数值、整数、布尔值或字符串。
  - 处理日期和自定义类型数据需要其他努力
    - pandas默认分配列名，也可以自己指定列名：pd.read_csv(‘examples/ex2.csv’,names=[‘a’,’b’,’c’,’d’,’message’])
    - 将message列成为DataFrame索引，可以指定位置4的列为索引，或将‘message’传给参数index_col
```
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('examples/ex2.csv', names=names, index_col='message')
```
    - 从多个列形成分层索引：传入一个包含列序号或列名的列表：pd.read_csv(‘examples/csv_mindex.cav’,index_col=[‘key1’,’key2’])
  - 表的分隔符不固定，使用空白或其他方式来分隔字段
    - 向read_table传入一个正则表达式作为分隔符
```
result = pd.read_table('examples/ex3.txt',sep='\s+')
```
  - 使用skiprows来跳过某些行（例：第一行、第三行和第四行）
```
pd.read_csv('examples/ex4.csv',skiprows=[0,2,3])
```
缺失值处理
- 缺失值不显示（空字符串）或用标识值显示（NA和Null等）
- na_values选项可以传入一个列表或一组字符串来处理缺失值
```
pd.read_csv('examples/ex5.csv',na_values=['NULL'])
```
- 在字典中，每列可以指定不同的缺失值标识
```
sentinels = {'message': ['foo', 'NA'], 'something':['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)
```
一些read_csv/read_table函数常用参数

分块读入文本文件

处理大型文件时，常需要读入文件的一个小片段或者按小块遍历文件

在尝试大文件前，可先对pandas的显示设置进行调整，使之更为紧凑

pd.options.display.max_rows = 10
# 只读取文件的前五行
result = pd.read_csv('examples/ex6.csv',nrows=5)

设置chunksize指定每个分块的行数

chunker = pd.read_csv('examples/ex6.csv',chunksize=1000)

read_csv返回TextParser对象，可根据chunksize遍历文件

# 遍历ex6.csv，并对’key’列聚合获得计数值
chunker = pd.read_csv('examples/ex6.csv',chunksize=1000)
tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(),fill_value=0)
tot = tot.sort_values(ascending=False)

TextParser还具有get_chunk方法，允许你按照任意大小读取数据块

将数据写入文本格式

DataFrame的to_csv方法：将数据导出为逗号分隔的文件，可以通过sep设置其他分隔符
- 缺失值在输出时以空字符串出现，也可以用其他标识符对缺失值进行标注：data.to_csv(sys.stdout,na_rep=‘NULL’)
- 默认列和标签都会被写入，可以禁止二者写入：data.to_csv(sys.stdout,index=False,header=False)
- 按照指定顺序写入列的子集：data.to_csv(sys.stdout,index=False,columns=[‘a’,’b’,’c’])
- Series也有to_csv方法

使用分隔格式

read_table无法接收一个带有一行或多行错误的文件

使用Python的csv模块处理带有单字符分隔符的文件，将打开的文件型对象传给csv.reader

import csv
f = open('examples/ex7.csv')
reader = csv.reader(f)
# 像遍历文件一样，遍历reader会产生元组
for line in reader:
    print(line)  # 元组的值为删除了引号的字符
    
# 将文件读取为行的列表
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
# 将数据拆分为列名行和数据行
header,values = lines[0],lines[1:]
# 使用字典推导式和表达式zip(*values)生成一个包含数据列的字典，字典中行转置成列
data_dict = {h: v for h,v in zip(header,zip(*values))}
data_dict
# {'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

使用csv.Dialect定义子类处理不同风格的文件，比如不同的分隔符、字符串引用约定或行终止符等

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL
reader = csv.reader(f,dialect=my_dialect)

# 不定义子类，直接将CSV方言参数传入csv.reader的关键字参数
reader = csv.reader(f,delimiter='|')

csv.Dialect中的一些属性及其用途

对于具有更复杂或固定的多字符分隔符的文件，你将无法使用csv模块.

使用字符串的split方法或正则表达式方法re.split进行拆分和其他清理工作
使用csv.writer手动写入被分隔的文件
- 接收一个已打开可写入文件对象和 csv.reader相同的CSV方言、格式选项

JSON数据

JSON（JavaScript Object Notation的简写）已经成为Web浏览器和其他应用间通过HTTP请求发送数据的标准格式。

除空值null和一些细微差别（例如不允许列表末尾的逗号）之外，JSON非常接近Python。
- 基本类型是对象（字典）、数组（列表）、字符串、数字、布尔值和空值
- 所有键都必须是字符串

JSON字符串和Python互相转换

json.loads方法将JSON字符串转换为Python形式

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""
import json
result = json.loads(obj)
result
"""
{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}
"""

json.dumps可以将Python对象转换回JSON：
```
asjson = json.dumps(result)
```

将JSON转换成其他数据结构，方便的是将字典构成的列表（之前是JSON对象）传入DataFrame构造函数，并选出数据字段的子集
- ```
import pandas as pd
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings
"""
name	age
0	Scott	30
1	Katie	38
"""
```
- pandas.read_json可以自动将JSON数据集按照指定次序转换为Series或DataFrame。
  - pandas.read_json默认JSON数组中的每个对象是表里的一行
从pandas中将数据导出为JSON，对Series和DataFrame使用to_json方法

XML和HTML：网络抓取

Python有很多针对HTML和XML格式进行读取、写入数据的库

lxml（http://lxml.de）、Beautiful Soup、html5lib

lxml更快，其他库操作更多

html

pandas的内建函数read_html可以使用lxml和BeautifulSoup等库将HTML中的表自动解析为DataFrame对象
- 安装
```
conda install lxml
pip install beautifulsoup4 html5lib
```
pandas.read_html函数存在很多选项，默认搜索并尝试解析所有包含在
标签中的表格型数据，返回的结果是DataFrame对象的列表

举例：从美国FDIC政府机构下载了显示银行倒闭数据的HTML文件（在pandas文档中使用）

tables = pd.read_html('examples/fdic_failed_bank_list.html')
len(tables) # 1
failures = tables[0] 
failures.head()
# failures有很多列，pandas在行内插入了换行符\
# 计算每年银行倒闭的数量
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

使用lxml.objectify解析XML

XML（eXtensible Markup Language）是结构化数据格式，它使用元数据支持分层、嵌套数据。

示例背景：纽约大都会交通局（MTA）发布了一份关于其公交、火车服务（http://www.mta.info/developers/down loadhtml）的数据集。每个火车或公交服务都有一个不同的文件（例如Performance_MNR.xml代表地铁-北铁路），文件中以一系列XML记录的方式包含了按月的数据。

使用lxml.objectify解析文件，用getroot获得XML文件根节点的引用

from lxml import objectify
path = 'datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root= parsed.getroot()

root.INDICATOR返回一个生成器，可以产生每一个XML元素

# root.INDICATOR返回一个生成器，可以产生每一个<INDICATOR>XML元素（不包括几个标签）
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

XML标签可以更复杂，每个标签可以包含元数据。一个HYML连接标签，也是有效的XML

from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()
# 现在可以访问标签或链接文本中的任何字段（如href）
root # <Element a at 0x7f6b15817748>
root.get('href') # 'http://www.google.com'
root.text # 'Google'

6.2 二进制格式

pickle

使用Python内建的pickle序列化模块进行二进制格式操作
- pandas对象使用to_pickle方法将数据以pickle格式写入硬盘
```
frame = pd.read_csv('examples/ex1.csv')
frame.to_pickle('examples/frame_pickle')
```
- 使用pandas.read_pickle
```
pd.read_pickle('examples/frame_pickle')
```
- pickle仅作为短期存储来使用，被pickle化的对象可能因为库版本更新而无法反序列化
Python支持的其他两个二进制格式：HDF5和MessagePack
pandas或NumPy其他存储格式
- bcolz（http://bcolz.blosc.org/）：基于Blosc压缩库的可压缩列式二进制格式
- 基于Blosc压缩库的可压缩列式二进制格式
- R编程社区的Hadley Wickham（http://hadley.nz/）设计的跨语言列式文件格式
- Feather使用Apache箭头（http://arrow.apache.org）列式存储器格式

使用HDF5格式

存储大量的科学数组数据，以C库的形式提供，有很多其他语言接口

用于处理不适合在内存中存储的超大型数据，可以仅高效读写一小块

“HDF”代表分层数据格式，每个HDF5文件可以存储多个数据集并且支持元数据。
HDF5支持多种压缩模式的即时压缩，重复模式的数据可以更高效地存储

可使用PyTables或h5py等库直接访问HDF5文件，但pandas提供高阶接口：HDFStore类，可以像字典一样处理细节，简化Series和DataFrame的存储。

frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store

包含在HDF5文件中的对象可以用字典型API进行检索

HDFStore支持两种存储模式，‘fixed’和’table’（后者更慢，但支持一种特殊语法的查询操作）

# put是store ['obj2']=frame方法的显式版本，但允许我们设置其他选项，如存储格式
store.put('obj2', frame, format='table')
store.select('obj2', where=['index >= 10 and index <= 15'])
store.close()

pandas.read_hdf函数可以用作快捷方法

frame.to_hdf('mydata.h5', 'obj3', format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

处理远程服务器上的数据时，使用专门为分布式存储而设计的二进制格式更为合适，比如Apache Parquet（http://parquet.apache.org）。
处理大量本地数据时，尝试使用PyTables和h5py。
很多数据分析的困难在于I/O密集（而不是CPU密集），使用类似HDF5可以加速

HDF5并不是数据库，它是一种适合一次写入多次读取的数据集.

多个写入者持续写入，文件可能会损坏

读取Microsoft Excel文件

pandas也支持通过ExcelFile类或pandas.read_excel函数来读取存储在Excel表格型数据

使用附加包xlrd和openpyxl来分别读取XLS和XLSX文件的

通过将xls或xlsx的路径传入ExcelFile，生成一个实例。
```
xlsx = pd.ExcelFile('examples/ex1.xlsx')
```
表格数据可以通过pandas.read_excel读取到DataFrame中
```
pd.read_excel(xlsx, 'Sheet1')
```
含有多个表的文件，生成ExcelFile更快，但也可以更简便地将文件名传入pandas.read_excel
```
frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1')
frame
```
将pandas数据写入到Excel格式中
- 先生成一个ExcelWriter
- 使用pandas对象的to_excel方法将数据写入
```
writer = pd.ExcelWriter('examples/ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()
```
- 也可以将文件路径传给to_excel，避免直接调用ExcelWriter
```
frame.to_excel('examples/ex2.xlsx')
```

6.3 与Web API交互

使用requests包（http://docs.python-requests.orgt）与Web API交互更简单

获取GitHub上最新的30条关于pandas的问题

用附加库requests发送一个HTTP GET请求

import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

Response（响应）对象的json方法将返回一个包含解析为本地Python对象的JSON的字典

# data中的每个元素都是一个包含GitHub问题页面上的所有数据的字典（注释除外）
data = resp.json()
data[0]['title']

将data直接传给DataFrame，并提取感兴趣的字段

issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues

6.4 与数据库交互

业务场景中，基于SQL的关系型数据库（例如SQL Server、PostgreSQL和MySQL）使用广泛

pandas很多函数可以从SQL中将数据读取为DataFrame

SQLAlchemy项目（http://www.sqlalchemy.org/）是一个流行的PythonSQL工具包，抽象去除了SQL数据库之间的许多常见差异。

使用Python内建的sqlite3驱动来生成一个SQLite数据库

import sqlite3
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')
con.execute(query)
con.commit()

插入几行数据

data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

大部分Python的SQL驱动（PyODBC、psycopg2、MySQLdb、pymssql等）返回的是元组的列表
```
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows
```
将元组的列表传给DataFrame构造函数,要包含在游标的description属性中的列名
```
cursor.description
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])
```

pandas中read_sql函数可以从通用的SQLAlchemy连接中轻松地读取数据

# 使用SQLAlchemy连接到相同的SQLite数据库，并从之前创建的表中读取数据
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

is_colorful

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【读书笔记】《利用Python进行数据分析》第2版_第六章数据载入、存储及文件格式

6.1 文本格式数据的读写将表格型数据读取为DataFrame对象：read_csv()和read_table()Pandas的解析函数可选参数索引：可以将一或多个列作为返回的DataFrame类型推断和数据转换：包括用户自定义的值转换和自定义的缺失值符号列表。日期时间解析：包括组合功能，包括将分散在多个列上的日期和时间信息组合成结果中的单个列迭代：对大型文件的分块迭代未清洗数据问题：跳过行、页脚、注释以及其他次要数据，比如使用逗号分隔千位的数字。一些数据载入函数（如
复制链接

扫一扫