三、数据加载、存储和文件格式

输入输出通常分为几大类:
(1)读取文本文件;
(2)磁盘存储;
(3)数据库
(4)利用web api操作网络资源

读写文本格式的数据
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数

下面大致介绍一下这些函数在文本数据转换为DataFrame时的一些技术。可以分为一下几类:
* 索引:将一个或者多个列当作返回的DataFrame处理,以及是否从文件、用户获取列名。
* 类型推断和数据转换:包括用户定义值的转换、缺失值标记列表等。
* 日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果中的单个列。
* 迭代:支持对大文件进行逐块迭代。
不规整数据问题:跳过一些行、页脚、注释或者其他不要的东西
》》用names重新规定列名,用index_col指定索引,也可以将多个列组合作为层次化索引。可以编写正则表达式规定分隔符。

na_values=[‘xxx’]的意思为DataFrame里面为xxx的元素标记未NaN:

ceshi.csv为有列索引没有行索引的数据,read_csv会自动加上行索引,即使原数据集有行索引。
read_csv读取的数据类型为Dataframe,obj.dtypes可以查看每列的数据类型

将数据写出到文本
1>> 用to_csv方法写出到csv文件中;na_rep=‘’NULL”标明空白字符串的代替值。
index header标明是否写出行列标签,默认是写出;用columns以指定顺序写出某些列。
2>> dates= date_range()产生日期索引 index=dates
3>> 将series写成csv文件:series.from_csv() 参数parse_dates=True将数据解析成日期

手工处理分隔符格式
1>>手工输出分隔符文件

with open(‘mydata.csv’,’w’) as f:
writer = csv.writer(f,dialect=my_dialect)
writer.writerow((‘1’, ‘2’, ‘3’))\n”
自定义分隔符
class my_dialect(csv.Dialect):,
lineterminator = “\n”,
delimiter = ‘;’,

JSON数据
1>> JSON已经成为通过http请求在web浏览器和其他应用程序之间发送数据的标准之一;
2>> 对象中所有的键都必须是字符串(非常重要)。用json模块,json.loads可以将字符串转换成Python形式,即可以将对象读取为python字典。json.dumps()将python转换为json形式。

XML和HTML:web信息收集
from lxml.html import parse
from urllib2 import urlopen
parsed = parse(urlopen(‘http://finance.yahoo.com/q/op?s=AAPL+Options‘))
doc = parsed.getroot()
使用文档根节点的findall()方法和XPath(对文档的查询的一种表示手段)方法
links=doc.findall(‘.//a’) 显示html对象
.get(“href”)显示url
.text_content() 显示文本

1>> TextParser类可以实现自动类型转换;
2>>解析文件:(from lxml import objectify)
parsed=objectify.parse(open(“xml文件路径path”))
(from lxml.html import parse)
parsed=parse(urlopen(“http连接”))

3>>获取根节点: root=parsed.getroot()
root.get(“href”) root.txt

二进制数据格式(pandas内置的pickle序列化)
frame.to_pickle(“ch06/frame_pickle”) 以二进制格式存储到磁盘;
frame.read_pickle
HDF5:层次性数据格式(支持多种压缩器的及时压缩,高效存储重复模式数据)
不是数据库,是最适合用作“一次写入多次读”的数据集;如果同时发生多个写操作,文件可能被破坏。
读取Microsoft Excel文件
xls_file=pd.ExcelFile(“data.xls”) //先创建ExcelFile对象。
table=xls_file.parse(“sheet1”) //通过parse解析读到dataframe中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Jupyter Notebook是一个非常强大的数据分析工具,可以实现数据加载储存和文件结构管理。本文将简单介绍如何使用Jupyter Notebook进行数据加载储存和文件结构管理。 数据加载储存 Jupyter Notebook 支持多种数据格式的读写,包括CSV、Excel、JSON、SQL、HDF5等。以下是一些基本的数据读写操作: 1. CSV 文件读写 使用 pandas 库中的 read_csv 函数可以读取 CSV 文件,并使用 to_csv 函数可以将 DataFrame 对象保存为 CSV 文件。 ```python import pandas as pd # 读取 CSV 文件 df = pd.read_csv('data.csv') # 将 DataFrame 对象保存为 CSV 文件 df.to_csv('data_new.csv') ``` 2. Excel 文件读写 使用 pandas 库中的 read_excel 函数可以读取 Excel 文件,并使用 to_excel 函数可以将 DataFrame 对象保存为 Excel 文件。 ```python import pandas as pd # 读取 Excel 文件 df = pd.read_excel('data.xlsx') # 将 DataFrame 对象保存为 Excel 文件 df.to_excel('data_new.xlsx') ``` 3. JSON 文件读写 使用 pandas 库中的 read_json 函数可以读取 JSON 文件,并使用 to_json 函数可以将 DataFrame 对象保存为 JSON 文件。 ```python import pandas as pd # 读取 JSON 文件 df = pd.read_json('data.json') # 将 DataFrame 对象保存为 JSON 文件 df.to_json('data_new.json') ``` 4. SQL 数据库读写 使用 pandas 库中的 read_sql 函数可以读取 SQL 数据库中的数据,并使用 to_sql 函数可以将 DataFrame 对象保存到 SQL 数据库中。 ```python import pandas as pd import sqlite3 # 连接 SQLite 数据库 conn = sqlite3.connect('data.db') # 读取 SQL 数据库中的数据 df = pd.read_sql('SELECT * FROM data_table', conn) # 将 DataFrame 对象保存到 SQL 数据库中 df.to_sql('data_table_new', conn) ``` 5. HDF5 文件读写 使用 pandas 库中的 read_hdf 函数可以读取 HDF5 文件,并使用 to_hdf 函数可以将 DataFrame 对象保存为 HDF5 文件。 ```python import pandas as pd # 读取 HDF5 文件 df = pd.read_hdf('data.h5') # 将 DataFrame 对象保存为 HDF5 文件 df.to_hdf('data_new.h5', key='data') ``` 文件结构管理 Jupyter Notebook 支持文件结构管理,并支持文件夹和文件的创建、删除和重命名操作。使用 Jupyter Notebook 的文件结构管理功能,可以更好地组织和管理数据分析项目的文件和文件夹。 1. 文件夹和文件的创建 在 Jupyter Notebook 的文件浏览器中,可以通过点击 New Folder 或者 New 文件按钮来创建新的文件夹或者文件。 2. 文件夹和文件的删除 在 Jupyter Notebook 的文件浏览器中,可以通过选中要删除的文件夹或者文件,然后点击 Delete 按钮来删除它们。 3. 文件夹和文件的重命名 在 Jupyter Notebook 的文件浏览器中,可以通过选中要重命名的文件夹或者文件,然后点击 Rename 按钮来重命名它们。 总结 本文介绍了如何使用 Jupyter Notebook 进行数据加载储存和文件结构管理。数据加载储存方面,Jupyter Notebook 支持多种数据格式的读写,包括 CSV、Excel、JSON、SQL、HDF5 等;文件结构管理方面,Jupyter Notebook 支持文件夹和文件的创建、删除和重命名操作,可以更好地组织和管理数据分析项目的文件和文件夹。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值