🔥 本文由 程序喵正在路上 原创,CSDN首发!
💖 系列专栏:Python数据挖掘
🌠 首发时间:2022年9月13日
🦋 欢迎关注🖱点赞👍收藏🌟留言🐾
🌟 一以贯之的努力 不得懈怠的人生
学习目标
- 记忆 DataFrame 的形状、行列索引名称获取等基本属性
- 应用 Series 和 DataFrame 的索引进行切片获取
- 应用 sort_index 和 sort_values 实现索引和值的排序
环境准备
为了更好地理解这些基本操作,我们将读取一个真实的股票数据,关于文件操作这部分的内容,最后会介绍,这里先用一下相关的 API
先下载这个等会需要用到的 csv 文件,点击此处进入,将其放到桌面
import pandas as pd
# 读取文件
data = pd.read_csv("./Desktop/stock_day/stock_day.csv")
# 删除一些列,让数据更简单些,再去做后面的操作
data = data.drop(["ma5", "ma10", "ma20", "v_ma5", "v_ma10", "v_ma20"], axis=1)
索引操作
Numpy 当中我们已经学过使用索引去选取序列和切片选择,pandas 也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用
直接使用行列索引(先列后行)
获取 ‘2018-02-27’ 这天的 ‘close’ 的结果
# 直接使用行列索引名字的方式(先列后行)
data['close']['2018-02-27']
# 不支持的操作,都会报错
data['2018-02-27']['close']
data[:1, :2]
结合loc或者iloc使用索引
获取从 ‘2018-02-27’ :‘2018-02-22’,‘open’ 的结果
# 使用loc:只能指定行列索引的名字
data.loc['2018-02-27':'2018-02-22', 'open']
# loc可以先行后列
data.loc['2018-02-27']['open']
# 按数字索引
data.iloc[1, 0]
# 使用iloc可以通过索引的下标去获取
# 获取前100天数据的 ‘open’ 列的结果
data.iloc[0:100, 0:2].head()
使用组合索引
获取行第 1 天到第 4 天,[‘open’, ‘close’, ‘high’, ‘low’] 这四个指标的结果
# 推荐使用loc和iloc来获取的方式
data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]
data.iloc[0:4, data.columns.get_indexer(['open', 'close', 'high', 'low'])]
赋值操作
赋值操作比较简单,下面是对 DataFrame 中的 close 列进行重新赋值为 1
# 直接修改原来的值
data['close'] = 1
# 或者
data.close = 1
排序
排序有两种形式,一种对内容进行排序,一种对索引进行排序
DataFrame
使用 df.sort_values(key=, ascending=)
对内容进行排序
- 单个键或者多个键进行排序,默认升序
ascending=False;
降序ascending=True;
升序
# 按照涨跌幅大小进行排序,使用ascending按照指定大小排序
data = data.sort_values(by='p_change', ascending=False).head()
data
# 按照多个键进行排序
data = data.sort_values(by=['open', 'high'])
data
使用 df.sort_index 对索引进行排序
- 这个股票的日期索引原来是从大到小,现在重新排序,从小到大
Series
使用 series.sort_values(ascending=False)
对内容进行排序
- series 排序时,只有一列,不需要参数
sr = data['price_change']
sr.sort_values(ascending=False)
使用 series.sort_index
对索引进行排序
- 与 df 一致
# 对索引进行操作
data['p_change'].sort_index()
Pandas 的基本数据操作到这里就完了,你学会了吗