1 为什么使用Pandas
1. 增强图表可读性
2. 便捷的数据处理能力
3. 读取文件方便
4. 封装了Matplotlib、Numpy的画图和计算
2 Pandas数据结构
1。Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。
2。其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。
3 Pandas 常见操作详解
3.1 导入数据
import pandas as pd
df = pd.read_csv(
filepath_or_buffer='/Users/Haiwang/Desktop/sz000002.csv',
sep=',',
skiprows=1,
nrows=15,
usecols=['交易日期', '股票代码', '股票名称', '收盘价', '涨跌幅', '成交量', '新浪概念', 'MACD_金叉死叉'],
error_bad_lines=False,
na_values='NULL',
)
3.2 查看数据常用操作
print(df.shape)
print(df.shape[0])
print(df.columns)
print(df.index)
print(df.dtypes)
print(df.head(3))
print(df.tail(3))
print(df.sample(n=3))
print(df.describe())
3.3 读取指定的数据
3.3.1 如何选取指定的行、列
print(df['股票代码'])
print(df[['股票代码', '收盘价']])
print(df[[0, 1, 2]])
3.3.2 loc操作:通过label(columns和index的名字)来读取数据
print(df.loc['12/12/2016'])
print(df.loc['13/12/2016': '06/12/2016'])
print(df.loc[:, '股票代码':'收盘价'])
print(df.loc['13/12/2016': '06/12/2016', '股票代码':'收盘价'])
print(df.loc[:, :])
print(df.at['12/12/2016', '股票代码'])
3.3.3 iloc操作:通过position来读取数据
print(df.iloc[0])
print(df.iloc[1:3])
print(df.iloc[:, 1:3])
print(df.iloc[1:3, 1:3])
print(df.iloc[:, :])
print(df.iat[1, 1])
3.3.4 筛选操作,根据指定的条件,筛选出相关拿数据
print(df['股票代码'] == 'sh000002')
print(df[df['股票代码'] == 'sz000002'])
print(df[df['股票代码'].isin(['sz000002', 'sz000003 ', 'sz000004'])])
print(df[df['收盘价'