获取时序数据并进行数据清洗与可视化分析
1. 准备工作
tushare是一个第三方财经数据接口包,需要安装包并完成注册。
- 安装tushare包
pip install tushare
- 为防恶意调用接口数据,官方()需要新用户完成注册、提高积分(例如达到200)、取得访问权限token ID(例如:1797f6915fbc1e612c33c6ed4cf85a2b7b349d85db80bf0860337fff))。可通过如下链接(https://tushare.pro/register?reg=285935)进入官网完成注册。
2. 加载数据
首先需要导入包已安装的tushare包。然后通过tokenID获取一个有访问权限的API接口,最终通过官方文档说明,使用index_daily() 来获取样例数据。这里取’399401.SZ’的交易日期和收盘价。
import tushare as ts
ts.set_token("1797f6915fbc1e612c33c6ed4cf85a2b7b349d85db80bf0860337fff")
pro=ts.pro_api()
df1=pro.index_daily(ts_code="399401.SZ")[['trade_date', 'close']]
3. 数据处理-转化与合并
- 数据类型转化为datetime
导入数据后,先观察源数据的字段类型是否符合预期。通过执行如下脚本,得到当前数据集中,trade_date为object 并非日期类型
# 查看数据类型
print(df1.dtypes)
# 查看样例数据
print(df1.head())
pandas中改变某列的数据类型为日期时,可用pd.to_datetime。修改完成后,将数据集中的日期字段重新设为索引。注意不要漏掉inplace=True。
df1.sort_values('trade_date', inplace=True)
# 转换列数据类型为日期
df1['trade_date']=pd.to_datetime(df1['trade_date'])