相信很搞金融数据分析的人,都知道Tushare,一个免费、开源的python财经数据接口包。可以非常简单爬取股票、宏观经济数据、新闻时事、银行间同业拆放利率、甚至电影票房数据都可以爬取,比起国外的雅虎财经,爬取的数据那是非常快,另外一个优点就是返回的绝大部分的数据格式都是pandas DataFrame类型,可以直接用 pandas直接进行处理。
今天就不介绍股票数据查询,直接用6位数字代码就行,网上也是一大堆资料。主要和大家分享一下,用tushare爬取股票指数数据,比如上证指数、上证50、沪深300这些,主要最近看到一篇文章,误把平安银行的股票数据当做上证指数,结果进行一通分析。看看这数据,咱大A也不至于才十几个点。
幸亏这位只是涨跌幅、收益率的简单分析,并不是股票投资分析。首先来看看平安银行和上证综合指数,代码是挺像,唯一区别是后缀不一样。那位作者误把股票代码和指数代码搞混。
今天来说说怎么用正确爬取指数数据,根据tushare官网资料(http://tushare.org/)目前仅支持下面这些指数查询,也不支持国外指数(BDI指数除外)数据。
指数名称 | TS指数代码 |
---|---|
上证指数 | sh |
深圳成指 | sz |
沪深300指数 | hs300 |
上证50 | sz50 |
中小板 | zxb |
创业板 | cyb |
这里就以上证指数为例:
import tushare as ts
ZZZS = ts.get_hist_data('sh',start='2020-01-01',end='2