原始数据处理
有朋友在qq群里分享了原始数据处理的想法,例如调整origin_data_row
参数、添加一些大盘的数据作为新的特征等。所以这一篇我将原始数据以及原始数据的处理方法写下来,为方便大家验证、探索更好地解决方案。
原始数据格式
原始数据共有11列,
列名为:
stock_num
,stock_date
,cir_market_value
,close_hfq
,high_hfq
,low_hfq
,open_hfq
,p_change
,total_value
,turnover
,volume
对应含义为:
股票代码、日期、流通市值、后复权收盘价、后复权最高价、后复权最低价、后复权开盘价、涨幅、总市值、换手率(流通股)、成交量(单位:股)
股票代码为整数形式,000001被表示为1,后复权以该股票上市之日计算
数据来源于网上多个数据源,进行交叉对比、填充后得到。主要有:
1. tushre
2. 新浪财经
3. 某宝上面购买
原始数据处理方法
在此推荐使用python::pandas
库处理数据,它是使得python成为强大而高效的数据分析环境的重要因素之一。
学习资源:
1. 网上有十分钟搞定pandas教程,可以用以作为入门引导。