Dataset
*本文的数据集是美国股票市场指数sp500.csv,这个指数显示了市整个股票市场的情况,数据集包含了从2005年到2015年每天收盘指数值。S&P指标衡量了美国股票市场的整体情况,具体计算方法看这里。
date – the date of the price. In the format yyyy-mm-dd.
value – The price, in US dollars, of the S&P 500 at market close.
import pandas
sp500 = pandas.read_csv("sp500.csv")
print(sp500.head(10))
'''
date value
0 2005-06-27 1190.69
1 2005-06-28 1201.57
2 2005-06-29 1199.85
3 2005-06-30 1191.33
4 2005-07-01 1194.44
5 2005-07-04 .
6 2005-07-05 1204.99
7 2005-07-06 1194.94
8 2005-07-07 1197.87
9 2005-07-08 1211.86
'''
Cleaning The Invalid Rows
- 观察到有一行的value缺失,这是由于股票市场放假,股市关闭没有交易,因此没有市场价格。
sp500 = sp500[sp500["value"] != "."]
Finding The Predictors
- 一般对股票市场进行数据挖掘主要是想预测,那么预测明天的股市价格是个不错的主题,首先需要调整数据的格式,然后利用机器学习算法进行预测。我们期望的数据格式如下:
date | value | next_day |
---|---|---|
2005-06-27 | 1190.69 | 1201.57 |
2005-06-28 | 1201.57 | 1199.85 |
2005-06-29 | 1199.85 | 1191.33 |
下面创建了一个新的属性“next_