1)Stock2Vec Embedding的框架:
- Feature:
Augmented features: MACD, PSAR, BB, SO, ROC, OBV, FI
Database “FinSentS Web News Sentiment”: 股票的每日新闻文章数量,及衡量媒体中使用文本的情感评分 🔗:(https://www.quandl.com/databases/NS1/)
Seasonality features: month of year, day of month, day of week, etc.
Static features: Static covariates (e.g., the symbol name, sector and industry category, etc.)
- 将feature分为 categorical input 和 continuous input:
categorical input:通过嵌入映射为稠密的数值向量,从股票名称中嵌入的向量作为类别特征被称为Stock2Vec
continuous input:归一化到 0-1
- Feature benchmarking:用 XBGBoost 选出得分前 20 的 feature
2) The Hybrid Model:
整体预测模型是混合构建的,结合了Stock2Vec embedding方法和TCN。TCN模块输出并没有产生最终大小为1的预测,而是输出一个向量作为特征图,其中包含了从时间序列中提取的信息,可以将其与已学习的Stock2Vec特征进行拼接。
这里的TCN模块可以被任何学习时序模式的架构所取代,如,LSTM,GRU。最后,将一系列全连接层(称为"头层")应用于组合特征,产生最终的预测输出。
3) Experiment:
- Benchmark model:共7个
仅基于时间序列:TS-TCN and TS-LSTM
仅基于静态特征:random forest and XGBoost
Stock2Vec
混合模型:LSTM-Stock2Vec and TCN-Stock2Vec
- 评价指标:RMSE, MAE, MAPE, RMSPE