【optiver】阅读笔记

最新推荐文章于 2024-07-02 22:07:57 发布

VOIX

最新推荐文章于 2024-07-02 22:07:57 发布

阅读量986

点赞数

分类专栏：自学文章标签： pytorch 深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43874070/article/details/120013277

版权

这篇博客记录了作者在分析Optiver数据时的研究，包括数据的组成（订单簿快照和已执行交易）、文件介绍以及数据带来的灵感。在特征工程方面，提到了K-means聚类用于embedding，并探讨了如何利用订单簿和交易数据生成多种特征，如weighted average price、log return和volume imbalance。此外，还计划采用时间序列K-Fold和特征可视化进行模型改进。

摘要由CSDN通过智能技术生成

done list

数据读入（多线程）
初次特征工程（order and book）
lgbm和nn的实现与融合

todo list

交叉验证之——将group K-fold改进为Time-series K-Fold（具体实现请参阅代码notebook）
特征选择之——特征可视化之——特征值-target分布
特征选择之——特征可视化之——特征值-频率分布
特征选择之——寻找possible magic feature
特征工程之——VAE获取隐变量、测试cv分数
特征选择之——特征可视化之——特征间相关系数矩阵
特征选择之——去除相关系数1.0的特征、测试cv分数

模型选择之——用positional encoding + attention来读取时间序列数据

技术研究

optiver数据包含了什么？

【官方】数据介绍页面
【EDA】中文数据介绍以及英文数据介绍
数据主要包含以下两个部分：

订单簿快照
已执行交易

optiver文件介绍

book_train.parquet 训练订单簿数据，通过stock_id来分割的parquet文件。包含当前买1买2和卖1卖2的price以及size。

trade_train.parquet 训练交易数据，通过stock_id来分割的paequet文件。包含真正执行的交易数据。订单更新次数比交易完成量要多，因此交易数据比订单数据更稀疏。

测试集的feature文件同训练集一致。

train.csv 训练数据集的label，即训练集的波动率大小

test.csv 测试数据集的label。比训练集多一个row_id，用于提交成绩。

submission.csv 输出的predictions，包含row_id和target。

optiver数据产生的灵感

trade可以做两个特征：price*size和price*size/order_count，即成交额和平均订单成交额。因为原始数据只有成交量和订单量
wap计算方法可以再加一个

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【optiver】阅读笔记

技术研究optiver数据包含了什么？数据介绍页面数据主要包含以下两个部分：订单簿快照已执行交易optiver文件介绍book_train.parquet 训练订单簿数据，通过stock_id来分割的parquet文件。optiver特征分别是什么？...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。