【optiver】阅读笔记

这篇博客记录了作者在分析Optiver数据时的研究,包括数据的组成(订单簿快照和已执行交易)、文件介绍以及数据带来的灵感。在特征工程方面,提到了K-means聚类用于embedding,并探讨了如何利用订单簿和交易数据生成多种特征,如weighted average price、log return和volume imbalance。此外,还计划采用时间序列K-Fold和特征可视化进行模型改进。
摘要由CSDN通过智能技术生成

done list

  1. 数据读入(多线程)
  2. 初次特征工程(order and book)
  3. lgbm和nn的实现与融合

todo list

  1. 交叉验证之——将group K-fold改进为Time-series K-Fold(具体实现请参阅代码notebook
  2. 特征选择之——特征可视化之——特征值-target分布
  3. 特征选择之——特征可视化之——特征值-频率分布
  4. 特征选择之——寻找possible magic feature
  5. 特征工程之——VAE获取隐变量、测试cv分数
  6. 特征选择之——特征可视化之——特征间相关系数矩阵
  7. 特征选择之——去除相关系数1.0的特征、测试cv分数

模型选择之——用positional encoding + attention来读取时间序列数据

技术研究

optiver数据包含了什么?

【官方】数据介绍页面
【EDA】中文数据介绍以及英文数据介绍
数据主要包含以下两个部分:

  1. 订单簿快照
  2. 已执行交易

optiver文件介绍

book_train.parquet 训练订单簿数据,通过stock_id来分割的parquet文件。包含当前买1买2和卖1卖2的price以及size。

trade_train.parquet 训练交易数据,通过stock_id来分割的paequet文件。包含真正执行的交易数据。订单更新次数比交易完成量要多,因此交易数据比订单数据更稀疏。

测试集的feature文件同训练集一致。

train.csv 训练数据集的label,即训练集的波动率大小

test.csv 测试数据集的label。比训练集多一个row_id,用于提交成绩。

submission.csv 输出的predictions,包含row_id和target。

optiver数据产生的灵感

  1. trade可以做两个特征:price*size和price*size/order_count,即成交额和平均订单成交额。因为原始数据只有成交量和订单量
  2. wap计算方法可以再加一个 w a p 5 = ( a s k p r i c e 1 ∗ b i d s i z e 1 + a s k p r i c e 2 ∗ b i d s i z e 2 + b i d p r i c e 1 ∗ a s k s i z e 1 + b i d p
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值