“ 金融市场复杂多变,对其进行建模极具挑战性。本文提出基于Transformer的去噪扩散概率引擎(TRADES)用于生成限价订单簿(LOB)市场模拟,解决现有模拟缺乏真实性、实用性和响应性的问题。通过采用预测分数这一适应的定量指标,在两种股票上对比现有工作,结果显示TRADES根据预测分数较现有技术有显著提升。此外,评估了TRADES的市场模拟真实性和响应性,开发了DeepMarket框架并发布了包含TRADES模拟的合成LOB数据集。”
01.背景
1.1 多元时间序列生成
将生成真实的市场订单流形式化为多元时间序列生成问题。多元时间序列X = {x_{1:N,1:K},目标是根据之前的观测值生成下一个样本x_{N+1},可将其构建为自监督学习问题,定义时间序列的联合概率为
,在推理时采用滑动窗口方法。
1.2 限价订单簿(LOB)
在LOB市场中,交易者可提交不同类型的订单,LOB是存储和匹配活跃限价订单的数据结构,其最常用的订单匹配机制是连续双向拍卖(CDA)。LOB随时间的演化是一个多元时间问题,对LOB数据的研究可分为四类:实证研究、价格和波动率预测、LOB动力学建模以及LOB市场模拟。
02.问题定义
\1. 生成真实且响应性好的LOB市场模拟,解决现有市场模拟模型在真实性、实用性和响应性方面的不足。
\2. 缺乏评估生成式市场模拟模型的定量指标,需要建立一种客观定量的评估方法。
03.方法
3.1 基于Transformer的去噪扩散概率引擎(TRADES)
生成过程
目标是用模型分布p_{theta}(x_{0}{g}|x_{0}{c})近似真实条件数据分布q(x_{0}{g}|x_{0}{c})。前向过程中仅对要生成的“未来”部分加噪,反向过程将无条件情况扩展到条件情况,定义为
定义条件去噪可学习函数
(实验中设M=N-1,S=1)。采用特定的参数化估计均值项mu_{theta},方差项不依赖固定的设置,而是通过学习得到,计算出epsilon_{t}和O后,通过
进行去噪,经过T步后重建x_{0}^{g}。
自监督训练
给定生成目标x_{0}{g}和条件观测x_{0}{c},采样
,训练epsilon_{theta}以最小化
同时学习sum_{theta}并根据L_{sum}(theta)优化,最终的损失函数
训练时采用自监督方法,对时间序列的最后一个元素加噪后通过反向过程去噪并学习生成新样本的概率。
3.2 用于市场模拟的TRADES
为创建真实且响应性好的市场模拟,TRADES生成以市场状态为条件的订单,目标是学习对订单分布进行建模。网络包含多个Transformer编码器层以建模金融时间序列的时空关系,通过全连接层将订单张量和LOB快照投影到高维空间,在增强向量空间上操作,反向过程后再将结果投影回输入空间重建x_{t-1}^{g}并计算损失。条件扩散概率模型学习条件概率分布p_{theta}(o|s),其中s为市场状态,o为新生成的订单,模型的条件不仅包括最后N-1个订单,还包括前L个LOB水平的最后N个LOB快照(实验中设N=256,L=10)。
04.实验
4.1 数据集
从2015年1月2日至30日的两只纳斯达克股票(特斯拉和英特尔)创建LOB数据集,每只股票有20个订单簿和20个消息文件,共约2400万个样本,将前17天用于训练,第18天用于验证,最后2天用于市场模拟。FI-2010数据集常用于股票价格预测,但由于其缺乏消息文件,无法用于模拟市场。
4.2 实验设置
模型训练70,000步至收敛后冻结层开始市场模拟,模拟由电子市场交易所、基于TRADES的代理(根据市场状态生成新订单)和一个或多个可选的实验代理(遵循用户可定制的交易策略)组成。用前15分钟的真实订单进行模拟以与市场重放进行比较,之后扩散模型自动回归生成新订单直至模拟结束,代理生成新订单后有后处理阶段,模拟从10:00开始到12:00结束,平均在两小时内生成50,000个订单。
4.3 基线模型
与市场重放(作为真实情况)、IABS配置和Wasserstein GAN(CGAN)进行比较,由于其他SoTA方法的开源实现不可用或结果不可复现,未与更多方法比较。
4.4 结果
有用性:通过适应预测分数(以MAE衡量,在合成数据上训练股票中间价预测模型并在真实数据上测试)评估生成市场模拟的有用性,结果显示TRADES在两只股票上均优于第二名。
真实性:通过主成分分析(PCA)以及比较金融市场的典型事实和重要特征来评估生成时间序列的真实性。PCA分析表明TRADES覆盖的真实数据分布比例高于CGAN和IABS,且TRADES能较好地模拟多种典型事实,如无自相关性、正的成交量-波动率相关性、资产回报和波动率的负相关性、对数回报分布以及波动聚类等,其生成的中间价时间序列具有多样性和真实性,在LOB第一级的成交量分布也与市场重放高度相关。
响应性:通过市场影响实验(A/B测试)评估LOB市场模拟生成模型的响应性,在有和没有百分比成交量(POV)代理的情况下进行模拟,结果显示历史市场模拟只有瞬时影响,而基于扩散的模拟有显著且永久性的价格偏离,TRADES模拟中的市场影响与真实市场观察相符,可用于评估交易策略和反事实实验。
DDIM采样:考虑到扩散模型采样时间长的局限性,采用Denoising Diffusion Implicit Model(DDIM)采样方法(eta=0)进行模拟,虽然性能有显著下降但计算效率提高了100倍。
消融和敏感性研究:进行了两个消融(LOB条件和增强)和两个敏感性分析(骨干网络选择和条件方法),结果表明TRADES的设计选择有效。例如,包含LOB条件时TRADES有平均增益,通过MLP增强特征也有性能提升;将TRADES的Transformer骨干网络替换为LSTM时性能下降,采用交叉注意力(CA)条件策略时性能也下降。
05.结论
提出基于Transformer的去噪扩散概率引擎(TRADES)用于生成基于当前市场状态的真实订单流,评估了TRADES的真实性和响应性,通过预测分数验证了生成市场数据的有用性,结果表明TRADES能较好地覆盖真实数据分布且优于SoTA方法。发布了DeepMarket框架和TRADES-LOB合成数据集,认为TRADES是一种可行的市场模拟策略,但还需要进一步测试以完善交易策略评估协议。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。