I.项目简介
1. 2张思维导图概览
1.1 策略分类简介
策略的整体思路会决定使用什么模型,模型中使用什么因子。
国情,股市制度:
- 中国以选股为主,一是体量大,期货品类少,二是中国股票没有做空,也只能T+1
- 中国7层散户,美国8成是基金打理
- 股票市场的投机也可以繁荣市场,因为市场是有财富增量的
选股策略 — 股票类策略
- 择时策略
- 估价模型,设定目标价 — 相对简单的目标策略
- 各种高频交易策略:期货,CTA策略,套利价差交易策略 — 相对少,期货市场小
- 信贷评分卡
金融聊天机器人,支小宝 vs 智能客服 vs 问答系统的训练语料不一样
1.2. 大模型相关 — 合作小项目 — 实习生小项目
BloomGPT
llama微调, 大号的聊天机器人,金融类客服,理财助手
4种微调线路
2. 中证50策略主干
指数复现思路 贯彻价值投资 风险对冲 投资收益理论 长期主义
漂亮50 成分股定级,成分股比例,1,2,3 — 持股比例在多少
一级龙头的持仓比例
二级龙头的挖掘 — 同业对比
2.1.知识图谱基座
bert + LSTM + CRF
- 热点查询
- 行业分级查询,业务内容查询
- 价值1:公司基本面库,财报因子,估价因子,市盈率,市净率
- 价值2:研报库,研报评级分数
- 混合热点查询:热点二分类因子,打分制,多个二分类累计打分,字段检查
- 例如,能源产业+电动车产业,交叉热点的优质公司
- 金融先验知识:股价区间,
50亿, 3005只,184只,6.1%,83.66%
50-100亿,1024只,244只,23.8%,102.45%
100-500亿,1076只,466只,43.3%,358.51%
500-1000亿,135只,91只,67.4%,113.36%
1000亿,125只,91只,72.8%,73.07%
2.2.主管知识图谱因子
主管信心指标,主管买入卖出信号,风控合规模型中也要使用,策略交叉部分
- 主管库,主管信心因子,主管背景因子(相关性,理工科加分,海外加分),是否存在违规套现交易。
- 链路预测 — 2个公司之间的亲密程度,
- 图谱分析:中心度因子,行业中心程度,行业交叉程度—潜在子公司挖掘,产业集群大小性—产业规模-行业规模阈值-混合热点挖掘,平均距离及业务紧密度/上下游紧密程度的量化,业务同质化程度定量分析,竞争程度/地位量化
- Aaamic Adar algorithm
主要基于判断相邻的两个节点之间的亲密程度作为评判标准,2003年由Lada Adamic 和 Eytan Adar在 Friends and neighbors on the Web 提出,其中节点亲密度的计算公式如
2.3.文本情绪分类因子
新闻摘要 + 词云 — 同业对比
- Linear — textcnn — Bert:模型性能提升
- 股吧评论因子,市场情绪分析,
- 股吧来源10多个,多个股吧评论跟踪,
- 情绪打分追踪系统,10多个来源综合打分,平均打分,还是分级打分
2.4.其它策略:
时间序列策略/随机漫步/马可夫蒙特卡洛 vs 交易类策略
1.MA — ARMA — ARCH— GARCH
2.时间序列分类:只选取股票上涨趋势的股票,看涨,持平,卖出3分类
3.时间序列回归:直接算出目标价
2.5.复合模型 vs MoE 架构
几个小策略之间要组合,要继承,要集成为一个大模型,一个大的策略。 几个脚本组合起来,几个中间结果的csv输入最终处理模块。然后出几个版本调整整体结构和效果:结论,第二复杂的模型效果最好
横向对比失效,复合分数== 优于同行多少,但营收更好不代表业务更好,
- 那么纵向对比,自身评价进行更新,风评突然恶化,突然优化。
- 因子选取与组合设定:夏普率等成熟指标,市盈率,市净率组合—简单组合;新因子开发:例如PME收益指标,行业超额收益指标,超规模收益指标,
- 专利数量,核心专利数量, 专利引用苏亮,动态条目数量
- 因子类别:行业规模类别,财务类,金融交易类
2.6.额外的配套策略:
策略评价指标,风险控制的止盈止损
1.风控合规策略:
- 1.交易类:异常交易,内幕交易,关联交易核对,高管违规减持,变现减持,变相持股与实控。交易信号,老鼠仓检测,**违规操作检测,**转融通证券账户操作。行业特性,市盈率高低,涨跌幅度,涨跌快慢,股吧评论监控,是否有坐庄。
- 2.财务类:**财务造假,**财务异常,费用异常,销售费率异常(检测业绩大额增长,大额订单),资金成本异常(负债率过高,流动性问题,是否信用状况恶化导致)。
- 3.报告解读:股东大会报告解读,财报审计,内审与审计信用,股权结构异常变化(前10大股东名单),子公司结构变化,其它异常事件解读
- 4.黑灰产监控,利用限售股套现
2.仓位管理策略,
优先级a,b,c持仓比重,买卖目标价,买卖时机,异常监控,股价波动监控
即便是同一个策略,因子选取与权重设置,模型调参都有不同,实盘交易也有不同,技术上讲变化不大,但实际操作变数很多。
3.止盈止损策略
3. 策略完整架构:
一个综合打分策略 知识图谱的配套模型
爬虫 +数据收集处理+ 知识图谱 + 选股策略(多因子开发筛选) + (补充:定价策略 + 择时策略 + 策略评价)+ 行业叠加验证 ==策略核心 + 风控合规 + 仓位管理 ==策略主干+ 回测 + 实盘上线(目标价设定,估值模型) ==完整策略
- 基座不变,换辅助策略,换时间序列为交易类策略,羊驼策略
- 衍生策略,变体策略:例如不同的rag路线有不同的变体。
- 某种程度上讲,金融算法不仅是算法岗,更加复合性岗位,
- 也是产品经理,整体方案和整体进度可以自己把握,需求简单,就是盈利,拥有更多自主权,客户只关心是否盈利,是否方便赎回,客户数量少,百万买入,几百人的客户群体,也不接触客户
- 做一点测试,负责模型的debug,上线稳定,不过相对简单,不需要大规模上线
- 出点小bug也不要紧,可以允许错过投资机会,只要不是重仓股暴跌,小额亏损是可以追回的,容错率比较高,稳定性鲁棒性要求没有开发那么高,重风控,重赎回
- 做一点运维,
有点像小厂里面的全栈,需要调整工作流程和工作方式。
II.项目难点与方案
怎么解决,效果怎么样,收获
1. 数据方面
1.1.复合学科问题
- 模型复合问题,思路转换,金融手段解决不了了可以尝试用技术手段,技术手段解决不了了可以用金融手段。有些技术问题卡住了,从金融上转换角度,发现原来的问题不存在了,因为模型更换了,实际上是一种平替方案,可以互相牵制,也可以互相配合。
- 复合学科特性,模型构建的复合性 — 不仅是纯粹的机器学习模型,更是金融模型 + 深度学习模型
- 金融面:了解政策,市场整体行情,股票具体交易情况,因子筛选,策略构建的金融理解,数理模型,稳定性合规性限制
- 技术面:模型挑选,模型调参,
1.2. 时效性
数据时效性问题 — 数据来源— 周期性,趋势性
模型的时效性 - 双重验证方案
1.2.1.复合解决方案:双重验证,技术面不能完全解决,从行研角度解决,定性分析。
- 实际是那个降低模型精度,预测那一支股票很难,预测那一批相对容易。
- 或者也可以认为是机器 + 人工的方案。
- 高频期货量化,技术可以解决绝大部分问题,获取稳定收益,只要你的策略比对手好就行。股票相对
1.2.2.复盘,上涨逻辑,什么原因引起的上涨,下跌
- 案例1:东北停电,煤炭供应不足,与澳洲关系紧张削减了煤炭进口,看好中国神华。这个策略主要就是政策性研究。
- 案例2:巴西天气,难得干旱,豆粕价格上升,引起猪肉价格上涨。
1.2.3.模型验证的复合性:数理/金融充分 + 回测稳定,实盘效果收益高1.3.数据问题 - 特征工程
文本嵌入模型:glove/ Elmo/Bert
文本嵌入 vs 图片嵌入
数据获取,清理,
从产业链到估值:订单验证,能源价格,新能源车销量,利润率,预测最近几年的收益,净利,最终估价。实盘指导价vs实盘操作。
- 1.过滤法: 选择特征时不管模型,该方法基于特征的通用表现去选择,比如: 目标相关性、自相关性和发散性等。
- 优点: 特征选择计算开销小,且能有效避免过拟合。
- 缺点: 没考虑针对后续要使用的学习器去选择特征子集,减弱学习器拟合能力。
- 当我们使用过滤法去审视变量时,我们会从单变量自身情况和多变量之间的关系去判断变量是否该被过滤掉。
- 2.包裹法: 将要使用的学习器的性能作为特征子集的评价准则,目的是为给的学习器选择“量身定做”的特征子集。[4]
- 优点: 特征选择比过滤法更具针对性,对模型性能有好处。
- 缺点: 计算开销更大。
- 3.嵌入法: 特征选择被嵌入进学习器训练过程中。不像包裹法,特性选择与学习器训练过程有明显的区分。[4]
- 优点: 比包裹法更省时省力,把特征选择交给模型去学习。
- 缺点: 增加模型训练负担。
- 常见的嵌入法有LASSO的L1正则惩罚项、随机森林构建子树时会选择特征子集。嵌入法的应用比较单调,sklearn有提供SelectFromModel[12],可以直接调用模型挑选特征
项目,文本分类,情感分析,分词
数据验证,上下游核对,财报核对
2. 调参问题
常规调参 -- 谷歌调参宝书
https://github.com/google-research/tuning_playbook
2.1.补充:金融模型评估
因子筛选,模型评估:因子有效性评估 - 因子筛选 - 模型参数确认
AIC,BIC
- 1.时间序列:因为 DF 检验只适用于1阶自回归过程的平稳性检验,但实际上绝大多数时间序列都不会是一个简单的AR(1)过程。为了使DF检验能适用于AR( p )过程的平稳性检验,对其进行了一定的修正,得到增广DF检验(augmented Dickey-Fuller),简记为ADF检验。
- 2.fama-MacBeth: 风险溢价检测
- 3.数理上,金融理论上是否充分:统计学验证(AIC),解决过拟合问题,模型的复杂度和此模型拟合数据的优良性。
- 4.Person相关系数法:
- 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)
- 5.距离相关系数是为了克服Pearson相关系数的弱点而生的。在x和x^2这个例子中,即便Pearson相关系数是0,我们也不能断定这两个变量是独立的(有可能是非线性相关);但如果距离相关系数是0,那么我们就可以说这两个变量是独立的
- 数理充分的必要性,黑盒模型,实盘效果好,但不一定稳定,有效期比较短,比较容易失效。这个时候就要设立止盈止损策略。
AIC=2k-2ln(L)
2.2 模型性能
跑通,效果不理想 — 通用性问题
1.模型方法问题
文本相似度部分方法问题
余璇相似度问题
2.模型太小
用大模型蒸馏,然后精调小模型
模型架构问题,结构问题,
模型替换,微调方案
3.模型超参数问题-调参
llm和基于模型的ft/RLHF/SFT,理论上长期记忆;rag是中期;prompt是短期。这三者应该相互配合
3. 大模型问题
架构问题 — 政策性问题查询这种相对粗粒度问题 — 行情查询
数学问题模型跟新问题 — 模型理解
1.黑盒理论的不确定性
说谎还是幻觉
收益的评价性,无法准确评价就无法找准前进方向
2.架构的局限性
可以解决上下文,但还是无法真正理解
可能乐坤的说法是对的,现在只是大力出奇迹,不知道什么时候就出现限制。
解决方案即为JEPA(联合嵌入预测架构)。
JEPA通过一系列的编码器提取世界状态的抽象表示,并使用不同层次的世界模型预测器,来预测世界的不同状态,并在不同的时间尺度上做出预测
关于微调vs预训练
从本质上讲 多模态能力是给予模型处理多种格式输入,生成多模态输出的能力。通过微调,使模型具备多模态能力。为什么要这样训练?因为目标是贾维斯,而实现路径是使模型通过与训练就具备多模态能力。微调的方向比如多模态,moe架构,rlhf,长上下文。都是使模型的能力提升的经验累积。当人掌握了赋予模型多模态能力的方法,即可通过预训练直接获取多模态能力。微调是为了预训练积累经验和能力,也是为了摸清方向。最终实现类似贾维斯的能力。机械臂链接大模型已经可以实现,多模态也已经可以实现,唯一差的是全息投影,AR有可能成为下一个关键技术
1.性能不足,仍然不够智能,专业性,可落地性,稳定性各种性能指标仍然不足够整体/部分替代现有的解决方案
2.幻觉问题,安全合规隐私,法律道德问题
3.能源算力问题 — 成本易用性安全合规问题
畅想:AI 工厂 / AI 服务器集群 — AI PC — AI PHONE — AI 相机
React范式 —推理和行为相结合的通用范式
知识的提取与整合——通过LlamaIndex实现检索增强生成 - RAG
GitHub的网红聚落——AutoGPT、BabyAGI和CAMEL 216
多Agent框架——AutoGen和MetaGPT 250
3.1RAG vs 知识图谱
prompt , function calling, COT封装
轻量化,大型化
3.2 大模型智能体
作为一名金融量化分析师,通过研报解读,机器学习和深度学习算法,制定各种关于A股的量化交易策略。包括但不限于:多因子选股策略,资产定价模型,风控合规策略,仓位管理策略等。
3.3 PEFT vs FFT
langchain/ ollama
Prefix tuning , Lora, Adaptor, P-tuning v1,v2,
III. 项目总结
1.几点思考
1.1.定位:从中小厂到大厂
从算法应用到算法开发
从模型二次开发到底层开发,算子库,加速库,底层框架
deepseek, cuda, opencl, triton等的使用
1.2 AI全栈
- 1.底层基座,算子库,编译器,模型部署,偏嵌入式优化,模型剪枝蒸馏,模型通信优化。可靠性优化与增强
- 2.模型开发,架构设计,调参,模型性能优化。研究新架构,更好的效果。
- 3.模型应用,数字人开发,具身智能。模型的中下游应用。模型在金融和医疗的应用,相对轻优化,重效果。AI用作引擎,给各种应用赋能。
大模型调参路线:
简单跑过,还没那么熟,需要即查即用
1.3 模型开发的层级:
1.3.1华为,基础设施层级,软硬件方案供应
- 服务器集群通信,网关通信优化
- 大模型架构分离,泄露检测
- 行业解决方案 VS cuda生态: 行业包 库包 游戏软件包
- 一级二级三级行业开发,行业方案细化,单独的公司有能力提供单独方案。甚至NVIDIA是面向个人市场,他还提供消费级显卡市场,可以服务到小微企业甚至个人消费者。toB, toC
- 上万案例 vs 千万案例,差的数量级比较多,即使一个企业项目顶得上1千个消费者,业务量也仍然有差距。Apple vs 华为大战重现。
1.3.2.模型提供商,大厂模型+智谱+商汤
二次开发/微调
1.3.3 中小微企业,个人开发,模型应用层面,低代码开发,Agent,RAG
1.4.算法能力的3层要求:
- 高效执行机器 — 调参侠,数据搬运工,炼丹
- 算法选型和改造能力 — 对已有的算法问题,进行适当的改造和优化
- 业务抽象能力 — 业务抽象能力
- 先验/金融分析框架:产业链定位 同业对比 供需关系 经营状况拆解 现金流模型评估 财务状况交易状况分析 审计合规盘点和可行性分析
2.算法 架构 vs 结构
2.1 整体架构考量
版本答案:最优策略,策略之王 — 指数增强混合多因子模型
一刻辉煌谁都有,别把一刻当永久 -- 选择中证50策略的原因
具有稳定性的行业龙头筛选,交易平稳,出货量大,持有成本低,风险提前排除,收益可观。
策略构建,模拟盘验证,实盘监测
短期有收益,中期就不一定稳定,长期很难复用,老策略基本都会失效,除开完全价值投资的策略。
策略过时失效,模型小变动,模拟盘大幅提升,上实盘又不稳定收益了。
巴菲特赌局证明,任何策略都不是长期有效的,
主要局限是经济学,金融学的局限,经验累计,市场深度理解,指标深度理解,政策深度解读,各种解释角度,潮汐策略,没有完美的估值模型,估价模型。
生成式的核心问题,没有完美解决语义理解问题,导致生成的文字/图片具有随机性过强,大模型幻觉的问题。实际上还是attention机制本身的问题,即便可以处理上下文,但语义不仅仅是根据语境就可以理解,还包含语音信息,肢体表情信息,文化语义背景等等信息从上下文中无法获取,这还不包括语言本身的一次多意,各种写作手法。
作者意图的例子,阅读理解,完形填空等等,是很好的训练方式。
- 架构设计初衷:双知识图谱 + 时间序列/文本分类 + 风控策略 + 定价策略,仓位管理策略(照抄中证50,买入卖出时机,仓位具体多少,把他算准就已经有难度)
- 每个部分不是最优策略,相当于将4,5个小模型进行拼接。比如巨型知识图谱,公司 高管 行业 热点 事件 统一大型库。或者运用强化学习手段,加强交易手段和性能。总体体量比单一策略稍大,甚至比某些巨型策略要小,但结果和性能更优。可以看成是MoE架构思想,通过加入集成学习的手段,使用有效的资源和预算,通过调度复用,增强模型架构的性能。
- 延伸1,强化学习是大模型效果取得突破的关键,加上Moe的效果提升。通过纯强化学习的模型路线来实现期货交易的想法。跟下围棋一样买卖双方博弈,学做交易,通过模型能力,战胜对手即可。—— 一种策略思路
- 延伸2,大模型金融落地,取代知识图谱,做RAG方向的数据库,企业私域知识库,可以做的更大,性能更优。
- Agent助理,投研助理,允许访问新闻文本库,研报库,辅助进行行研,文本摘要,行研趋势性的判断。
- 大模型的参数轻量化,Lora,Adoptor,其它
- 不光是金融领域使用,业务抽象,模型架构的设计/调整/借鉴/参照/二次开发是主要难点。当然,调参也需要经验累计,也有很多工程技巧。特征工程
2.2. 模型结构优化
业务抽象案例
- 对全球贸易数据进行深入分析,发现贸易数据中的潜在商机,并基于NLP模型进行数据挖掘和预测;
- 一直想从大宗商品的上游原材料行情分析出投资机会,或者对热点进行挖掘解读,或者对偶发事件,节假日事件进行挖掘,宏观经济指标的跟踪解读,政府工作报告的大势把握。业务抽象能力,逻辑链路的挖掘,抽丝剥茧的解读,这种模型挖掘的能力是最有意义,也是最优难度的。
3. 整体解决方案:
优势:各行业行研积累行业认知,从宏观财报压力,到业绩压力,到经营分析,业务增长点突破,上下游产业定位,同业竞争,对于客户的需求能够更好理解。不仅懂模型,而且懂业务痛点,懂行业增长点,对业务场景和需求有更好的理解接受能力,软性能力,长期积累。比如汽车行业,整车,零部件,电池,他们的竞争压力来自哪里。模型如果面临同质化,部署和加速上提供哪些优势。
1.最重要的一点,真正认识到这个业务抽象能力的重要性,
2.各方面基础扎实:工程 + 应用
- 对已有的工具和可以存在的解决方案要熟悉— 长期写总结—经常回头整理归纳:
- 例如几个主要问题:
- 1.数据层面:
- 数据来源,传感器数据获取,结构化非结构化。数据清理挖掘,特征工程。
- 2.模型架构调参层面,模型结构设计:
- 综合技巧:MOE,ML,GAN,蒸馏
- 对潜在的问题要敏锐 —- 意识到了抽象,才能长期留意
要开发出好的模型,算子,加速库;要对模型的应用场景足够敏感,对已有的模型,算子,加速库非常熟悉。
3.讨论,请教,优秀案例参考,开源项目参考与二次开发,研报因子参考,算法加速