多模态大模型识别边界框实践—股票K线图启明之星形态

写在前面

YOLO系列模型实现了对现实世界广泛物体的边界框识别,最新的开源多模态大模型(MLLM)/视觉语言模型(VLM)宣称能够给出特定物体的边界框坐标。笔者测试了一些常规图片并询问MLLM图中常见物体,如动物、车辆等,基本都能识别出来,给出物体之间大致的位置关系。

不同于YOLO单薄的模型层,MLLM的vision encoder的transformer层通常较厚,且较好地对齐了大模型LLM的token表达,因此对复杂的图形或人为定义图形,可能存在潜在的识别定位能力,如果猜测成立,后面必将产生许多非常有意思的应用。

捕获启明之星

老股民都知道股市行情里的K线图,K线图里的启明之星(又称早晨之星、黎明之心、希望之星)正如字面含义一般给人光明之感。哪些股票在忍受着黎明前的黑暗,哪些看到了上涨的曙光,从过往到近期的股价表现,你需要一双阅遍千股的眼睛。现在我们用多模态大模型打造这双慧眼,从繁杂的K线图中找到最亮的启明之星。

笔者根据某股一个月内的股价信息构造了K线图形态数据,看微调后的MLLM能不能捕获启明之星。

图 MLLM识别启明之星形态-黄色边界框内

显然,MLLM能干这活。

图片尺寸与边界框识别

从事后诸葛亮的角度看,一开始的时候,笔者测试众多MLLM,要么只能输出图形的大致方位或位置的比例关系,要么输出的边界框坐标错的离谱,驴唇不对马嘴,始终不能给出准确的边界框坐标。

笔者重新审视了一般开源MLLM的视觉编码过程:在InternVL2多模态大模型的图片编码过程中,一张图片选择最佳的预定义切割比例成小patch,分辨率不满足ViT要求大小的会适当变形拉伸至其倍数(有些MLLM是填充token至其倍数),再加上原图缩小的比例图,共同输入vision encoder作为图片特征信息。

可以发现,原图和小patch拼接回去的图片已经不一样了,意味着MLLM看到的图片与原图有一点点形变上的不同,因此MLLM输出的边界框坐标相比原图产生了位移,这是导致边界框坐标不准确的根本原因之一。

InternVL2 图片编码过程(论文地址:https://arxiv.org/pdf/2404.16821)

第二代的MLLM通常支持任意长宽比或分辨率,对于MLLM推理普通图片和定性描述prompt来说,图片尺寸是否严格符合ViT要求大小的倍数并不重要,例如图片中的一头熊,即便稍微拉伸变形,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值