Ferret: 一个以开放词汇去理解图像的多模态大语言模型

23年10月11日来自哥伦比亚大学和苹果公司的论文“Ferret: Refer And Ground Anything Any-Where At Any Granularity“。

Ferret,是一种多模态大语言模型(MLLM),能够理解图像中任何形状或粒度的空间引用,并准确地落地开放词汇的描述。 为了统一 LLM 范式中的引用和落地,Ferret 采用了一种混合区域表示,将离散坐标和连续特征联合集成在一起来表示图像中的区域。 为了提取多样(versatile)区域的连续特征,作者提出了一种空间-觉察的视觉采样器,其擅长处理包括不同形状的不同稀疏度。 因此,Ferret 可以接受不同的区域输入,例如点、边框和自由形状。 为了增强 Ferret 的期待功能,作者清洗出GRIT(Ground-and-Refer Instruction-Tuning),一个全面的引用和落地指令调优数据集,有 110 万个样本,包括丰富的分层空间知识,并具有 95K难的负数据以提高模型的鲁棒性。

为了评估,作者引入Ferret-Bench,涵盖三种新类型的任务:引用描述、引用推理和对话落地。 对现有 MLLM 进行了基准测试,发现 Ferret 的性能平均比其中最好的 MLLM 快 20.4%。 此外,Ferret 还展示了减轻目标幻觉的有趣特性。其不仅在经典的引用-和-落地任务性能出群,而且在基于区域和定位-需求的多模态聊天中也大大优于现有的 MLLM。

如图所示:Ferret在引用方面,用户可以引用点、框或任何自由形状的区域或目标。 输入中的 RegionN 在输入 LLM 之前将被混合表示替换。 在落地方面,Ferret 能够准确地落地任何开放词汇描述。 输出中的 boxN 表示预测的边框坐标。

添加图片注释,不超过 140 字(可选)

下表是Ferret与最近集成了空间-觉察的 MLLM 进行比较。 “Convention”是指用模板转换的公开可用数据集合,“GPT-Generate”表示用 GPT 生成的引用/落地数据集,“Robustness”表示旨在减轻幻觉和提高稳健性的数据集。

添加图片注释,不超过 140 字(可选)

如图是Ferret的模型架构。 (左图)提出的混合区域表示和空间-觉察视觉采样器。 (右图)整体模型架构。 除图像编码器之外的所有参数都是可训练的。

添加图片注释,不超过 140 字(可选)

如图是Ferret 模型训练的 GRIT 数据集概述。 它包含三种类型的数据:(i) 转换为跟从指令格式的公共数据集(前 3 行); (ii)通过提示ChatGPT和GPT-4(第4行)生成的数据; (iii) 负样本数据以增强模型的稳健性(最后一行)。

添加图片注释,不超过 140 字(可选)

近日,GPT-4向公众发布了其多模态大模型版本,命名为GPT-4V。 在微软对GPT-4V测试的技术报告中“The dawn of lmms: Preliminary explorations with gpt-4v(ision)“(Yang 2023),简要触及了 GPT-4V 的落地能力。 对于引用,GPT-4V 通过以下两种方式提示:(i)参考区域在图像中用红色圆圈/轮廓标记,提出问题去询问红色圆圈/轮廓中的区域。 (ii) 图像是不变的,但Ferret提供相关的图像大小和坐标来引用特定区域。 至于落地,Ferret 遵循(Yang2023)的提示,即“使用边框在图像中定位⟨class⟩。 图像大小为(宽度,高度)”。

正如所观察的,GPT-4V 能够通过图像中的彩色区域或文本中的坐标在一定程度上理解引用。 然而,与 Ferret 相比,GPT-4V 在涉及小区域时缺乏精确理解,例如摩托车中的“减震器(shock absorber)”,参见如图顶部的例子。

添加图片注释,不超过 140 字(可选)

另一方面,GPT-4V 更具有常识性,例如,它进一步强调排气管( exhaust pipe)可以降低噪音,这一细微差别可能归因于 GPT-4 增强的语言能力。 关于落地,Ferret用验证码测试了 GPT-4V,这一任务在 (Yang 2023)中也提到过。 在交通灯示例中,Ferret 擅长准确识别大多数交通灯,即使在杂乱的场景中也是如此,如上图底部示例所示。

话虽如此,在一般问答领域,GPT-4V 的表现尤其令人印象深刻。 它不仅可以巧妙地管理最初的问题,还可以处理与特定区域相关的后续询问,并提供深入的答案。 尽管如此,Ferret 尤其在需要精确的落地边框时表现出色,并且适合在较小区域内需要精确定位的应用。 这正是 Ferret 填补空白的地方。

  • 18
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ferret是一个正在开发中的工具,它具有多种功能,包括cookie、快照截图、图片下载和代理等。目前的版本是v0.9.0,稳定版本即将发布。除了命令行形式外,ferret还可以嵌入到golang编码中,产生各种有趣的用法。\[1\] 要安装ferret,建议使用go1.13以上版本,并开启国内镜像代理。你还需要安装Chrome浏览器,并启动Chrome的CDP服务实例,使用无头模式。然后可以使用go get命令获取ferret的代码库。\[2\] 关于ferret和golang的具体用法,可以参考示例代码。示例中展示了一个使用ferret进行搜索的例子,通过指定参数wd来搜索"golang社区",并将结果保存到baidu.txt文件中。结果以JSON格式返回,包含了标题和描述信息。\[2\] 示例代码中还展示了一个简单的golang函数调用的例子,其中包含了panic异常的处理。这个例子展示了函数之间的调用关系和异常处理的过程。\[3\] 总之,ferret是一个正在开发中的工具,可以在golang中使用,具有多种功能。你可以通过安装ferret并参考示例代码来了解更多关于ferret和golang的用法。 #### 引用[.reference_title] - *1* *2* [ferret 爬取动态网页](https://blog.csdn.net/u011584949/article/details/103546463)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Golang 学习笔记3:Go 并发与网络](https://blog.csdn.net/LUAOHAN/article/details/127151914)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值