Idefics2:功能强大的社区 8B 视觉语言模型

Idefics2是一种通用的多模态模型,可将任意序列的文本和图像作为输入,并生成文本回复。它可以回答有关图像的问题、描述视觉内容、创建基于多幅图像的故事、从文档中提取信息以及执行基本算术运算。
Idefics2 在 Idefics1 的基础上进行了改进:Idefics2 具有 8B 参数、开放式许可证(Apache 2.0)和增强的 OCR(光学字符识别)功能,为多模态社区的工作奠定了坚实的基础。它在视觉问题解答基准测试中的表现在同类产品中名列前茅,可与 LLava-Next-34B 和 MM1-30B-chat 等更大型的模型相媲美。
Idefics2 从一开始就集成在Transformers 中,因此可以直接针对许多多模态应用进行微调。
Adobe 预览用于 Premiere Pro 的人工智能对象添加和移除功能

Adobe在其视频编辑软件Premiere Pro中展示了即将于2024年推出的基于Firefly生成式AI的新
Idefics2是一款强大的多模态模型,提升了OCR功能,并在视觉问答中表现出色。Adobe展示了PremierePro中即将推出的AI对象添加和文本转视频功能,以及DaVinciResolve19的人工智能运动跟踪和调色升级。Poe平台引入多聊天机器人,让用户能对比不同模型的效果。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



