AI每日新闻 | 8B 视觉语言模型 | Premiere Pro|DaVinci Resolve 19 | Poe 多模聊天

Idefics2是一款强大的多模态模型,提升了OCR功能,并在视觉问答中表现出色。Adobe展示了PremierePro中即将推出的AI对象添加和文本转视频功能,以及DaVinciResolve19的人工智能运动跟踪和调色升级。Poe平台引入多聊天机器人,让用户能对比不同模型的效果。
摘要由CSDN通过智能技术生成

Idefics2:功能强大的社区 8B 视觉语言模型

0b7f9abf66f1110995760d7a9c934d28.png

 Idefics2是一种通用的多模态模型,可将任意序列的文本和图像作为输入,并生成文本回复。它可以回答有关图像的问题、描述视觉内容、创建基于多幅图像的故事、从文档中提取信息以及执行基本算术运算。

Idefics2 在 Idefics1 的基础上进行了改进:Idefics2 具有 8B 参数、开放式许可证(Apache 2.0)和增强的 OCR(光学字符识别)功能,为多模态社区的工作奠定了坚实的基础。它在视觉问题解答基准测试中的表现在同类产品中名列前茅,可与 LLava-Next-34B 和 MM1-30B-chat 等更大型的模型相媲美。

Idefics2 从一开始就集成在Transformers 中,因此可以直接针对许多多模态应用进行微调。

Adobe 预览用于 Premiere Pro 的人工智能对象添加和移除功能

677501eceb9a70b98ea41598e6daeb80.png

Adobe在其视频编辑软件Premiere Pro中展示了即将于2024年推出的基于Firefly生成式AI的新功能,主要包括:①生成式延展,通过AI智能扩展短片段以实现更精准的编辑和过渡;②对象添加与移除,利用AI技术轻松去除或添加画面中的特定对象;③导入自定义AI模型,如Pika用于生成式延展,Sora(OpenAI)能自动生成B-Roll镜头,但AI生成视频功能尚处早期研究且可能引起行业争议;④新增“文本转视频”功能,可通过输入文本或上传参考图片在应用内生成视频片段。同时,Adobe还计划于同年5月向用户推送一系列便捷性更新,如交互式过渡手柄、自动音频分类标签、效果徽章及改进的时间线波形显示等。

Blackmagic 的 DaVinci Resolve 19 配备人工智能运动跟踪和调色功能

52c3e9437af477b09d9f15ec97394afc.png

Blackmagic Design在NAB 2024年大会上发布年度更新并推出超过十款新产品,其中亮点包括DaVinci Resolve编辑套件的新版本——DaVinci Resolve 19。此版本借鉴了竞品特性,引入大量基于AI的新功能,应用于特效、色彩校正、剪辑、音频等多个方面。具体新功能如下:

  • 编辑模块新增文字编辑功能,可使用文本而非视频对剪辑进行编辑,支持语音识别转文字,并能删除、搜索文本内容,同时还包含新的修剪窗口、固定播放头、快速调整音频属性等功能。

  • 色彩工具新增“Color Slice”工具,允许基于六种颜色向量及皮肤色调滑块进行精细化图像调整,方便快捷地改变饱和度和色相。

  • 引入名为“IntelliTrack”的AI驱动跟踪功能,便于快速选择跟踪点创建特效或稳定图像,并增加了类似Lightroom的AI降噪系统,无需手动调整即可有效减少图像噪声和胶片颗粒。

  • 新增“Film Look Creator”模块,提供60多项电影级参数供用户自由调整色彩风格,以及“Defocus Background”模拟浅景深效果,并具备面部细化追踪功能,可精细调节人脸亮度、色彩和细节等。

  • Fusion FX编辑器增加了3D对象操作的便捷工具,在音频方面推出了“Dialogue Separator FX”,可以分离对话、背景音和环境音。

DaVinci Resolve 19已开放公开测试,Studio版售价295美元,基础版免费,但尚未公布正式发布日期。

Poe 的多聊天机器人

fe9a36624cf123786c68a2370a997763.png

今日,Poe平台迎来一项重要新功能:多模聊天。该功能使得用户能够在同一个会话线程中轻松与多个模型互动。由于不同模型各有优劣,针对特定任务优化的和具备独特知识的模型不一而足,现在通过Poe,只需一键点击,就能比较推荐模型的回答,并通过@提及的方式召唤任何想要使用的模型。这一新能力让您可以轻易对比各种模型的结果,发掘最优模型组合,从而在工作流程各步骤中选用最合适工具。

举例来说,当你想深入了解某个主题时,可以先询问Claude 3 Opus模型,并与GPT-4或Mistral Large的答案作比较;接着利用Gemini 1.5 Pro的大容量上下文窗口进行深度分析,@提及Web Search机器人获取最新话题信息;再唤入一个专业写作机器人,结合之前所有模型提供的上下文完成写作任务。对于图像生成需求,则可提示DALL-E 3,并将其输出与SDXL、Playground v2.5或其他图像生成模型在Poe上的结果进行对比。

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值