登上顶会 ICML 的字节跳动多模态成果,到底是怎样实现的?

文章介绍了字节跳动研发的X-VLM技术,一种强大的多模态方法,不仅能将图片转化为文字描述,还应用于今日头条和抖音的无障碍功能,助力视障用户。研究者妍妍通过创新突破了行业难题,使得X-VLM在性能上超越同类模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果你打开今日头条,在无障碍模式下双击大图,就能发现图片能被“翻译”成流畅的文字语句

这项“隐藏很深”的技术名叫 X-VLM,是一种多模态方法,它的另一个版本名叫 X^2-VLM,均来自 ByteDance Research 团队,可实现图片描述、图文检索、图文理解、视觉问答等功能。相关论文登上顶会 ICML ,另一版论文也在 TPAMI 上发表。

该研究的一作是 95 后校招生妍妍,X-VLM 发表前,不少多模态从业者认为,相关模型很难继续创新提升,不过她通过努力,最终找到了突破口。

在字节跳动的真实应用场景中,X-VLM 超过了多个常用模型。DeepMind 2023 年一篇综述也给出评价,X-VLM 模型在相同参数量级下,表现持续领先于其他同类模型。

这项成果已被用在今日头条中,为广大视障群体提供“图片信息转换成文字描述”服务。在抖音等产品中,该技术也有应用。

关于 X-VLM 相关技术实现原理及更多详情,点击下方视频,即可解锁:

 字节跳动更多技术应用 

a0c3d02f1893f9827c4afbfa1002990a.jpeg“抖音”命名是靠它?解码字节跳动如何做A/B测试

bd6d87bd6e421aef61ccc572e767ddd0.jpeg

实不相瞒,字节跳动的大模型、推荐、特效算法……都是在这里跑出来的

3f05deb5404a7c4299d5cf6e87e7b8fe.gif

 点击「阅读原文」,加入字节跳动技术团队 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值