登上顶会 ICML 的字节跳动多模态成果，到底是怎样实现的？

字节跳动技术范儿

于 2024-01-23 19:10:45 发布

阅读量644

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47098359/article/details/135812837

版权

文章介绍了字节跳动研发的X-VLM技术，一种强大的多模态方法，不仅能将图片转化为文字描述，还应用于今日头条和抖音的无障碍功能，助力视障用户。研究者妍妍通过创新突破了行业难题，使得X-VLM在性能上超越同类模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如果你打开今日头条，在无障碍模式下双击大图，就能发现图片能被“翻译”成流畅的文字语句。

这项“隐藏很深”的技术名叫 X-VLM，是一种多模态方法，它的另一个版本名叫 X^2-VLM，均来自 ByteDance Research 团队，可实现图片描述、图文检索、图文理解、视觉问答等功能。相关论文登上顶会 ICML ，另一版论文也在 TPAMI 上发表。

该研究的一作是 95 后校招生妍妍，X-VLM 发表前，不少多模态从业者认为，相关模型很难继续创新提升，不过她通过努力，最终找到了突破口。

在字节跳动的真实应用场景中，X-VLM 超过了多个常用模型。DeepMind 2023 年一篇综述也给出评价，X-VLM 模型在相同参数量级下，表现持续领先于其他同类模型。

这项成果已被用在今日头条中，为广大视障群体提供“图片信息转换成文字描述”服务。在抖音等产品中，该技术也有应用。

关于 X-VLM 相关技术实现原理及更多详情，点击下方视频，即可解锁：

字节跳动更多技术应用

“抖音”命名是靠它？解码字节跳动如何做A/B测试

实不相瞒，字节跳动的大模型、推荐、特效算法……都是在这里跑出来的

点击「阅读原文」，加入字节跳动技术团队

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。