DINOv2深度学习：10亿参数的Transformer模型，自监督图像分割与多任务应用

xziyuan

于 2024-07-30 08:38:08 发布

阅读量976

点赞数 3

文章标签：深度学习 transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xziyuan/article/details/140786874

版权

多模态技术已成为推动游戏内容与元宇宙建设的关键力量。扎克伯格表示，DINOv2 将被用于制作更具沉浸感的元宇宙。在 AI 大模型竞赛中，Meta 选择重押视觉模型，并在推出零样本分割一切的 SAM 后，扎克伯格亲自官宣了重量级开源项目 DINOv2。

据了解，DINOv2 是计算机视觉领域的预训练大模型，拥有 10 亿级参数量，采用 Transformer 架构，可在语义分割、图像检索和深度估计等方面实现自监督训练。无需微调，即可应用于多种下游任务，从而改善医学成像、粮食作物生长、地图绘制等领域。

所谓视觉模型，就是一种能够像人类一样看懂图像的程序。我们想象一下，你拿一张照片给它看，它能够告诉你这是一只猫、一辆车、一个人或者其他东西，而且能够非常准确地判断。

这些神奇的程序得益于深度学习技术，也就是让计算机通过大量的数据学习和理解图像。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。