【论文精读】DINOv2

摘要

       学习与特定任务无关的预训练表示已经成为自然语言处理的标准,这些表示不进行微调,即可在下游任务上明显优于特定任务模型的性能。其主要得益于使用无监督语言建模目标对大量原始文本进行预训练。 遵循NLP中的这种范式转变,以探索计算机视觉中类似的基础模型。 这种基础模型应该生成在任何任务上都可以开箱即用的视觉特征,无论是在图像级别如图像分类还是像素级别如分割。

       本文基于以往视觉判别式自监督学习方法(如IBT),提出如下改进:

  • 建立了一个自动pipeline,从大量未经整理的图像集合中利用图像相似性过滤及利用聚类方法平衡数据集模式分布收集了一个小型多样化的语料库,包含1.42亿张没有标签的图像
  • 开源了多种DINOv2预训练ViT,具备比以往自监督ViT更优的性能
  • 证明了在大量数据上进行预训练,自监督学习具有学习通用视觉特征的潜力
    image

       上图每一列都为对DINOv2的输出特征采用PCA后的主成分相互匹配的图像,每张图对应的右侧图为前3个主成分特征可视化的结果。观察到采用无监督训练的DINOv2具备优秀的特征提取能力,验证了上述的改进结论。
image

       上图为DINOv2在8种不同类型的视觉任务的性能,虚线为最好的弱监督方法的性能,淡橙色为自监督方法的性能,深粉色为弱监督方法的性能。观察到DINOv2大幅改善了以往的自监督学习方法,达到了与弱监督相当的性能。

数据处理

       本文提出的LVD-142M数据集由一个巨大的未整理的数据池中检索了几个精选数据集中的图像得到的图像数据集和被用于检索的几个精选数据集组成。详细流程如下图:
image

Data sources

image
       数据源包括作为检索条件的精选数据源和一个未经整理的数据池。其中精选数据源详情如上表,包含ImageNet22k、ImageNet1k的训练集、Google Landmarks和几个细粒度数据集。未整理数据池包含1.2B张图像,其来源于一个利用爬虫爬取的未经过滤的公开可用网络仓库,并取出仓库中的所有网页的标签的图像 URL链接,其中丢弃了不安全或受域名限制的URL,并对下载的图像进行了后处理(PCA哈希去重、NSFW过滤和模糊可识别的人脸)。

Deduplication

       将copy detection pipeline应用于未经整理的数据池,并对图像去重,这减少了冗余并增加了图像间的多样性。另外对精选数据源中的测试或验证集也进行了图像去重。

Self-supervised image retrieval

       通过从未整理的数据池中检索与精选数据源中的图像接近的图像来构建预训练数据集。对任意两张图像,使用在ImageNet22k上预训练的自监督ViT-H/16网络计算图像嵌入,并使用余弦相似度作为图像之间的距离度量。
m ( s , r ) = c o s i n e _ s i m i l a r i t y ( f ( s ) , f ( r ) ) = f ( s ) , f ( r ) ∣ ∣ f ( s ) ∣ ∣ 2 ∣ ∣ f ( r ) ∣ ∣ 2 m(s,r)=cosine\_similarity(f(s),f(r))=\frac {f(s),f(r)} {||f(s)||_2||f(r)||_2} m(s,r)=cosine_similarity(f(s),f(r))=∣∣f(s)2∣∣f(r)2f(s),f(r)

       

### 关于密码学学术论文精读 对于希望深入了解密码学并进行学术研究的学生来说,选择合适的学术资源至关重要。为了更好地理解密码学领域内的高级概念和技术细节,可以从以下几个方面入手: #### 1. 寻找高质量的学术期刊和会议论文 优质的学术成果通常发表在国际知名的安全性和隐私保护类顶级会议上,如IEEE Symposium on Security and Privacy (S&P),ACM Conference on Computer and Communications Security (CCS),以及Journal of Cryptology等。 这些平台上的文章经过严格的同行评审过程,代表了当前最先进水平的研究方向和发展趋势[^1]。 #### 2. 掌握必要的数学工具 由于密码学是一门高度依赖数学理论支撑的技术科学,在阅读高水平的学术文献之前,确保已经掌握了足够的离散数学、代数结构、概率论等方面的知识是非常重要的。这有助于更深刻地理解和分析各种加密算法的设计原理及其安全性证明方法。 #### 3. 利用在线资源辅助学习 除了传统的纸质书籍外,互联网上也有许多优秀的开源项目和教程可以帮助初学者快速入门。例如CTF Wiki - 密码学提供了丰富的实践案例供爱好者参考;而像Coursera这样的教育平台上则开设了许多由顶尖大学教授讲授的相关课程[^2]。 #### 4. 注重科研能力训练 当准备撰写自己的研究成果时,需要注意遵循正确的写作规范来构建清晰明了的文章框架。一个好的题目应当能够准确概括全文的核心观点,并且具有一定的吸引力以便引起读者的兴趣。同时也要注意避免使用模糊不清或者过于宽泛/狭窄的概念作为主题名称[^3]。 ```python import requests from bs4 import BeautifulSoup def fetch_paper_titles(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') titles = [] for item in soup.select('.paper-title'): title_text = item.get_text(strip=True) if not any(word.lower() in ['tutorial', 'survey'] for word in title_text.split()): titles.append(title_text) return titles[:5] url = "https://example.com/cryptography-papers" print(fetch_paper_titles(url)) ``` 此段Python代码展示了如何通过网络爬虫技术获取指定网站上的最新密码学研究论文列表,并筛选掉综述性质的内容只保留原创性工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值