默认的HuggingFace模型

最新推荐文章于 2024-06-20 12:00:00 发布

woshicver

最新推荐文章于 2024-06-20 12:00:00 发布

阅读量369

点赞数

文章标签：人工智能深度学习机器学习神经网络计算机视觉

本文链接：https://blog.csdn.net/woshicver/article/details/130652631

版权

在本文中，我将探讨表征学习中常见的一种做法——使用预训练神经网络的冻结状态作为学习特征提取器。

具体而言，我感兴趣的是研究使用这些提取的神经网络特征训练的简单模型的性能与使用迁移学习初始化的微调神经网络的性能的比较。预期受众主要是数据科学家，以及对计算机视觉和机器学习感兴趣的任何人。

稍微跳过一点......下面的结果表明，使用提取的神经网络特征训练的 scikit-learn 模型的表现几乎与使用相同的预训练权重微调的完整网络相当（平衡准确度下降了 3% 至 6%）。

如今，微软等公司每年发布数千个预训练神经网络模型。这些模型越来越强大和易于使用。

由于有这么多的模型检查点开源，神经网络作为人工智能/机器学习中的核心关注点的演变并不令人意外。想想人们都听说过能够将文本提示转换成图像/艺术品的 DALL-E-2 和 Stable Diffusion - 神经网络。

据报道，Stable Diffusion 已经被超过 1000 万个用户下载。许多人不知道的是，这些技术今天之所以存在很大程度上是因为统计学子领域表征学习的进步。

“2020 年代看起来是表征学习在机器学习中实现其承诺的时代。使用在特定域（有监督或无监督）上训练的模型，我们可以使用它们的后期激活在处理输入时作为其输入的表征。

表征可以以各种方式使用，最常见的是直接用作下游模型的输入，或用作共同训练具有多种模型类型的共享潜在空间的目标（文本和视觉，GNN 和文本等）。”—Kyle Kranen[1]

让我们来检验一下这些说法......

下面使用的图像数据集源自2013/2014年的Chesapeake Conservancy土地覆盖项目[2]。

它由国家农业图像计划（NAIP）卫星图像组成，以1米平方分辨率提供4个信息通道（红、绿、蓝和近红外）。最初的地理空间数据跨越6个州，总面积达100,000平方英里：弗吉尼亚州、西弗吉尼亚州、马里兰州、特拉华州、宾夕法尼亚州和纽约州。

为了获得n = 15,809个唯一的大小为128 x 128像素的补丁和相同数量的土地覆盖标签，它首先被子采样。检查示例补丁（参见图1），1米平方分辨率似乎相当细致，因为图像中的结构和物体可以以相当高的清晰度解释。

注：原始的Chesapeake Conservancy土地覆盖数据集包括标签掩码，旨在进行分割而不是分类。为了改变这一点，我只保存了出现单一类别且在采样地理空间数据时至少出现85％频率的补丁。

这里实验使用的5个土地覆盖类别定义如下：

经过检查，数据集似乎具有许多有趣的特征，包括季节变化（例如叶片）、噪声和跨6个州的分布偏移。少量的“自然”噪声有助于使这个有些简化的分类任务变得更加困难，这是有益的，因为我们不希望监督任务过于轻松。

使用美国各州作为划分机制，生成了训练集、验证集和测试集。测试集选取来自宾夕法尼亚州的补丁（n=2,586，占数据的16.4%），验证集选取来自特拉华州的补丁（n=2,088，占数据的13.2%），其余则用于训练集（n=11,135，占数据的70.4%）。

总的来说，该数据集存在显著的类别不平衡问题：荒地（49/15,809）和不透水表面（124/15,809）的表示不足，而树冠和灌木（9,514/15,809）的表示则超过了预期。相比之下，低植被（3,672/15,809）和水（2,450/15,809）的表示则更加平衡。

由于标签不平衡，我们在下面的实验中使用平衡准确度。该指标将每个类别的单独准确度的平均值作为统计值，因此无论类别大小如何，每个类别都被赋予相同的权重。

see: torchgeo.datasets

通常，学习特征可以定义为源自黑匣子算法的特征。通过提取图像表示的学习特征，你通常会信任计算机视觉社区中的其他团队，他们在首次训练黑匣子时对算法进行了优化。

例如，可以使用诸如keras、pytorch和transformers等包从经过大型基准数据集（如ImageNet）进行预训练的神经网络中提取学习特征。

学习特征通常是下游任务的出色表示，无论是无监督还是有监督任务。假设做出的假设是，模型的权重以稳健的方式进行了预训练。幸运的是，你可以信任Google / Microsoft / Facebook的这一点。

为了提供一些背景，当原始图像被输入到神经网络中时，它经历了几个连续的转换层，其中每个隐藏状态层从原始图像中提取新的信息。在将图像输入到网络后，可以直接提取隐藏状态或嵌入作为特征。通常惯例是使用最后一个隐藏状态嵌入作为提取的特征，即前面的有监督任务头之前的层。

在这个项目中，我们将研究两个预训练模型：Microsoft的双向编码图像变换器（BEiT）[3]和Facebook的ConvNext模型[4]。

BEiT-base和ConvNext-base是Hugging Face上用于图像分类的两个最流行的检查点，它们在初步测试

关注