学习记录（11）：训练图片分类的算法

许许前进

于 2024-08-05 22:15:32 发布

阅读量628

点赞数 23

分类专栏：学习记录文章标签：算法学习分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyyyyy3802/article/details/140936463

版权

学习记录专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

一、卷积神经网络（CNN）架构
二、变换器（Transformer）架构
- 1. Vision Transformer（ViT）
- 2. Swin Transformer
三、混合架构
- 1. ConvNeXt
- 2. CoAtNet（Convolutional Attention Network）
四、自监督学习和对比学习
- 1. SimCLR（Simple Framework for Contrastive Learning of Visual Representations）
- 2. BYOL（Bootstrap Your Own Latent）
五、大规模预训练学习
- 1. CLIP（Contrastive Language–Image Pretraining）
- 2. DINO（Self-Distillation with No Labels）

一、卷积神经网络（CNN）架构

1. ResNet（Residual Networks）

特点：引入了残差连接（skip connections），解决了深层网络中的梯度消失问题。
代表模型：ResNet-50、ResNet-101、ResNet-152。
优势：在ImageNet等大型数据集上表现优异，训练稳定。

2. DenseNet（Densely Connected Convolutional Networks）

特点：每一层都与前面的所有层直接连接，增强了特征复用。
代表模型：DenseNet-121、DenseNet-169、DenseNet-201。
优势：参数更少，特征传递和梯度流动更好。

3. EfficientNet

特点：通过复合缩放方法（compound scaling）系统地缩放网络的深度、宽度和分辨率。
代表模型：EfficientNet-B0到EfficientNet-B7。
优势：在参数量和计算量较少的情况下，达到了更高的准确率。

4. MobileNet

特点：设计轻量级网络，适用于移动和嵌入式设备。
代表模型：MobileNetV1、MobileNetV2、MobileNetV3。
优势：计算效率高，适合资源受限的环境。

二、变换器（Transformer）架构

1. Vision Transformer（ViT）

特点：将图像分割成固定大小的patches，然后将这些patches作为输入序列，使用标准的Transformer架构进行处理。
优势：在大规模数据集上训练时，能够达到或超过传统CNN的性能。

2. Swin Transformer

特点：引入了层次化的窗口注意力机制，能够在不同尺度上捕捉图像特征。
优势：在多个视觉任务中表现出色，包括图像分类、目标检测和语义分割。

三、混合架构

1. ConvNeXt

特点：结合了CNN和Transformer的优点，采用了现代化的设计理念，如LayerNorm、GELU激活函数等。
优势：在保持CNN高效性的同时，提升了模型的性能。

2. CoAtNet（Convolutional Attention Network）

特点：结合了卷积和注意力机制，利用卷积捕捉局部特征，利用注意力机制捕捉全局特征。
优势：在多个视觉任务中表现优异，具有较好的泛化能力。

四、自监督学习和对比学习

1. SimCLR（Simple Framework for Contrastive Learning of Visual Representations）

特点：通过对比学习方法，在没有标签的数据上进行预训练，然后在有标签的数据上进行微调。
优势：能够在没有大量标注数据的情况下，学习到高质量的特征表示。

2. BYOL（Bootstrap Your Own Latent）

特点：通过自我监督学习方法，不需要负样本对，直接优化特征表示。
优势：在多个数据集上表现出色，训练稳定。

五、大规模预训练学习

1. CLIP（Contrastive Language–Image Pretraining）

特点：通过对比学习，将图像和文本嵌入到同一个向量空间中，能够处理多模态任务。
优势：在多个下游任务中表现优异，包括图像分类、图像生成、文本生成等。

2. DINO（Self-Distillation with No Labels）

特点：通过自监督学习方法，利用教师-学生模型进行特征提取。
优势：在没有标签的数据上进行预训练，然后在有标签的数据上进行微调，表现出色。

总结
目前，图像分类领域的最先进算法主要集中在深度学习模型，特别是卷积神经网络（CNN）和变换器（Transformer）架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求，可以考虑使用Vision Transformer（ViT）或Swin Transformer等变换器架构；对于资源受限的环境，可以考虑使用MobileNet或EfficientNet等轻量级模型。

关注

23
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

许许前进 CSDN认证博客专家 CSDN认证企业博客

码龄5年

25: 原创

118万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

713: 积分

309: 粉丝

456: 获赞

4: 评论

465: 收藏

私信

关注

热门文章

分类专栏

最新评论

混合现实技术文档：关键技术 (4)
ha_lydms: 给作者大大点赞！这是一篇优质好文，对我学习又有了信道帮助哦，复习好物，三连值得，内容详细易懂
混合现实技术文档：关键技术 (4)
征途黯然.: 这篇文章对于混合现实技术文档关键技术4的解释非常生动，更深入的了解。
混合现实技术文档：关键技术 (4)
全栈小5: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！【混合现实技术文档：关键技术 (4)，博主这篇文章，值得一看】
混合现实技术文档：关键技术 (4)
CSDN-Ada助手: 恭喜用户发布了第四篇博客“混合现实技术文档：关键技术 (4)”！持续创作是提升自己技术水平的重要途径，相信您的分享能够帮助更多人了解混合现实技术。希望在接下来的创作中，可以结合实际案例或者个人经验，让读者更加深入地理解这些关键技术。加油！期待您更多精彩的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
混合现实技术文档：关键技术 (2)
CSDN-Ada助手: 非常感谢您分享关于混合现实技术文档的第二篇博客！您对于应用程序在体验开始时对空间映射数据进行分析的说明非常详细，让读者能够更好地理解如何提高数据的完整性和质量。除了您提到的内容，值得注意的是在扫描过程中，用户还需要注意保持稳定的手部动作，以避免数据的失真。此外，了解如何正确使用扫描设备的参数也是非常重要的技能，可以帮助用户更高效地完成扫描任务。期待您的更多精彩分享，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。