openmmlab AI实践课程-第二课

z19990104

于 2023-02-03 16:44:40 发布

阅读量56

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z19990104/article/details/128870218

版权

一图像分类简介

（1）分类目标：给定一张图片，识别图像中的物体是什么

图一：分类图示

（2）机器学习过程

收集数据 $\rightarrow$ 定义模型 $\rightarrow$ 训练 $\rightarrow$ 预测

局限：机器学习算法善于处理低维、分布相对简单的数据。

二传统图像处理方法

方向梯度直方图 （Histogram of Oriented Gradients）在局部区域统计像素梯度的方向的分布，将图像映射成一个相对低维的特征向量，同时保留足够识别物体的信息。

不足之处：受限于人类的智慧，手工设计特征更多局限在像素层面的计算，丢失信息过多，在视觉任务上的 性能达到瓶颈。

三深度学习简介
深度学习分为有监督学习、无监督学习、半监督学习

深度学习模型训练需要数据集、定义损失函数、定义优化器

四基于深度学习的图像处理

（1）卷积神经网络发展

a.AlexNet

• 第一个成功实现大规模图像的模型，在 ImageNet 数据集上达到 ~85% 的 top-5 准确率

• 5 个卷积层，3 个全连接层，共有 60M 个可学习参数

• 使用 ReLU 激活函数，大幅提高收敛速度

• 实现并开源了 cuda-convnet ，在 GPU 上训练大规模神经网络在工程上成为可能

图二：ALexNet网络结构

b.VGG-19:ImageNet Top-5 准确率：92.7%

图三 VGG网络

c.resnet网络

为解决模型层数增加到一定程度后，分类正确率不增反降而提出深度残差网络。

图四 resnet网络

（2）神经结构搜索

基本思路 ：借助强化学习等方法搜索表现最佳的网络

代表工作 ：NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等

（3）transformer结构

图五 vision transformer

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。