深度学习——计算机视觉领域的应用

图像分类:
在2012年的ImageNet大赛上,Hinton和他的学生Alex使用cnn网络alexnet以超过第二名10%的成绩碾压第二名后,深度学习真正开始火热起来,从2012年的AlexNet(83.6%),到2013年的88.8%,再到2014年GoogLeNet的93.3%,最后到了2015年,微软提出的ResNet网络以96.43%的Top5正确率,达到了超过人类的水平(94.9%)的识别正确率。 

物体检测:

图像检测是指在分类图像的同时把物体用矩形框给圈起来。从2014年到2016年,基于深度学习的检测框架先后出炉,基于候选区域的深度学习方法(R-CNN——>SPPnet——>Fast R-CNN——>Faster R-CNN)框架, 基于回归的Y深度学习方法(YOLO——>SSSD)框架,在PASCAL VOC数据集上的检测平均精度(mAP),检测精度从R-CNN的53.3%,到Fast RCNN的68.4%,再到Faster R-CNN的75.9%,最新实验显示,Faster RCNN + Resnet101可以达到83.8%。一张图片的检测速度从RCNN模型的2秒多,到Faster RCNN的198毫秒,再到YOLO的6.5毫秒(其缺陷是精度较低,只有52.7%),最后的SSD的43.5毫秒(精度75.1%)。 

图像分割:

图像分割的目的是把图像中各种不同物体给用不同颜色分割出来,如下图所示,其平均精度(mIoU,即预测区域和实际区域交集除以预测区域和实际区域的并集),也从最开始的FCN模型的62.2%,到DeepLab框架的72.7%,再到牛津大学的CRF as RNN的74.7%。

图像标注:

图像标注的目的是给出一张图片,机器自动用一段文字描述它,如图中所示,图片中第一个图,程序自动给出的描述是“一个人在尘土飞扬的土路上骑摩托车”,第二个图片是“两只狗在草地上玩耍”。

 图像生成:

图像生成的目的是从文字来生成图片。如图6所示,第一列“一架大客机在蓝天飞翔”,模型自动根据文字生成了16张图片,“一群大象在干燥草地行走”,模型也相应的生成了对应图片。

总的来说:目前CNN在图像分类领域是做的最好的,其次是物体检测领域,图像分割、图像标准、图像生成这三个领域也在蓬勃发展,发展速度很快,各种paper层出不穷,发展空间巨大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值