计算机视觉的原理以及常见模型

典型的计算机视觉任务:

文生图

图像分类:构建分类器

1.传统的机器学习方法:特征提取+分类器

  常见特征提取:颜色直方图,纹理特征,边缘检测等 组合分类器(支持向量积,随机森林,k最近邻)对提取特征进行分类,实现图像分类

2.深度学习方法:卷积神经网络-经过多层卷积和池化操作,提取图像的局部特征和上下文信息。最后通过全连接层和softmax激活函数,将提取特征映射到不同类别并输出分类结果

常见算法:1.LeNe-5:最早,手写数字识别

2.AlexNet:里程碑,引入深度学习,使用多个卷积层和池化层

3.VGGNet:较深的网络结构和小尺寸卷积核,具有更好的特征提取能力

4.GoogleNet:引入Inception 模块,减少参数量

Inception:不同层需要捕捉不同的尺度信息,一些可能捕捉局部信息,使用较小卷积核,一些需要捕捉全局信息,使用较大卷积核,Inception 并行使用不同的卷积核核池化操作,允许网络在同一层内学习到不同尺度信息

1*1卷积降维:对通道上数据进行融合,

5.ResNet:残差学习思想,解决深层网络难以训练的问题

残差学习:网络过深后,理论上性能应该上身,但是因为梯度消失或者梯度爆炸问题以及增加的层数使得网络更难以训练,残差学习的思想帮助ResNet有效地解决这些问题

进行残差映射,传统直接学习目标映射H(x),ResNet 中学习残差映射H(X)-x

定位:单个对象位置

目标检测:同时包含定位和分类

目标识别:找出图像中该对象的实例

实例分割:

目标追踪:连续视频帧作为输入

实例:人脸识别:

1.使用图像处理算法和模型,检测出人脸区域

2.人脸对齐:对检测到的人脸进行对其,以保证后续的特征提取和匹配的准确性

3.特征提取:通常使用深度学习模型来学习和提取有代表性的特征

4.特征匹配:将提取到的特征与已知人脸模板进行对比,计算相似度或者距离判断是否匹配

5.决策阈值

区分计算机视觉:

1.图像处理:处理原始图像以应用某种变换,其目标是改进图像或将其作为某项特定任务的输入,计算机视觉的目标是描述和解释图像

2.机器视觉:计算机视觉用于执行某些特定工作的特例,例如检测生产线上的容器是否干净

3.计算机视觉:解决更复杂问题,例如人脸识别,详细的图像分析(可帮助视觉搜索),或者生物识别方法

医疗行业:医疗图像分析,此类系统对MRI图像,CT扫描图像和X光图像进行分析,找出肿瘤等异常

挑战:图像和视频目标检测,这包括对不同数量的对象进行定位和分类

原理:

深度学习方法和技术深刻改变了计算机视觉领域

监督机器学习

1.利用CNN构建计算机视觉模型的通用方法:

1.创建一个包含标注图像的数据集或者使用现有的数据集,标注可以是图像类别,边界框和类别对,或者对图像中每个感兴趣的对象进行像素级分割

2.从每张图像种提取与待处理任务相关的特征,这是建模的重点,例如用来识别人脸的特征,基于人脸标准的特征与用来识别老板有经典或者人体器官的特征存在

3.基于特征训练深度学习模型,训练意为着向机器学习模型输入很多图像,然后模型基于特征学习如何解决问题

4.使用不同于所用数据的图像评估模型,测试训练模型的准确率

R-CNN 

1.利用区域候选方法提取可能的对象

2.使用CNN识别每个区域中的特征

3.利用支持向量机对每个区域进行分类

典型特征提取难点:1.难以提取                ----解决:深度学习特征描述,CNN

2.计算的数据量巨大

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值