计算机视觉与深度学习-前言

以下内容是自己学习北京邮电大学鲁鹏副教授计算机视觉与深度学习课程(A02)的一些笔记,笔者能力有限,如有错误还望各位大佬在评论区批评指正 。

先贴一下课程的官网:CV-XUEBA

1、什么是计算机视觉?

计算机视觉(computer vision)是一门研究如何使机器“看”的科学,也就是通过摄像头的捕获,再经过计算机处理,输出解释。计算机视觉最重要的是摄像头对采集图像的理解。

2、计算机视觉的目标(难点)

如下图,人能很快的看出图中有火车,楼梯,而且火车是倾倒的,从图中信息可以得出这显然是一场灾难。但是在机器看来这是一些数据矩阵,既然我们要让机器像人一样能够理解图像,我们就要让机器能看到图像中的组成元素,从而理解图像要表达的含义。也就是说,计算机视觉的目标是跨越“语义鸿沟”建立像素到语义的映射。

例如一张300*400的灰度图,每个像素点都是0-255的数字所代表的色阶,对机器来说是12000个像素点,如果每个像素点用1byte表示就是12000byte,机器需要从这12000个byte中像人类一样理解这张图所表达的含义。这就是从byte到图像语义,计算机视觉的难点就在这。

目前主要分为两个研究领域:三维信息获取以及视觉识别。三维信息获取主要侧重空间的环境理解,而视觉识别侧重于图像的语义信息。

3、图像分类

3.1 什么是图像分类任务?有哪些应用场合?

图像分类任务是计算机视觉中的核心任务,其目标是根据图像信息中所反映的不同特征,把不同类别的图像分开。也就是从已知的类别标签集合中为给定的输入图片选定一个类别标签。在实际操作中,我们对一幅图片打标签时,是提前知道标签列表的。

图像分类的应用范围非常广,例如网购时心仪的物品语言文字不好描述,拍照上传就能找到,某种生物没见过,我们同样可以把照片上传,就可以得到一个满意的答案,去到一个城市时路牌的识别等。

(这里需要特别强调一下图像识别与图片搜索。图片识别需要提前知道物体是什么,改变角度等后也能准确识别,而图片搜索只需要将图片与网络上的图片进行比对。)

3.2 图像分类的难点

我们前面已经知道图像识别要做的就是----跨越“语义鸿沟”建立像素到语义的映射。那么它具体难在哪呢?

3.2.1 视角

从这副图可以很直观的反应视角的问题。在我们采集样本的时候,很可能一个视角问题就影响我们后期的识别准确度,同样的我们也可以利用这一点来扩充我们的数据集,叫做数据增强。需要注意的是,同样的对于下面描述的“难点”都可以用来扩充我们的数据集。

3.2.3 光照

在这一堆企鹅石膏中,我们可以看到由于光照的原因,最左边的图中有白色石膏呈现黑色,中间的图有企鹅呈现灰色。如果我们在设计的时候,识别的算法没有考虑这一点,那么算法在最左边的图就会挂掉。我们肉眼所看到的色彩等都是光照反射过来的,所以光照的变化就会引起物体整体颜色的变化,所以我们在优化算法的时候就要考虑这一点,让我们的算法能够抗击光照不同的环境。

3.2.3 尺度

假如我们在设计系统的时候是按照姚明的身高去做的,那么笔记本应该在图片中的占比较小。但是在实际应用中,很有可能会碰到左边的情况,笔记本对于他来说是比较大的,我们的系统在这时就很有可能会挂掉。所以尺度是一个相对的概念,反映到我们的视觉系统中,就是人在摄像头很近的位置或者人离摄像头较远,我们的系统都应该能够准确的识别出。

3.2.4 遮挡

遮挡在视觉领域是比较常见的,比如自动驾驶,你在路边被一个垃圾桶挡住了下半身,或者前面的小电驴挡住部分斑马线。这个时候如果视觉系统不能正确的发挥作用,那后果可能很严重。最左边的图更加狠了,猫猫只露出了一条尾巴,对于我们人来说,识别它比较简单,那我们的系统能识别吗?

3.2.5 形变

如果我们在设计的时候,把我们固有对猫的印象----四只脚朝地,抬着尾巴走路等植入到系统中,这是一个很常见的系统。但是当我们的系统在面对这些猫时,我们发现有的猫是坐着的,有的是躺着的,还有是站着的,我们常说猫是液体动物,这让我们的识别更加困难了,所以很显然系统一上来就挂了。我们做识别通常都是通过构建模型,把各种姿势的猫的模型建立出来。但是这些形变描述起来很困难,在深度学习之前,识别猫是很困难的,因为我们描述都是通过提取一些简单特征,组合起来,而动物的形变是很复杂的,在描述的时候是很困难的,但是对于我们的深度学习而言这已经不是问题。后面会再介绍。

3.2.6 类内形变

图片中的凳子形态各异,但是我们都能分辨出这是凳子。我们可以通过触觉感受,我们坐上去能够稳定并且我们可以休息,那么我们就可以认为这是凳子,但是对于系统而言,他可能没有触觉,如果仅靠视觉识别困难的。我们现在任然在思考人的思维,为什么可以这样认为它是凳子。

 3.2.7 背景杂波

 当物体与背景相融合的时候,识别起来比较困难,因此这些背景对识别而言就相当于是噪声。比如说树林里识别越共(滑稽)。

 3.2.8 运动模糊

我们很高兴做了一个鸟的识别系统,拉出去试试,但是碰到这幅图。由于拍摄的时候出现了运动模糊,在给定的快门时间内,鸟并没有禁止,使得每个像素捕获了鸟多个位置的信息,那么我们通过这些像素去理解图片信息的时候就会有困难。这个系统可能就挂了。这是由于外界因素引起的,并不是系统的问题。

那么我们可以通过提高拍摄硬件----换高速摄影机,或者通过一些算法进行运动恢复。

3.2.9 类别繁多

 人大概认识一万到三万的物体,我们也希望系统能认识这么多物体,但是要识别的越多,分类器出错的可能性就越高,要做的识别系统也越难。当然我们设计的时候要按照实际的问题去设计。

*再次申明这只是笔者自学课程的一些笔记,想着学了留下点东西,限于笔者能力有限,如有错误还望大神指正。如果觉得笔者水平太低大可当作饭后消遣。希望我们在视觉学习的道路上勇往直前!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
[本课程属于AI完整学习路线套餐,该套餐已“硬核”上线,点击立即学习!] 【为什么要学习深度学习和计算机视觉?】 AI人工智能现在已经成为人类发展中最火热的领域。而计算机视觉(CV)是AI中最热门,也是落地最多的一个应用方向(人脸识别,自动驾驶,智能安防,车牌识别,证件识别)。所以基于人工智能的计算视觉行业必然会诞生大量的工作和创业的机会。如何能快速的进入CV领域,同时兼备理论基础和实战能力,就成了大多数学习者关心的事情,而这门课就是因为这个初衷而设计的。 【讲师介绍】 CHARLIE 老师 1、人工智能算法科学家2、深圳市海外高层次人才认定(孔雀人才)3、美国圣地亚哥国家超算中心博士后4、加利福尼亚大学圣地亚哥全奖博士5、参与美国自然科学基金(NSF)及加州能源局 (CEC)资助的392MWIVANPAH等智慧电网项目6、21篇国际期刊文章(sci收录17篇),总引用接近10007、第一作者发明专利11份【推荐你学习这门课的理由:知识体系完整+丰富学习资料】 1、本课程总计9大章节,是一门系统入门计算机视觉的课程,未来将持续更新。2、课程从计算机视觉理论知识出发,理论结合实战,手把手的实战代码实现(霍夫变换与模板匹配,AlexNet OCR应用,VGG迁移学习,多标签分类算法工程) 3、带你了解最前沿技术,各类型算法的优点和缺点,掌握数据增强,Batchnormalization, Dropout,迁移学习等优化技巧,搭建实用的深度学习应用模型 4、学习完后,你将具有深度学习与计算视觉的项目能力,比如大学生学完可以具备独立完成机器视觉类毕业设计的能力,在求职过程中可以体系化的讲解机器视觉核心知识点,初步达到人工智能领域机器视觉工程师的水平 【学完后我将达到什么水平?】 1、零基础入门计算视觉,学习掌握并应用从经典图像处理到深度学习分类任务的要点知识 2、掌握数据增强,迁移学习等优化技巧,搭建实用的深度学习应用模型 3、学习完课程,可以独立应用多个经典算法和深度学习算法 4、以大学毕业设计,面试找工作为目标,手把手带大家编程,即使没有太多计算视觉的背景知识也可以循序渐进完成课程,获得实战项目的经验 【面向人群】 1、对AI感兴趣,想要系统学习计算机视觉的学员 2、需要毕业设计的大学生 3、做图像分析或相关数据分析的研究生 4、准备面试计算视觉和深度学习岗位的应聘者 5、希望在项目中引入计算视觉/深度学习技术的开发人员 【课程知识体系图】 【实战项目】
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值