【计算机视觉课程】布朗大学课程:计算图形学(CSCI1950-G Computational Photography)

一、背景

近期一直再补图像处理方面的基础,偶然看到了布朗大学的计算机视觉课程,所以就计划把这些课程的核心内容简单记录下来,也顺便为后边学习的人提供一个参考,下面直接开始。

二、课程介绍

这门课程是布朗大学2010年的春季课程,布朗大学毕竟也是藤校之一,而且这门课程的内容还挺丰富的,所以非常值得一看。这么课程的参考书所用的是《Computer Vision: Algorithms and Applications》,作者:Richard Szeliski,课程内容主要以这部分书为主。课程的主要链接为:http://cs.brown.edu/courses/csci1950-g/

另外,由于课程资源下载特别慢,所以我把这本参考书还有课程所有ppt都打包在了一起,上传到了CSDN上,如果需要的话可以自己下载,下载地址:https://download.csdn.net/download/z704630835/11135666。因为这部分工作自己也付出了一些时间来整理,所以就收点积分吧。

下面开始介绍主要课程内容。个别课程没有ppt,所以目前没有讲解。

三、课程内容

基础部分

1. Introduction to computational photography(计算图形学介绍,对应参考书第一章)

第一节主要讲了一点点计算机视觉的历史和这门课老师的介绍,老师是James Hays,他是在MIT做的博后,主要研究图形学和视觉,一个是IM2GPS(类似于给你一张图片,你找出这张图片是在哪拍的),一个是目标检测。

2. Cameras and optics(相机和光学,对应参考书第二章)

第二节主要讲了小孔成像,还有相机的一些工作原理,聚焦和失焦的现象。还有镜头的一些相关知识,比如光圈的大小,瞬时视场角FOV,扭曲等现象。

3. Capturing light, man vs machine(人和机器对光线的捕捉,对应参考书第二章)

第三节主要讲了传感器形成图像的方式(扫描),采样量化,人眼结构,电磁光谱,颜色空间(RGB和HSV),图像下采样,图像高斯滤波,图像金字塔。

同时这一章节布置了project #1:如何比较RGB通道?

4. Point Processing and DCT/JPEG(点处理及图像格式,对应参考书第三章第一节)

点处理包括两类,一类是滤波filter,一类是扭曲war。点处理包括图像拉伸,反转,直方图均衡化。

另外还DCT(离散余弦变换)是用于JPEG图像的压缩方法。这节大概就讲了这些。

5. Sampling and reconstruction(采样和重建,对应参考书第三章第二节)

采样过程是从连续值到离散值的过程,不仅可以对图像进行采样,也可以对音频进行采样。

重建就是将离散值模拟为连续值得过程,这里还介绍了频谱混叠(以前学信号处理的时候还遇到过),交叉相关滤波,高斯滤波,均值滤波,卷积操作,线性滤波,模糊,锐化,边缘检测,梯度,中值滤波等(这节的所有概念都是从信号的角度来描述的)。

6. Frequency Domain(频域,对应参考书第三章第三节)

提到频域就不得不说傅里叶变换了(数字信号处理里面的核心内容),另外还涉及到卷积,低通,高通,高斯金字塔,拉普拉斯金字塔,图像梯度(这里还蛮重要的,今后用的也挺多),噪声的处理方法,形态学处理及其预备知识(膨胀腐蚀,开运算闭运算),形态学算法提取边界信息。

7. Blending and compositing(图像融合,对应参考书第九章第三节)

最近我自己也在做这方面的工作。image blending一般指的是图像融合,作者给了一个示意图:

而image compositing指的是图像合成,这两者稍微有一点点区别,下面是图像合成的示意图:

先来看看融合,融合需要一个trimap,也就是三分图,因为融合是一个病态过程,必须对该过程进行约束才能求解。作者介绍了融合的流程,还有一些融合的方法:金字塔融合,双波段融合,图割法,梯度融合, 无缝融合。

8. Morphology(形态学,对应参考书第三章第二节)

其实第6节提到了,这节课又过了一遍。

9. Image Warping(图像校正,对应参考书第三章第五节)

这节主要针对六种图像扭曲进行了数学校正的公式推导,先来看看六种扭曲:

这六种扭曲实在不知道该怎么用专业术语来翻译(以前遥感里学过由于飞行器姿态问题产生的扭曲包括,俯仰,翻滚,航偏,和这里的几乎不对应),之后是对这六种变形的进一步数学推导。

图像校正的方式有两种,一种是前向校正(Forward warping),一种是逆向校正(Inverse warping),计算待校正图像和原图像之间的目标关系时,可以使用warping triangles方法。

10. Image morphing(图像渐变)

先来理解下什么是图像渐变,假如现在给定一张人脸和一张豹子脸:

那么渐变的效果则为:

渐变实际上是目标均值(object averaging),但这不是两张目标图像的平均,而是两个目标平均的图像。当然这个功能的实现,其实只用找到两个目标对应的关键点,然后计算关键点对应的平均位置,两张目标图像分别向这个平均位置做一个warping就可以了。

11. Matting and Transparancy(抠图和透明度,对应参考书第十章第四节)

我自己最近做了很多image matting方面的工作,先来看下理想的matting效果:

任何一张图都可以表示为: I = F * α + B * (1 - α) ,其中I表示一张图片,F表示图像的前景,可以理解为我们想要扣出来的目标区域,B表示背景,可以理解为我们不需要的区域,α表示透明度。image matting其实要解决的就是求解F, B, α这三个参数,然而只有一个方程的约束,那么我们求得的解必然是病态的,因此实际做的过程中还需要trimap进行进一步约束。当然这也是后话了,关于如何制作trimap,一直是问题的关键,好在现在有一些不错的方法可以来制作。深度学习在这方面也有一定的成果了,最新的可以参考2017年提出的deep image mattiing。

关于透明度,其实是image matting的进一步加难。因为有的时候需要考虑到透明物体发生光线折射的问题,比如:

此时,上面的方程变化为了:

相当于增加了一个光线参数φ,所以难度自然更大一些,目前的解决办法一般是高频光流法(High Frequency Illumination)

12. Modeling light and lightfields(模型光线,对应参考书第十三章第三节)

这一章没有过多要介绍的。

13. Homographies and mosaics(图像拼接和镶嵌,对应参考书第九章第一节)

这一章节对图像镶嵌和拼接做了介绍,要做图像的镶嵌和拼接,其实关键还是在于特征点的匹配。比如多张图片的拼接:

虽然多张图片能够拼接,但是拼接好的图片变形非常严重,这里涉及到了球面变换:

14. Automatic image correspondence(自动图像响应,对应参考书第九章第一节)

15. RANSAC and mosaic wrapup(随机样本匹配和马赛克,对应参考书第九章第一节)

这节很多内容和第13节的内容一样,不过这节更偏向于RANSAC算法。放一张照片吧:

16. Capturing and compressing high dynamic range(捕捉和高动态范围压缩,对应参考书第十章第二节)

我们一般看到的现实世界的灰度值范围远远大于[0, 255],而我们的图像一般用[0, 255]范围表示,这时候就要用的HDR。

17. Local tone mapping and bilateral filters(局部映射和双边滤波)

18. Image-based lighting

这一章主要讲的还是环境光线的问题。

处理好了光线场,就可以做出很多不可思议的图:

19. Photo quality assessment

这节比较轻松,主要讲如何通过摄影获得高质量的图像,核心就是构图:

数据驱动方法Data-driven methods部分

20. video and texture

这节涉及到的概念包括:markov链,纹理。内容比较少。

21. texture synthesis and filling

这部分内容我感觉就是poisson image editing(泊松融合):

22. Scene Completion

23. leveraging the Internet

这一部分主要涉及到的概念包括:自动上色(Automatic Colorization Result),自动转向(Automatic Orientation),场景描述子(Gist Scene Descriptor),场景匹配(Scene matching ),SIFT(Scale Invariant Feature Transform),方向估计(Orientation assignment)

24. features and image comparisons

这一节内容是im2gps的基础内容,首先非常直白的提出,如何比较两张图片是否相似或者一致,前面提到了SIFT可以用于特征点的检测,这一节又提出了用直方图的思想来比较两张图,比如像这样:

既然能够用直方图来比较两幅图是否类似或一致,那这个思路就应该可以用于im2gps中,我们以Flickr(一个摄影论坛,不过需要翻墙才能登陆)上的照片为例,Flickr上全球的照片分布为:

在im2gps具体做的过程中,我们还需要补充颜色信息和纹理信息,比如下面这张图片的识别结果:

再比如下面这张建筑:

对此,有人提出疑问,im2gps只能识别典型地标吗?它只能进行场景分类吗?它的性能是否依赖于测试集?

经过进一步的测试得到结论,im2gps识别正确的结果中,有58%是典型地标建筑:

当然,单纯用im2gps的精度很低,添加一些image features之后的精度会大大提高:

最后的效果会稍微好点:

对比仅仅使用im2gps,精度能有很大程度的提升:

25. more features with im2gps

这个还挺有意思的,根据图片来判断是在哪里拍摄的,最近这几年好像也有了这方面的研究,不过研究还是挺少的,下面给张有意思的图:

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值