【计算机视觉课程】布朗大学课程：计算图形学（CSCI1950-G Computational Photography）

最新推荐文章于 2024-04-26 09:48:16 发布

全部梭哈迟早暴富

最新推荐文章于 2024-04-26 09:48:16 发布

阅读量1.7k

点赞数 3

分类专栏：数据集制作与课程收集文章标签：计算机视觉

本文链接：https://blog.csdn.net/z704630835/article/details/89419336

版权

数据集制作与课程收集专栏收录该内容

8 篇文章 2 订阅

订阅专栏

一、背景

近期一直再补图像处理方面的基础，偶然看到了布朗大学的计算机视觉课程，所以就计划把这些课程的核心内容简单记录下来，也顺便为后边学习的人提供一个参考，下面直接开始。

二、课程介绍

这门课程是布朗大学2010年的春季课程，布朗大学毕竟也是藤校之一，而且这门课程的内容还挺丰富的，所以非常值得一看。这么课程的参考书所用的是《Computer Vision: Algorithms and Applications》，作者：Richard Szeliski，课程内容主要以这部分书为主。课程的主要链接为：http://cs.brown.edu/courses/csci1950-g/。

另外，由于课程资源下载特别慢，所以我把这本参考书还有课程所有ppt都打包在了一起，上传到了CSDN上，如果需要的话可以自己下载，下载地址：https://download.csdn.net/download/z704630835/11135666。因为这部分工作自己也付出了一些时间来整理，所以就收点积分吧。

下面开始介绍主要课程内容。个别课程没有ppt，所以目前没有讲解。

三、课程内容

基础部分

1. Introduction to computational photography（计算图形学介绍，对应参考书第一章）

第一节主要讲了一点点计算机视觉的历史和这门课老师的介绍，老师是James Hays，他是在MIT做的博后，主要研究图形学和视觉，一个是IM2GPS（类似于给你一张图片，你找出这张图片是在哪拍的），一个是目标检测。

2. Cameras and optics（相机和光学，对应参考书第二章）

第二节主要讲了小孔成像，还有相机的一些工作原理，聚焦和失焦的现象。还有镜头的一些相关知识，比如光圈的大小，瞬时视场角FOV，扭曲等现象。

3. Capturing light, man vs machine（人和机器对光线的捕捉，对应参考书第二章）

第三节主要讲了传感器形成图像的方式（扫描），采样量化，人眼结构，电磁光谱，颜色空间（RGB和HSV），图像下采样，图像高斯滤波，图像金字塔。

同时这一章节布置了project #1：如何比较RGB通道？

4. Point Processing and DCT/JPEG（点处理及图像格式，对应参考书第三章第一节）

点处理包括两类，一类是滤波filter，一类是扭曲war。点处理包括图像拉伸，反转，直方图均衡化。

另外还DCT（离散余弦变换）是用于JPEG图像的压缩方法。这节大概就讲了这些。

5. Sampling and reconstruction（采样和重建，对应参考书第三章第二节）

采样过程是从连续值到离散值的过程，不仅可以对图像进行采样，也可以对音频进行采样。

重建就是将离散值模拟为连续值得过程，这里还介绍了频谱混叠（以前学信号处理的时候还遇到过），交叉相关滤波，高斯滤波，均值滤波，卷积操作，线性滤波，模糊，锐化，边缘检测，梯度，中值滤波等（这节的所有概念都是从信号的角度来描述的）。

6. Frequency Domain（频域，对应参考书第三章第三节）

提到频域就不得不说傅里叶变换了（数字信号处理里面的核心内容），另外还涉及到卷积，低通，高通，高斯金字塔，拉普拉斯金字塔，图像梯度（这里还蛮重要的，今后用的也挺多），噪声的处理方法，形态学处理及其预备知识（膨胀腐蚀，开运算闭运算），形态学算法提取边界信息。

7. Blending and compositing（图像融合，对应参考书第九章第三节）

最近我自己也在做这方面的工作。image blending一般指的是图像融合，作者给了一个示意图：

而image compositing指的是图像合成，这两者稍微有一点点区别，下面是图像合成的示意图：

先来看看融合，融合需要一个trimap，也就是三分图，因为融合是一个病态过程，必须对该过程进行约束才能求解。作者介绍了融合的流程，还有一些融合的方法：金字塔融合，双波段融合，图割法，梯度融合，无缝融合。

8. Morphology（形态学，对应参考书第三章第二节）

其实第6节提到了，这节课又过了一遍。

9. Image Warping（图像校正，对应参考书第三章第五节）

这节主要针对六种图像扭曲进行了数学校正的公式推导，先来看看六种扭曲：

这六种扭曲实在不知道该怎么用专业术语来翻译（以前遥感里学过由于飞行器姿态问题产生的扭曲包括，俯仰，翻滚，航偏，和这里的几乎不对应），之后是对这六种变形的进一步数学推导。

图像校正的方式有两种，一种是前向校正（Forward warping），一种是逆向校正（Inverse warping），计算待校正图像和原图像之间的目标关系时，可以使用warping triangles方法。

10. Image morphing（图像渐变）

先来理解下什么是图像渐变，假如现在给定一张人脸和一张豹子脸：

那么渐变的效果则为：

渐变实际上是目标均值(object averaging)，但这不是两张目标图像的平均，而是两个目标平均的图像。当然这个功能的实现，其实只用找到两个目标对应的关键点，然后计算关键点对应的平均位置，两张目标图像分别向这个平均位置做一个warping就可以了。

11. Matting and Transparancy（抠图和透明度，对应参考书第十章第四节）

我自己最近做了很多image matting方面的工作，先来看下理想的matting效果：

任何一张图都可以表示为： I = F * α + B * （1 - α），其中I表示一张图片，F表示图像的前景，可以理解为我们想要扣出来的目标区域，B表示背景，可以理解为我们不需要的区域，α表示透明度。image matting其实要解决的就是求解F, B, α这三个参数，然而只有一个方程的约束，那么我们求得的解必然是病态的，因此实际做的过程中还需要trimap进行进一步约束。当然这也是后话了，关于如何制作trimap，一直是问题的关键，好在现在有一些不错的方法可以来制作。深度学习在这方面也有一定的成果了，最新的可以参考2017年提出的deep image mattiing。

关于透明度，其实是image matting的进一步加难。因为有的时候需要考虑到透明物体发生光线折射的问题，比如：

此时，上面的方程变化为了：

相当于增加了一个光线参数φ，所以难度自然更大一些，目前的解决办法一般是高频光流法（High Frequency Illumination）

12. Modeling light and lightfields（模型光线，对应参考书第十三章第三节）

这一章没有过多要介绍的。

13. Homographies and mosaics（图像拼接和镶嵌，对应参考书第九章第一节）

这一章节对图像镶嵌和拼接做了介绍，要做图像的镶嵌和拼接，其实关键还是在于特征点的匹配。比如多张图片的拼接：

虽然多张图片能够拼接，但是拼接好的图片变形非常严重，这里涉及到了球面变换：

14. Automatic image correspondence（自动图像响应，对应参考书第九章第一节）

15. RANSAC and mosaic wrapup（随机样本匹配和马赛克，对应参考书第九章第一节）

这节很多内容和第13节的内容一样，不过这节更偏向于RANSAC算法。放一张照片吧：

16. Capturing and compressing high dynamic range（捕捉和高动态范围压缩，对应参考书第十章第二节）

我们一般看到的现实世界的灰度值范围远远大于[0, 255]，而我们的图像一般用[0, 255]范围表示，这时候就要用的HDR。

17. Local tone mapping and bilateral filters（局部映射和双边滤波）

18. Image-based lighting

这一章主要讲的还是环境光线的问题。

处理好了光线场，就可以做出很多不可思议的图：

19. Photo quality assessment

这节比较轻松，主要讲如何通过摄影获得高质量的图像，核心就是构图：

数据驱动方法Data-driven methods部分

20. video and texture

这节涉及到的概念包括：markov链，纹理。内容比较少。

21. texture synthesis and filling

这部分内容我感觉就是poisson image editing（泊松融合）：

22. Scene Completion

23. leveraging the Internet

这一部分主要涉及到的概念包括：自动上色（Automatic Colorization Result），自动转向（Automatic Orientation），场景描述子（Gist Scene Descriptor），场景匹配（Scene matching ），SIFT（Scale Invariant Feature Transform），方向估计（Orientation assignment）

24. features and image comparisons

这一节内容是im2gps的基础内容，首先非常直白的提出，如何比较两张图片是否相似或者一致，前面提到了SIFT可以用于特征点的检测，这一节又提出了用直方图的思想来比较两张图，比如像这样：

既然能够用直方图来比较两幅图是否类似或一致，那这个思路就应该可以用于im2gps中，我们以Flickr（一个摄影论坛，不过需要翻墙才能登陆）上的照片为例，Flickr上全球的照片分布为：

在im2gps具体做的过程中，我们还需要补充颜色信息和纹理信息，比如下面这张图片的识别结果：

再比如下面这张建筑：

对此，有人提出疑问，im2gps只能识别典型地标吗？它只能进行场景分类吗？它的性能是否依赖于测试集？

经过进一步的测试得到结论，im2gps识别正确的结果中，有58%是典型地标建筑：

当然，单纯用im2gps的精度很低，添加一些image features之后的精度会大大提高：

最后的效果会稍微好点：

对比仅仅使用im2gps，精度能有很大程度的提升：

25. more features with im2gps

这个还挺有意思的，根据图片来判断是在哪里拍摄的，最近这几年好像也有了这方面的研究，不过研究还是挺少的，下面给张有意思的图：

啊

全部梭哈迟早暴富

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
【计算机视觉课程】布朗大学课程：计算图形学（CSCI1950-G Computational Photography）

一、背景近期一直再补图像处理方面的基础，偶然看到了布朗大学的计算机视觉课程，所以就计划把这些课程的核心内容简单记录下来，也顺便为后边学习的人提供一个参考，下面直接开始。二、课程介绍这门课程是布朗大学2010年的春季课程，布朗大学毕竟也是藤校之一，而且这门课程的内容还挺丰富的，所以非常值得一看。这么课程的参考书所用的是《Computer Vision: Algorithms and Ap...
复制链接

扫一扫