GAMES 图形学系列笔记(十三)

22.时域调制 (V) | GAMES204-计算成像 - P1 - GAMES-Webinar - BV1cg411s7Cp

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ok啊各位同学晚上好啊,大家好,这个新年快乐,新的1年了,那其实我们之前也跨越了挺长时间的,之前孙老师也给大家讲了将近20期的内容对,所以今天其实本来是孙老师接着讲这个。

dlencoding的那啊临时孙老师有些事情,所以我这个临时代课一下啊,所以我刚拿到这个slice也没有多久,所以没有太多的时间好好准备,我稍微改动了一下,那希望大家能够体谅。

那今天我们就简单来学习下一些呃,campaign coding的一些内容,之前孙老师给大家讲了这个tuo flight,这种啊时间飞行的这个时欲编码的一种方式,那我们今天可能讲另一种方式。

更倾向于传统的这种photograph,就是大家日常摄影中,可能会经常遇到的一个motion blood的情况来讲,啊对,当然首先就是我们还是要代表。

仅代表我个人以及孙老师以及intelligent optics,该公众号的所有编辑,那非常感谢大家过去1年对我们公众号对啊,games 2004计算成像这门课的支持。

那也非常感激这个啊games的技术支持,就小朋友一直每次的这个课程,都在这边协助我们后台上的一些操作,非常感恩,那这里我们是啊,我这边用这个全息显示,就是之前提示给大家也讲过了这个vr a2 啊。

神经全息,neural hargraphic的这套系统,那这个是我们用neural hgraphic,g h算法,生成以及显示的真实的2d的全息显示图,彩色的,那也祝大家在新的1年里新年快乐,一切顺利。

ok那我们今天来说的是motion bro,那我相信同学们中,应该有很多的这个摄影爱好者对吧,那同时让你拿着个相机去拍摄图像的时候,你会经常遇到这样的一种模糊模式,我们称之为动态模糊。

它在自然界中其实是无处不在的,那有很多同学跟我一样会喜欢拍星轨,看起来非常浪漫啊,就像这幅图这样,但实际上新贵,它是天体相对地球运动的一个轨迹,那实际上如果我们认为地球是相对静止的。

那实际上所拍摄的星轨就是一种啊运动模糊,或者我们称之为动态模糊,从更啊学术一点问题,pda的定义来说,它实际上是静态场景或者一系列图片影像,电影动画中快速移动的物体所造成明显的痕迹。

但实际上所谓的多动态模糊,就是物体留下的痕迹在时间轴,那除了我们所讨论的这个呃新轨,那回到现实生活中,大家可能也会经常看到这样的一些摄影作品啊,比方说这个啊运动的汽车,那模糊的这个行人以及背景。

以及右边这幅啊所谓的这个高山流水,大概拍摄到,尤其很多人拍的这个瀑布的场景,这都是所谓的motion blood动态模糊,那我们今天就希望给大家考虑的是,如何去消除这样的动态模糊,那在过去15年中。

摄影领域,今天我们可能更多focus在这个photograph领域,而不是所谓的scientific image啊,通常来讲有两种,比较主流的消除motion blow的一个技术。

一种我们称之为叫做cody exposure photographic,就是所谓的啊编码曝光,对确切的说它是利用一种叫做flutter shelter,就是震颤快门的曝编码曝光技术。

这个我们后面会再展开,那另一种技术则是我们称之为motion,environautograph,就是使之为运动不变的摄影,那这个我们后面也有展开,我们先来看第一种啊,cody exposure。

再来回归一个更加生活中,或者大家经常看见各种paper里所常见的,所谓的摆拍的例子啊,这里我们有一个室内的场景,那有这个背景的部分和部分,固体和部分的物体,它实际上是相对固定的。

比如说我们背景的这幅画作,比方说我们桌面的这个水果啊,这瓶酒以及我们的茶壶,那前面我们有一个装置,这个洪流,这个cs他在啊的托盘,它是快速的移动的,那我们假设说我们可以快速的使这四个啊。

冠瓶装罐装的这个红牛,在这个横向进行向左或者向右的这样移动,那么拍摄的画面中就会出现所谓,前景的运动模糊,ok那如果我们截取这样一个呃,红牛的这个图像给他放大,你就会看到,实际上我们之前也讲过了,很。

宋老师给大家讲过了很多的这个啊,convolution的东西对吧,所以我们可以理解为说这个运动物体,它的模糊图像,实际上我们可以理解为是一个block conner,跟那个shop image。

就是大家看到的这个sharp,steady object image的一个卷积,那我们说之前我们考虑,假设这是一个从左至右的啊快速的移动,一个线性的。

所以我们可以理解为这个motion broker可以近似,等价于是一个dog function,就有点像我们图上显示的这样子,那我们来看成像模型啊,这个就是所谓的成像模型,我们说运动模糊的程度。

通常有哪些因素来决定吗,首先我们这里提到了啊一个运动,所以肯定有这个速度对吧,我们说速度决定了这个corner它的相对的方向,比方说我们说这个左右的移动的这个啊速度。

它决定了这个corner的方向是从横向展开的,那么另一方向另一个维度来讲,我们是capture图像,所以我们有曝光时间,就所谓的相机的快门门时间,那快门时间它其实相对而言。

决定了这个啊corner的宽度对吧,当然我们这里假定了是一个很基本的情况,也就是linear移动所产生的模糊,我们说运动的模糊就是所谓的motion的去模糊啊。

motion debring会有很多嗯问题,但实际上这里罗列了几个比较基本的挑战,尤其是在过去几年中啊,在传统的这个image processing领域,我们所遇到的问题。

那首先当然就是blocker是vocable,这个我们等会也会提到,第二就是black color annoa的,因为我们这里假定,我们知道它是从一个维度的线性移动,但实际场景中其实很难去获取准确的。

这个卷积核,因为卷积核它跟物体的远近啊,物体的运动速度的方向它都是有很大关系的,而实际场景中我们是很难获取这些信息的,除非有这个额外的这个感知,比方说我们的手机底下有各种的sensor。

去帮助你获取这个额外的信息,否则的话这个是比较困难的,第二就是说我们说这个bluka,它是跟场景中的物体是相关的,所以它可能会有不一样,也就是说场景中的各个物体,它有不同的运动方向,不同的运动速度。

而且有可能有这个固定的背景,像我们这幅场景对吧,所以很多算法实际上需要把恢复的部分,单独分割开来,否则的话就会变成一个嗯epose的问题,就好像这个例子,我们恢复了前景。

这个红牛罐装红牛的这个呃motion debring,但实际上我们造成了背景这些物体,包括这个画作,水果茶壶等等的背景的一个啊,how to say raining artifa。

或者是其他的这些degradation,这本身是一个非常困难的物体,因为我们需要将这个前景后景进行一些分隔,那总的来说,我们说运动和是我们回到第一个问题啊。

black color是invertible的,为什么,因为我们说motion blow会造成这个布洛克呢,它丢失了所谓的高频信息,而我们知道啊,如果要使这个图像这个操作更加vertable。

我们希望尽可能多的在频率域去保存信息,ok那我们来看一个啊,wd的运动模糊的具体例子啊,从数学上的表达,那左边我们是一个time to space的投影,我相信大家应该也比较熟悉这种表达模式的。

在上过了这么多课程之后啊,那如果我们对快门进行零一的调制,大家可以看到啊,这是纵轴1001这样一个调制方式,随着时间啊,那这笔的灰色区域呢,我们可以表示是快门的打开,也就是一个全透光。

然后下面这个图呢其实这个就是表征了啊,这个好像说怎么说呢,就像素的积分,强强度积分,这里我们的n表示是一个sn的运动物体,那么k表征的是它的布兰科勒的大小对吧,那如此我们就可以得到右边的这样一个。

线性系统的数学表达,这里我们有一个未知的,image x乘以一个表征corner的矩阵a,当然你要把分化到这样一个矩阵模式对角,那最终我们就可以得到一个模糊的图像b对吧。

那这里看到了大家是一个大写的later,红色的f那我们看到blood的图像会有一些重影,这个并且这些重影不是连续的,那这个就是考虑到我们左边这个对应的,1001的这样一个encoding的曝光模式下。

它所带来的这个效果,这个就是所谓的一个编码的过程啊,ok那我们说嗯曝光编码或者说编码曝光。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它背后的关键思想就是temperencoding,也就是我们这两节课一直在考虑的时间采样,那我们希望的是通过一定的时间采样,使得空间频率损失可以达到最小,那我们这里来看一个最基本的例子啊。

上面这一行实际上是一个传统的曝光模式对吧,大家可以看到啊,传统的曝光就只有开,然后到了对应的曝光时间,我们把快门关掉,所以可以看到它实际上是一个连续的,一个shutter的时间。

那大家可以看到在这个情况下面,他拍摄的图像是比较均匀的,模糊的对吧,那这个时候i’m sorry,它的运动模糊就会丢失掉很多的啊,高频信息就是所谓的高空间频率,那第二排我们就是给了这个编码曝光。

大家可以看到我们有不同的这个蓝色的柱状啊,它分布在不同的这个时间轴区域,并且有不同的宽度对吧,不同的间隔,这几个是所谓对应的零一的编码,那么我们说编码曝光,它保留了这些衰减的频率幅度。

那即使可能大家从第一列看了这个,二者模糊图像,看来直观的感受都是比较模糊的,但实际上呢经过这个去模糊算法,我们到这个second column depload image,大家可以看到啊。

经过编码啊曝光,他所得到的这个图像,它的信息是更完整的,是更能恢复一些细节的,也就是说所谓的对应的高空间频率,在之前的编码曝光中是得到适当的保留的,当然可能无法恢复到这个啊,最右边最右下角。

大家看到了这么完美的这个细节信息,但相对于传统的曝光模式而言,在我们这种编码曝光的情况下,对于运动的物体,它实际上保留了很大程度的高频信息。

所以其实这个code exposure的motion depend,核心就在于如何去super这个motion,使得更多的这空间频率信息可以被保留下来,ok那我们再来啊多说一点,关于这个所谓的编码曝光。

那也可能如果大家谷歌的话。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也可能啊有一些文献叫他这个fter shuttle,那其实编码曝光是high lever的一个一个概念,flash shutter是如何实现code exposure的方式对吧。

那flutter就是说啊,如果中文翻译的话,应该是叫震颤嘛,其实就是所谓的这个相机的曝光,它的快门不是固定的,而是在不断的震颤振动,也就是所谓的开关开关对,那我们看第一栏,第一行的话。

传统的相机从数学上的表达,它等价于是对图像做了一个一维的box theater,对吧,大家可以看,那如果大家这个数学,我相信各位同学数学都很好啊,这个box filter的卷积核。

如果我们对它进行一个嗯不列变换对吧,实际上我们会得到一个sink的函数是吧,那如果是sc函数的话,稍后我们会讲,就可以看到很多的这个接近零的点在频率,那ok下面这一行呢。

我们如果用了这个flat shutter,就是对图像进行编码曝光,那大家可以看到,这个时候他的motion bluka就不再是一个均匀的,所谓只有一个平顶的啊,box filter了对吧。

比方说我们给出的这个释义的例子,这个时候我们相当于是有三个小的box filter,然后有不同的间隔跟不同的宽度,对这个图像进行了卷积,ok那这个会带来什么样的一个一个优势呢,我们前面说到说模糊。

相当于对图像做进行一个一维的filter卷积对吧,那我们来对图像啊,对sorry,对这个模糊的corner进行一个复联变换,所以第一行是这个tom dmd时间预的,那第二行我们就在复利约b域变形了变换。

那大家可以看到啊,这边给出了这个红色的这个震荡的曲线,pro,它实际上是截了一半的这个sync function,像我们之前所说,它会有很多的这个接近李宁的点,比方说这里对吧。

那我们之前的课程苏老师应该也给大家讲过了,我们其实非常不喜欢在频域出现这个零的点,因为是这些所谓的零点,会使得这个inverse fal是非常的unstoppable对吧。

那相对应的就是如果ok怎么说呢,就如果当我们用这个deconution的这个technique,去尝试恢复清晰的图像时,这些零点就会带来很多的噪声了,也就是导致这个图像的信噪比比较低了。

这个时候我们就说这个啊,很多的频率信息,在运动模糊的这个过程中丢失掉了,并且无法准确的被恢复,因为他是immortable啊,就sis not immortable,ok那我们来看右边这个例子啊。

就是加了所谓的啊编码曝光的,那这个时候我们对这个corner,这个蓝色的柱状的这个分布,进行傅立叶变换之后,我们得到的这个频谱的曲线,它的pro它是长这个样子的对吧,大家可以看到嗯,average来讲。

它这个曲线它是呃更加偏离了这个所谓的啊,零点的位置,所以我们说它实际上inverse filter,是更加stable的对吧,ok,然后咱们咱们来看看这个具体的这个,恢复的效果。

对这里我们是啊今天讲的很多内容,这部分的内容其实是从15 6年前的secret paper吧,这是一篇非常经典的叫做code exposure,photographic paper,大家可以关注一下。

里面拿出来讲的这个例子进行一些modify,那我们说直观上在不同的曝光时间内,交替快门的改变,比一直打开这个快门,它可以保持更多的频率信息,对吧啊,我们来看一些不同的例子啊。

讲到运动模糊是由于这个快门的时长造成的,所以自然而然大家可以想到,那如果我们用这个缩短曝光时间呢,那他肯定是造成的这个模糊的程度会更小了,就比方说最左上角的这个,看似是黑色场景的图啊。

实际上是这个啊非常短的曝光时间的这个图像,那我们对它进行一个log都妹的这个操作之后,因为这个图像的亮度太低了,在这个左下角大家可以看到,我们是可以看到这个图像的一些信息和细节。

但是由于这个曝光时间过低,它的噪声是非常非常大的,所谓的信噪比非常的低,当然这不是我们所希望的,于是我们过渡到这个第二张图啊,传统的曝光,所以我们需要假设200个毫秒的曝光时间。

那快门是一直打开200个毫秒的,那在这个情况下,我们得到的是一张模糊的图,那如果我们对这个模糊的图进行去卷积,conclusion的运算啊,就得到了f这个位置下面对应的deblood image。

那正如我们之前所说啊,由于啊高频的信息会被丢失掉,就是所谓的这个inverse filter会有很多的零点对吧,所以就会造成这个恢复的deep broad image,有各种各样的artif。

在这里我们看到的artifact,包括啊很大的噪点对吧,噪声以及这些位置的竖条纹啊带来的问题,那这个肯定就是f f t带来的问题了,然后我们再过渡到最右边的两列,我们已经说了这个快门的交替变换啊。

它能带来更多的信息,那自然而然,如何使得这个开闭快门能带来的,这个好处最大呢,这个时候大家就可以想到,有无数或者说有很多种不同的解对吧,实际上就是在这个完整的200ms以内。

咱们要对这个快门的开关做一个二进制的编码,假设我们说开为一关为零,那这样的编码状态就形成了一个所谓的cody po,那右边两列其实对应的是两种不同的编码方式,这个编码方式在最上方。

这个啊蓝色的柱状分布上面,大家可以看到啊,是稍微有一些不同的,那整体的曝光时间是一样的,大家可以看到通过编码方式的曝光,他最后恢复的the broad images,都比我们第二列传统的这个啊。

统一曝光的模式更加的好啊,对但是它实际上还是有一些不同的,就说明了实际上我们还是要去找一些啊,不同的曝光模式去达达到最佳的编码曝光效果,sorry,这个灯灭了,我就开一下灯,ok于是乎啊。

该论文的研究者就实施随机线性搜索,并考虑大约呃十的六次方,也就是300万个候选的这个零一的编码啊,大家可以看到就是一种比较,blue force的的这种搜索方法,然后他就大家发现说。

如果有一种啊52个bit的编码形态,它能够使得整个系统保留最宽广的频率响应,从而使得信噪比最高,那于是乎,大家就呃这个论文的作者给出了这样一个编码,就是我们这个slice中。

给到了所谓叫做new optimal temporal code,它是对于一个啊motion debra是比较好的,那这样说可能是很难理解啊,就我们来说,从这个intro pp的角度来讲。

直觉上我们所希望的是一种编码频率,它的响应是相对比较平坦的,稳定的,并且尽可能的少这个经过频率的零点,ok那有这样的一个编码模式之后,我们就需要做这个decoding部分对吧。

前面所谓的编码code exposure是encoding的部分,那我们拿到了这个encoding image之后,我们需要做这个motion decoding。

那这里我们再来简单回顾一下这个motion model,大家讲到了前面其实给大家说的,我这里是一个ax plus b,but equals b plus n,那其实最右边这一项是考虑的,它是噪声了啊。

那我们这里其实可以用一些啊,linux squared estimation来去解这个deploimage x head,就是它实际上等价于是一个aa的transpose,乘一个b。

那我们再来回顾放大一下,刚刚看到的这两个比较啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左边是我们这个传统的曝光模式所啊,恢复的结果,右边是通过这个编码曝光所恢复的结果啊,结果很好对吧,但是大家注意到的是这样一个场景啊,它的背景就是这个绿布的背景,相对来说是比较均匀的。

所以实际上其实我们不考虑的这个背景啊,不同所带来的这个呃,可能造成的the convolution的butterfx,他也是看不出来的,因为背景比较均匀,但是实际在很多生活场景中。

我们需要考虑这个背景的变化对吧,所以我们来讨论一下,简单提一下这个background estimation。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设他的那个啊background不是zero的对吧,我们就单纯用之前的这个方式可能会带来问题,因为我们not efficient to known a moving up。

just psf to deploit image,这个时候p sf是未知的,所以我们更希望的是estimate这个psp,那有背景的情况下,有前景背景的情况下。

他的image formation model其实可以我们对简单做一个分解,这里b equals a x plus,ag n x g g的下标,实际上表示的就是说我们有一个相对steady。

静态的这个背景,那前面的x指代的就是说,我们在前景有一个运动的物体,那这里的ag它实际上我们就可以把它写成一个,diagonal metrics。

whose elements attenuate the study background,那这个时候他就表现成这样一种模式的对吧,那在这个情况下面,如果我们能去estimate。

这个可能就是我们的points pread function,那自然它的这个效果会更好一些,我们说实际的场景啊有很多不同的背景,这边我们就是从这个几篇paper中找出来一些例子,给大家简单看一下啊。

首先左上角这个一种场景,就是说我们估计的这个背景啊,它与面部,就是后面这个人物面部为模模糊的部分,它有一些联系对吧,this continuity,在这个前景跟背景这个呃边界的部分,这是一个情况。

然后呢啊接下来这个情况,下面这个小火车的图啊,我们的背景它不再是绿布,而是一个有这个横向条纹的背景对吧,而这个横向的条纹呢,它的方向与这个我们前进的运动的这个方向,就是motion的方向。

也是在横向的运动,它是对齐的,这个情况下面,如果用之前的算法恢复出来的话,那这个啊背景就会出现一些artifacts,大家是可以看到的,ok然后还有一种情况,那我们看这个啊,右上角啊。

我们说用户可以指定在一种在背景中具有强度,梯度的近似五对吧,比方说这个虚线框框出来的这个区域,我们通过只保持这个比较load的这个啊,gradients,这个剪裁部分,就会只剩下模糊的像素被解码对吧。

所以大家可以看到这个恢复出来的这个区域,还是ok的,但是在背景的这个均匀的部分,还是会有一些artif,那还有第呃另外一种情况啊,就是这个所谓的啊右下角这个情况啊。

我们叫做paper means across the face,这个情况的意思是说,假设我们啊背景有一个人物对吧,然后我们有一条非常细长的这个时代,那我们假设这个窄的纸袋在人面前,这个快速的横向移动。

大家可以看到啊啊这个时代造成了这个拖影,就会涂抹在这个人物的脸上,那这里显示的右侧的位置是嗯,右侧的这个小图啊,是指未模糊前景的这个estimation,并且啊他由于的是这个up to c。

模糊的这个图像不够清楚而带来的这个失真,那如何去通过code exposure来实现两个呢,我们刚刚讲了很多东西啊,那在这篇paper里面啊,在实际的实拍过程中,作者是搭建了这样一个样机系统啊。

他这里用到了这个两个的shutter的control,就是有两个快门,那我们看到在单反镜头前面有一个very fast,external shot,就是有一个非常快速的外部的快门。

这里这个快门当然就是为了实现快速的,010101的切换对吧,然后我们可能还有另外一个快门,这个可能是control这个总的,这个0~1之间的切换的,所以这个基本的这个呃prototype是这样子的。

那通过这个prototype呢,可以拍摄很多的这个时间图像,大家可以看看一下,这里是一个这个呃,室外的lesson splay的一个retrieval的场景,就是车牌,大家可以看到这个啊,前景的汽车。

相对于这个建筑物来讲是快速移动的,然后通过这个编码曝光的模式,是不是可以把车牌会从这个看似非常模糊的,这个情况的图像里面恢复出来的,包括这个大众的这个logo,这边还有另一个例子啊。

同样的这个车牌相比于前一个来讲,稍微复杂了一些对,但是还是可以很好的恢复出来,ok那我们前面讲了这个code exposure,那它是实际上通过这种编码的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在一定程度上解决了这个black corner是vertible的,是not invertible的一个问题对吧,但实际上呢它还是有一些问题存在的,就比方说我们前面讲到的啊,两个挑战。

一个是blochner,它是未知的,第二个就是说这个啊除了color,它是different for different objects的,就是不同的物体,比方说前景物啊。

背景他的这个呃模糊的可能是不一样的,如果只是用这种全局的decaution的算法的话,会使得背景被破坏掉,所以我们这里呢,就是要简单的给大家介绍一篇paper啊,这个是2009年吧。

实际上也是啊有些年代了,h v一的一篇paper code,exposure debring,optimize coast for peaceful estimation and invitability。

但它实际上探讨了,就是说在编码曝光的情况下面,有没有一种更optimized的code,它更适用于同时使得p s estimation好,也同时保留住了我们之前提到的这个invitability。

可逆性的这个特点,那肯定的这个说啊,这边paper要做这样一个调研啊,实际上他们同样搭载了一个一个一个,一个prototype,那可能这个paper比前一篇paper稍微晚了几年。

所以大家可以看到这个时候的这个啊,prototype的这个compact程度就会更高了,那这里有一个样机显示在这里,那它是一个低电平的trigger,大家可以看到啊。

所以他这边paper实际上它的核心观点就是说,用一个carefully design code,我们实际上可以achieve both p estimation。

and and invitability for motion buring,那他们给出的这个例子就是啊,同样是汽车的例子,这里我们显示的这个黄色的箭头,跟这个k的值啊。

实际上就是指的这个motion的像啊,这个啊vector它的这个向量对吧,相当于是说在啊向左侧部的44移动了,这个44个像素,那像y轴稍微的轻微的偏移了一点点,这个意思,这个文章其实还是蛮多内容的。

今天时间有限,咱们不展开,那我们简单的只是给大家记住这样一个嗯,inside总会有一些trade off在做cody,cody cover exposure的时候对吧,因为你假设有52个bit。

那如何的这个零一编码是合理的,其实有很多很多的解,那不同的paper是做了不同的研究,那我们这里展示的这个paper中截取的一个表格啊,他实际上说了,我们来看反弹的这个啊,曝光就是均匀的曝光。

他的points prefunction,activation相对来说是简单的对吧,因为你实际上它就是一个连续的模糊,所以你的psm就是连续的一个变化,往一个方向展开,但是这个情况它会使得在越狱。

他的啊带来一些零点,这个我们刚才说过了,所以他的p sf invitability是没有很好的,那我们到第二个方法啊,就是roscoe在2006年提出的paper,也就是咱们之前花了很大这个功夫。

讲的这个code exposure,它其实是通过这样一种便利的方式,找到一个比较好的,10001的这样一个编码模式对吧,它使得频率域的这个零点的节点消失了,所以它保留了空间频率信息。

所以我们可以得到更好的points pread function vertability,但是在这个情况下面,他对points prefunction,estimation可能是比较困难的对吧。

因为它可能会有很多的零一间隔的随机性,大家想象,如果是零一之间的间隔,只是单纯的0101的突变的话,那这个bra ka来讲是比较难以去tm的,所以啊这边2009的paper呢。

它实际上是做了一个车道对吧,它实际上找了一个optimized的code,大家可以看到啊,前面开始的曝光有一连串的一,就是所谓的这个下划线的这个位置,它实际上这个编码的code。

他在两个维度上面都去找了一个比较好的平衡,在invitability的维度上面,他去逼近了之前这边paper所通过便利300万个code,去找到了这个所谓的当前最优解的情况,下面的这个编码。

同时在point spread estimation上面,它又比这个所谓的1/3000000的这个解,要稍微好一些,ok我们来看一个啊,这两种不同的编码模式的例子啊,首先啊大家可以看到。

我们这边做的是对post profunction,做了一个bf f t对吧,列变换,然后黑色的这个曲线呢,就是所谓的传统的这个曝光,大家可以看到,就我们刚才说的。

它实际上是一个think function,所以大家可以看到有很多的这样一个呃跳变,逼近零点的位置,然后后面的话我们呃有两种不同的编码方式,对应的是这个绿色跟红色的编码,那它实际上就会消除了一些零点。

但是大家可以看到它还是在傅立叶变换域,有不同的这个呃曲线的变化就不同的高度变化,那intely咱们之前说到了,我们总是希望说这个嗯编码的变化,它带来的这个频率的变化,相对来说是比较平稳的,比较均匀的。

并且没有零点的,所以我们说在这个情况下面,所以它这个绿色的啊,c two cod的啊,type two它或多或少会比cody one要稍微好一些,那这个也就是这边paper所去论证的一个观点。

那我们来看一下他们所得到的一些实验数据啊,这里是一个简单的例子,大家可以看到啊,第一排是这个模糊的图像,那第二排是我们对前景背景进行一个区分的,大家可以看到啊,摩这个玩具摩托车给他提取出来。

对他进行操作,那这个不同的cod one c one two,可以看到比较大的区别,就是在提示的背景的这个部分有一些区别啊,对吧,这个边缘部分,然后我们看到它恢复出来的图像,可以很明显的看到啊。

这个c two的这个结果相对来说是最好的,那这边是另外一个例子啊,在一个高饱和度曝光的情况下面,大家可以看到啊,c one的这个所谓找到最优解的话,它虽然图像的亮度啊。

前景的这个人物的细节还是比较sharp,但是它可能在啊前后景边缘的位置,也会带来很大的这个artifex,这边是一些其他的例子,大家可以看一下啊,啊左边这个例子的最左边。

我们说一个叫做ground truth,就是那清晰的图像啊,那中间这里有个cody seat best,这个seed best呢就是所谓的嗯,在之前这个便利的方法中找到的。

这个所谓的new optimal code,那这些都是在真实数据是受数据集上的,这个啊debring的一个比较啊,然后右边的就是这个c to l,那同样的我们说c two,它还是有不同的编码模式对吧。

我们假设我们有31个bs,就是有31个零一可以变的空间,这个point啊,这个p sf的sorry,的估计能力就会随着l的增加,二增加对吧,那我们这里的下标五七十这样一个数字,表征的是说什么。

是说这个啊有多少个一的情况,五表征的是我们在这个啊31位里面,我们只有五个一,然后我们有七个一,一直到31,全都是一,也就是所谓的传统的全通的情况对吧,那实际上呢啊我在很小的这个五个一的情况。

它的这个分辨能力是有限的,毕竟这个通过的量也比较嗯少,而且它的这个编码的随机性也比较小对吧,那实际上啊这边peter就说论证的说,在这个c two就是13个这个编码的情况下面,它是最优的。

它同时满足了比较好的p s f的s级美声,以及这个嗯可逆的这个file,ok那之前我们花了大概这个半小时的时间,来讲了这个code exposure。

但是cody exposure还是会带来很多的问题对吧,就一个很大的问题,就是咱们刚刚一直在考虑的,所谓的前景和后景的问题,以及这个啊真实的这个场景中,不同的物体它会有不同的运动轨迹,不同的运动速度。

不同的运动方向等等,对比方说我们去拍摄一个哦路口十字路口,那相对于背景的这个建筑物,前景有不同的行人,有这个不同方向行驶的汽车等等,那在这个情况下面啊。

传统的这个code potion的方法呢就不是最优的解了,因为他可能在啊啊,你需要很强大的这个不同物体的,segmentation的分割,并且针对不同的segmentation分割。

去做一些算法的优化调整等等,那在这个情况下面就有一些另一种思路啊,这是一篇paper,叫做motion in burn photography,是在siggraph 2008年的paper。

是angelin啊,可能大家对这个这位学者也比较熟悉的,他现在是在以色列,就是非常知名的计算成像领域的女性时,那他提出了一个方法叫做paralley sweep,就所谓的这个啊抛物线的sweep。

那我们来首先这个从更high lever的角度来讲,我们希望得到的是什么,我们希望得到的是一种模糊程度,与目标的运动速度,目标的远近,空间位置等因素没有关系的摄影方式对吧,简单来说这个对应的是什么。

就我们是否能够introduce extra motion,就既然我们知道有些前景的物体它是在运动的,有些物体是没有运动的,那反过来想,如果我们让所有的物体都一起动起来,那是怎么样。

那就是所谓所有的everything is blue right,但是这个blog就有可能是更加的environ,因为对所有的物体来说,它都是相对比较均匀的抖动起来了,那如何实现你这个例子呢,那肯定的。

我们不可能让这个真实场景中的物体啊,去增加额外的运动,但是我们可以让相机来做一些额外的运动对吧,那我们再来讨论一下这个进一步考虑这个思路,我们如果使得整个图像的模糊程度变均匀,是什么的。

那比方是这样一个图案,我们背景有这个一个poster,然后啊前景有一些嗯,人物在做不同的动作跟行走等等,最左边是我们拿一个steady camera capture,软背景相对来说是比较sharp。

但是前景产生了模糊,然后呢,那如果我们是啊拿了一个specially design motion的一个camera,我们发现什么,我们发现前景和背景都一起模糊了,那什么叫做special比赛呢。

就说如果我们把相机进行了一些运动,那个对应的反过来可以理解为啊,拍摄场景中的所有物体都进行了extra motion对吧,就所有的物体大家一起读了,并且这个呃无的这个物体。

不论是thetic还是dynamic regions,它相对而言它都是identical的,于是乎我们在做deconution的时候。

我们可以用一个single no one的postprofunction去做deution,那整个图像恢复出来的效果就如最右图所示,让大家可以看到啊,相对于呃steady camera拍摄的结果而言。

他的背景和前景,背景的这个poster,跟前景的人物都是比较sharp的,恢复起来的这个思路,大家可能会觉得有一些眼眼熟啊,其实跟我们之前很多课程内容中提到的,这个所谓的波形编码或者少所谓的叫对焦扫描。

其实是一个概念,那大家想啊,其实所谓的增加额外的运动,其实就是在这个曝光时间内进行了一些积分,对吧,这个swift的概念,扫描的概念其实就是进行了一个积分,那当然了,目前很多的这个paper啊。

包括这篇paper,它其实上做的还是,假定说我们这个motion environ是的目标物体,它只做一维方向的运动,比方说只是水平的运动啊,像这个人物的行走等等,看起来比较严格。

但实际上在很多日常生活中的场景而言,它已经是可以覆盖了,那它的核心在说,我们如何去控制这个所谓的special design motion of the camera,就相机的运动轨迹去。

从而控制这个啊场景中的模糊,这里我们再来给大家讲一下啊,就是不同的这个呃运动轨迹的话,它的积分后会对p sm带来什么样的影响啊,就最左边一列肯定是这个所谓的steady camera对吧,我们不动。

所以我们这个时候对于不同的位置啊,不同的颜色,红蓝跟棕色,这里表征的是不同呃的物体,不同深度的场景,大家可以看到,那么三条线它对应的p s f就是这个样子的。

然后呢我们可以做linear translation对吧,相机往一个方向进行移动,然后我们得到了psf是这样的,那第三列呢,我们就是所谓的叫做parabby translation对吧。

就像当我们将相机沿的这个抛物线的方向,进行移动啊,当然不是沿着抛物线的方向,而是做了抛物线移动,什么意思呢,就是说我们相机先向横向,先向左进行一个快速的移动,然后静止。

再反过来向右进行一个快速的移动静止,那么它的运动轨迹画出来,所以在时间轴上它就是一个抛物线对吧,那大家可以看到这个情况下面得到的points,spread function,对于不同颜色的物体而言。

它大家相对来说是比较靠近的,在这个shape形状上面,虽然说他们不是百分之百的identical的,但是总体而言我们可以说它是更加global environ对,然后最右边一列呢。

就是我们之前半个小时一直在给大家讲的,这个所谓的cody exposure的内容呢,那大家可以看到这个cody exposure,他啊的这个曝光,随着时间轴是我们刚才讲的这个,0101的变化。

它是一个啊断续的间线段,那得到了这个post profunction就是什么,就是说对有一些位置的场景的物体,他的ps非常好,那有一些场景的psf又是另一种形态,让大家看到这个红蓝跟棕色的psf。

它的形态变化差距是比较大的对吧,那这个情况下面,我们就难以用一个idantic的points,prefunction去做decommotion。

所以它就变成了是一个motion brendeconclusion,那它就比较复杂了,ok,那如何实现这个所谓的抛物线,扫描了的控制相机,那我们说我们要达到两个目的啊,第一个是把首先把不受控的模糊。

这所谓的场景中各种不同的物体的模糊,变成均匀的可控的模糊,那我们要通过相机的变换,或者传感器的变换来实现,那第二步当然就是用这个decompression去处理,模糊的中间图像,而得到最终的清晰图像。

嗯为什么我们说这样是合理的呢,那假设我们的这个相机,随时间的这个啊运动的轨迹是如图所示的话,大家可以看到啊,嗯intuition,大家可以想到,对于每一个不同运动速度的这个物体而言呢。

我们总有那么一个时刻,相机与支持相对静止的对吧,这个时候的速度为零,那么也就是说可以被准确的check到,而并且整个啊曝光时间是一样的对吧,并且说我们说所有的速度而言,所有速度的物体目标而言。

它的道光获取时间是一样的,那最终拍摄出来的图像,就会呈现出一种特殊的模糊,就可以用一个简单的啊,single的deconvolution current去做disconvolution。

ok那我们来看这个例子,我们这边有做了一个简单动画,大家可以看到啊,假设我们相机的运动轨迹时时间轴是这样子的,大家可以看到啊,在不总有个位置,这两辆车以及背景的这个屏蔽,总能找到一个啊清晰的图像。

它是相对静止对吧,我们再看一遍啊,首先我们是前景的这个蓝色的啊汽车,然后呢是咱们这个呃背景的草地对吧,最后呢是这个啊反方向运行的,这个红色的小汽车,就总有那么一刻时刻,他的啊相对而言,相对相机而言。

它是静止的,所以这个时候他的这个呃图像是清晰的,然后这个情况下面我们最终得到的图是什么呢,不是,那这个就是咱们最终积分,得到了一张模糊的图像对吧,所有的这个场景啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

远处的背景,前景的两个不同方向,不同速度运行的这个目标物体,它们的模糊程度看起来而言,相对而言是比较均匀的,那我们就可以对这幅图像进行devolution,我们再从这个呃数学上来说。

咱们的目标是create的一个vlog,ity environ points play function对吧,那我们假设这边把这个抛,所谓的这个抛物线点啊,我们如果把它分解成只有这个五个点。

大家可以看到这边第一个点,我们向这个方向移动,然后再回来呃,后面几个点就向这个方向移动,那么在不同的时刻呢,他其实是在啊,这几个点是在不同的位置对吧,那经过这个总的这个积分曝光时间之后。

通过这种所谓的抛物线扫描,他能得到的这个啊,or prefunction p s m就是这个模式的对吧,但如果不是啊,通过这种抛物线扫描,我们拿一个这个static camera,他就capture了。

那这个时候他的p s f就是这样子的对吧,因为它其实就等价于每一个啊,point source跟这个方对应的方向,跟它的速度进行了一个积分对吧,向这个方向展开,当然每它展开的这个啊越长。

自然而然它的总的这个能量分就越分散,亮度越低对吧,这大家可以理解的,所以实际上呢这个概念就是说,我们去寻找一个使得velocity informing post方式。

那在很多种这个大家就intuitive的情况下面,就突然就发现唉所谓的这个抛物线的这个wap,它是很好的,可以达到这样的一个效果,ok那如何去实现这个啊这样一个抛物线的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

沿着时间轴抛物线的这个受控capture啊,啊这个作者做了一个很巧妙的这个实现,它通过了这个控制现有的相机,镜头马达的方式来完成它,实际上呢我们在看到这个是啊。

paper上的一个图案是有一个外接的机械装置,通过这个变形齿轮加连杆的方式对吧,咱们这里有一个呃齿轮在旋转这边有个感动,使得这个啊这里有一个rotating platform,然后我们这里叫一下单反。

使得这个单反,可以在这个旋转平台上面进行移动,通过模拟这个抛物线扫描的这样一个方式,那接下来咱们就来看这个实拍的啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结果了啊,就左边我们是一个啊静态的相机实拍啊对吧,大家可以看到这个unknown and variable blood对吧,然后右边是通过这种啊抛物线扫描方式,所以得到了。

大家可以看到这个blood是envy velocity的对的,因为我们可以看到说背景啊,这个呃呃前面的这个水果呀,包括这个红牛的罐装红牛等等,它的运动轨迹它的速度是不一样的。

那如果我们把它进行这个decaution算法恢复,那得到的结果就是这样子的对吧,大家可以看到不论是前景背景,它的恢复效果来说都是很好的,而且这个decomposition算法,咱们只需要用到一个啊。

single point spread function,single corner,因为它实际上通过这个呃抛物线编码的方式呢,他的这个color已经是global environ。

那这边是另一个例子啊,就我们说刚刚前面假设的这个运动的方向,是在水平的linur的,但这种模式呢它其实也带来一定的好处,这个例子就是说,即使当运动不完全满足单一方向运动时,比方说这个啊人物,它的运动。

他并不是整个人往一个方向水平运动的对吧,他在这个情况下面,通过这样的一个呃抛物线扫描编码的方式,它也能一定程度上恢复出清晰的图像,无论是前景还是背景,当然了,如果实际运动和之前这个所谓的啊。

linear translation的这个假设有非常大的差别。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它也会出现明显的缺陷对吧,就假设我们这个概念,我们说我们相机的这个抛物线运动,是沿着水平方向的,但是这个场景中的这个人物的站立,这个是突然间从椅子上站立起来的这个过程,这个运动的过程。

它实际上是由自下而上的一个,垂直方向的一个运动对吧,那在这个情况下面,这种编码方式可能就会带来一些问题了,恢复出来的结果,虽然说它比这个完全模糊的图,他的这个shop程度肯定是好了不少。

但是大家如果看这个脸部区域啊,就会出现一些啊,party fax这个也就是呃这个编码方式的这个缺陷,因为我们实际上这个抛物线编码是考虑的,一个方向的运动,ok那我们来做一个呃一些实验的总结。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从paper上面中拿到的啊,最左上角是这个steady camera input,包括两个不同的场景对吧,然后是这个debring results,从这篇paper里面拿到的这个场景。

拿到的这个效果大家可以看到啊,然后呃最左下角呢是用这个boss filter,manually to move layer,and applied to the deplode a image。

实际上什么概念,就是说我们通过这个boss filter,因为啊去啊手动的去调去ali不同的区域,那我们可以把前景的这个洪流对吧,对这个运动的位置很好的恢复出来。

但是背景就会产生很大的artifacts,那在这个情况下面,如果用了这个所谓的这个啊,specially uniform的这个啊deconclusion,通过呃抛物线积分的方式去得到的。

它的效果就会很好,因为这个时候我们就不需要去区分前景和后景,用同一个这个filter,我们就可以把整个啊场景的给恢复出来了,ok我们来做一些简单的总结啊,我这里写了一个left and right。

就说啊不同的这个你的算法今天讲了两种,一种是所谓的这个啊,environment就是抛物线扫描的方式,第二个就是所谓的传统的啊flat to shot,就是code exposure的方式对吧。

它都有各自的好坏优势,我们说传统的编码曝光最右边这一列啊,它使得模糊的图像中,保留了尽可能多的频率信息,所以我们这个decaution的过程之中呢,可以得到相对而言比较高信噪比的这个图像。

但是呢由于画面中同时可能存在不同运动数据,运动运动速度的物体对吧,可能还有固定的这个背景,并且这个背景不是像这幅图上是均匀的,那通过这种振动快门,0101编码的方式呢,可能不能做到。

运动的模糊程度是跟速度方向无关的,所以你需要手动介入进行分割来处理对吧,而本身这个图像分割的这个过程,它就是一个epose,并且是比较复杂的一个挑战了,同时呢。

我们很难去估计此时这个有效的blochner,所以你需要很多的这个怎么来说试错,就是其实前面几篇paper都花了很大的功夫去去,找到一个比较合理的这个code,当然还有一点比较重要的一点啊。

就说编码曝光使得快门有一半的时间是关闭的,对吧,所以自然而然就是你获取的图像的整体,画面信息会偏暗,那如果你通过这个啊,增加增益的方式给它调上来,那有可能会带来一些啊信噪比的这个损失对。

然后我们来回到这个中间这一列啊,这个抛物线扫描,它实现的是运动不变的,这个摄影所谓的这个motion inferior,那它通过了,就是我们去增加不同场景物体的,额外的extra motion。

使得整个画面的模糊与运动物体的这个速度,方向都相对而言是无关的,那它还同时证明了说,这个有效的卷积核中保留了,比呃传统的code exposure,会更加多的这个频率信息,所以大家可以看到。

就目前的这个例子而言,我们通过这个所谓的啊抛物线扫描的方式,它所恢复的图像信息是更好的,并且由于它整个这个曝光时间内,快门都是打开的,只是相机在运动,所以它整体的这个积分时间跟光通量。

是比我们通过这个啊快门开关方式,对编码而带来的光通量要更加高的,所以大家可以看到,这辆车获取的图像的这个亮度,整体亮度而言是相对而言比较高的,ok那这边是给大家列了一下我们今天讲的内容。

cover的一些references。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就有兴趣的同学可以再好好看一下啊,今天由于时间有限。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我们其实没有办法啊,很多的展开让大家可以看到,其实很多的这个领域的paper都是在西瓜上面,所以sl还是非常值得大家关注的,要ok那我们最后给大家回顾一下今天讲的内容,那我们今天讲了就是啊。

研究的主题是这个motion blood,所谓的动态模糊,是一种在摄影学中非常常见的一种现象,一种既好又坏吧,对那通常来讲我们如何去去模糊呢,就会有所谓的cody posure。

也就是回到了今天这个课题的主题之一,所谓的temporal encoding,那所谓的code exposure,我们就会考虑到说,有很多种不同的encoding的coast。

那我们总是希望去找到一个optimist的code,能够同时使得points prefunction,estimation跟这个filter的invitability更加的好,那我们还给大家介绍了这个。

另一种去模糊方式啊,就是所谓的通过使得运动不变的方式去实现的,那从这个技术上实现,我们就是对相机或者传感器进行了一个sweep,扫描的方式,使得场景中所有的物体都去额外的增加了一个。

extra blood,那并且这个extra blog呢在整个曝光的积分时间内,它会带来的一个好处是整个points profunction,那这个情况下我们就不需要过多的人为的介呃。

介入去进行这个不同场景和不同物体的分割,所以他其实可以省下一些engineering effort,那另一个好处,就是说嗯比起这种零一编码的方式,它可能会啊带来这个保留下更多的光通。

它的画面的亮度会更高,那当然它其实一个很大的实现的难处,就是我们需要额外的一些mechanical engineering,去这个扫描传感器,那最后到最后啊,大家可能看到,其实可能有些同学会注意到。

今天讲的几篇paper,都是大概是95年前乃至将近20年前的paper啊,那为什么我们还要拿出来讲呢,是因为我们觉得这是temporary coding中,非常经典的一个例子啊,虽然说他们已经是很老了。

那现在很多的这个呃头手机或者相机里的算法,也不再使用这种方式的,但它其实这种通过一种很简单的编码方式,而去解决一个很实用的问题的这样一个思路,还是非常值得大家借鉴,那近期大家用了什么方式呢。

我相信很多同学可能会自然而然的想到ai,或者所谓的deep learning,深度学习,我们说dian introduce game,那这里我们今天不再展开啊,这里只是给大家举一个简单的例子。

就感兴趣的同学可以去看一下,那当然也是来自于啊我们组之前的paper啊,the video deploring for hhcameras,这是啊u b c团队跟dobe团队。

在07年的cv p r发表的一篇paper,它是有比较高的引流量的,但他实际上说的就说那他们的这个hi cameras上,包括你手机的这个相机,或者是这个手持式的这个微单单反等等。

经常会通由于这个手抖本身,handshaking带来了一定的模糊对吧,然后同时会有场景中的运动物体,又带来另一个程度的模糊,那这两个模糊结起来通常是比较困难的。

用传统的这种啊佛光model base的方法来解,所以呢呃keep ending,就是给啊大家提供了一个更新的,更有意思的思路,那这篇paper其实就是做了很多的这个呃研究。

包括在data set的处理上面,以及包括这个neural network architecture上面啊,在当年其实是一个比较好的效果了,感兴趣的可以去看一下。

他们有一个比较完整的youtube的video,那介绍了这个具体的这个max的技术细节,包括有很多实拍的啊恢复的案例,大家可以关注一下,ok那今天的内容就基本上到这里对。

最后就是嗯对宣传一下我们的公众号,intelligence optics sheling,所以感兴趣的同学可以关注一下,那我们其实啊新的1年,我们也会继续尽可能的更多的这个呃报道,一些技术解读。

像今天我们刚刚这个报道了,snapchat research,跟这个stamer团队的一篇e c c v的文章,是通过这个闪光灯的控制,就所谓的点阵闪光灯的模式去实现,手机在这个长距离的夜景的拍摄。

所以大家也可以关注一下,ok今天的内容就到这里,也不知道大家有没有什么问题啊,今天可能讲的稍微快了一些,啊如果有问题的同学,因为我现在看不到弹幕对我的好,啊这个同学说这个sorry啊,我现在看到的弹幕。

刚刚的弹幕没有更新好,有同学问说编码越稀疏效果越好吗,那这个其实是不一定的,所以我们刚刚其实有一个例子对吧,那假设有31位的这个可以编码的这个空间,那实际上你这个例子给出了五七十13哦。

25跟31不同的编码的情况,下面它的这个恢复的程度,但实际上不同的编码吸收程度,它带来一个随机性的问题,包括point prefunction的estimation的难易程度的问题,所以才会他们需要啊。

去进行了这么大的一个随机性的啊搜索,进行搜索便利,找到了一个在当前情况下,相对而言比较好的编码模式,当然了,这个编码的还有另一个,这里是假定说我们的这个呃呃呃曝光,说我们的这个相机的拍摄过程。

是基本上没有噪声的对吧,如果我们的这个曝光是有噪声的,那你更加稀疏的透光,自然而然带来的这个光通量会更少,那么相机底噪或者其他的re noise等等,噪声带来的影响就会更大。

那对于整个inverse problem而言,它就是变得更加ear post,就是更难的解了,所以其实并没有所谓说编码越稀疏效果越好的,这个概念是说在当前的那个情况下面。

他们找到了这样一个比较好的编码方式,相对而言是new optima的,但是也是受限于当时的那个啊,那个是在m t f以ntf作为基准去分析的,也就是忽略了噪声这样一个模式。

然后有同学问到说这个抛物线去模糊,得到的到底是哪个时刻的图像啊,这个是很有意思的点啊,实际上我们说抛物线去模糊,它实际上得到的应该是整个积分过程中,average的图像。

所以实际上它你最后得到的图像就无法是啊,通过这种积分方式,decowb的图像,它无法是嗯,场景中所有的任何一个物体都是最sharp的,这个模式,他可能最后拿给你的这个结果可能是中场景。

可能是场景中的这个每个物体,都还是或多或少的会有一定程度小的模糊,但是整体看上去而言,相对于其他的这个study image的获取,它是比较啊,比较这个shot对。

当然这个抛物线啊积分的这个方式去模糊它,其实一个比较大的问题,就是说啊目前而言,他对这个运动方向啊还是比较敏感的,就像我们刚刚讲前面给到例子啊,当然这个大多数情况下它还是满足的。

并且即使这个运动方向跟啊,这个抛物线这个扫描的方向是不一致的,他依然能够恢复一定的讯息,这个其实跟咱们之前可能有些同学了解到了,这个啊,extended depth a few。

就是咱们扩展谨慎的一个方法,叫做focus sweep是一样的对吧,就是我们通过使得相机在z方向的这个积分,对吧,那我们使得这个景深depth of view就可以拓展开,那他积分带来的是什么。

就是这个points prefunction,对不同的深度,我的这个目标而言,它都是比较均匀的,他都被一起扩大了,就是大家园的深度一起模糊了,那其实概念思路是一样的,只不过说在运动模糊的情况下。

咱们把沿的深度的这个积分,变成了沿着这个啊横向的一个凹陷,运动的这个积分过程,对,ok如果大家没有其他的问题,那么咱们今天的内容就到这里,对,下周我们会继续给大家讲一些啊,计算成像的一些课程。

对请大家关注咱们几个微信群的通知和信息,ok也祝大家周末快乐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

23.空域调制 | GAMES204-计算成像 - P1 - GAMES-Webinar - BV1a24y1h77A

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

欢迎同学们来到games 204啊,今天给大家讲一个有意思的课题,在这个课开始之前啊,我可以给大家先掰扯一下,这个空域调制里面到底有哪些非常好玩的东西。

其实呢啊这节课我们会讲一些像cod photography,尤其是这个呃像cody这一部分,而其实呢像在我们计算摄影领域里面,它会有非常多的一些,在镜头上做encoding的方法啊。

比如说像我们加一个mask呀,无论这个是一个face mask或者是一个二指的mask,都可以对这个图像进行调制,除此之外呢,我们还可以用一些像自由曲面呀,或者是focus swap。

就是我们扫他的那个频率,有的时候大家可能都用呃,像这种旋转的p s f呀,都可以做这种special ecode,当然啊从本质上来讲,我们做这个special encoding。

基本上就是为了调节它的一个点扩散函数,当然除了很古早的一些例子之外哈,啊像我们最古早最古早的一种玩法哈,就比如说那个叫呃这个这个最枯燥的玩法,叫那个叫拜绿光片,大家当时当年为了看到彩色的情况下。

有这个拜绿光片诶,那个时候这个半径六光片,也是一种special equity的方法,所以说呢呃这个special encoding,它会有非常非常多的一种玩法,当然受限于我们这个课程的一个时间长度啊。

我们已经很接近尾声了,不太可能给大家覆盖太多的一个,special including的一些方法,所以说呢今天就在这里给大家挑了一些,非常典型的一些应用,就包括这个对于我们这个app进行ecoding。

这个app encoding,在无论是从啊差不多是从2000年以后吧,这里面的论文就变得非常多非常多,所以说啊今天会给大家讲讲,这几个有意思的案例哈,这些都取得了非常非常大的一个影响力啊。

这些论文都非常大的影响力,所以说同学们要学到这个呃,整个的一个special including的精髓,它既可以啊,比如说我们去做一个景深延展,也可以去实现hdr,唉甚至可以实现不一样的光谱。

这种都可以通过这种空域的编码方式,来进行实现,诶这个是一个非常有意思的一个办法,那前两天啊,我们从那个阿里这个达摩院的,发布的一个十大什么趋势,好像是其中有一条就是计算摄影。

所以说也更多的希望同学们能够,在这段摄影领域里面继续深挖下去,然后他的未来是非常广阔的一个呃,有非常广阔的一个应用空间跟一个研究空间啊,因为本身像我们计算摄影啊,它是一个涉及非常多领域的一门综合性学科。

它是一个多学科,就是比如说我们涉及了最新学呀,computer vision啊,光学啊,传统的光电成像,还有等等等等一些非常多的一些技术,当然我们最后可以通过这些啊多技术的融合。

取得非常有想象力的一个呃成果哈,跟未来特别是应用这方面,这个今天啊还有一段时间我们可以再聊一会儿,本身像这几年哈,特别是军事领域的发展啊,这个不知道能不能播哈,咱咱先说一说,在军事里面。

这个探测就会变得整个成像的一个探测,在无论是军事还有空间探测领域,都会有非常广阔的一些应用空间,就包括比如说我们要探测一个行星上诶,有一些什么样的地貌啊,或者是在医疗里面。

我们有比如说内窥镜的一些问题啊,包括现在很多大家在做这种腹腔镜的一些手术,它怎么样去呈现这个我们腹腔镜里面的,一个三维形貌啊,这传统的这种top肯定是不行吧,但是我们就可以用一些新型的方法啊来实现啊。

这个我们这种嗯直接的这一种嗯,用用点扩散函数或者是空域调制的方法来实现,我们这一个3d成像的这么一个问题,好我们再等一分钟,然后我们就开始今天的课程空域调制,因为本来这个空域调制是三节课的。

是三节课的啊,因为这个我们年前要把这个课程结束,所以说呃我就删减了一部分内容,只讲了这个比较经典的这个encoded apture,还像focus web的一些方法,大家要记住哈。

这个special encoding是可以做到非常非常多的事情,比如可以做3d成像啊,这个例子多光谱景深延展,还有一些一些非常非常多的一些案例哈,那我们今天就正式开始,我们一个进一步的一个调制方法。

就是之前我们是在食欲进行调制,今天就我们从食欲换到我们的空域进行调制,诶这个地方卡了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不好意思,首先呢今天我们的课程会涵盖四个方面啊,就给大家介绍我们这个空域调制的一个啊,整体的一个脉络,然后再给大家举三个例子哈,第一个就是code action,我们在这个我们的一个啊这孔栏上进行调制。

为什么要在孔栏上进行调制呢,因为孔蓝我们知道学过光学的同学,可能知道,孔蓝跟我们的相面有一个近似,数列变换的一个关系,所以说呢,通过在一个我们的这个app上进行调制呢,就可以很容易的知道。

我们在我们的一个下面上的一个点扩散函数,会是什么样子,所以说呢实际上我们是可以有效的,直接控制我们的p s f,但是呢我们要表现形式,要表现在我们的这个app上,另一种案例就是嗯要做景深延展的时候。

我们可以做一个focus web,这个idea是什么意思呢,我们在做deconvolution的时候,我们知道受限于镜头的景深,远了近了,它的点扩散函数大小会不一样,这个时候我们要应用一些算法。

整个底部就会变得比较困难,这个怎么办呢,我们很难让我们的镜头在不一样的深度,有一样好的表现,但是呢我们可以想办法让它一样坏,对不对,让我们各个深度不乐都稍微大一点,但是它不乐的均匀一些。

这个时候我们对我们算法来说,就会比较容易的去解它的这个blo,就是说后来人们就搞了一个focal swap,来做一个谨慎延展,但到最后我会把这个呃,整个的光学系统去进行一个一般化。

然后去适应各种各样的不一样的一些应用,本身呢说到这个coded aperture to code photography,这是一个传统的一个啊摄像的一个模型哈,我们在我们的一个真实的一个三维场景里面。

我们通过我们自己传统的一些成像的,一些透镜啊,在我们相面上,在我们的传感器上,我们拿到的图像通常是一个啊,这是一个景深的一个例子哈,聚焦的位置是中间的地方,它是比较清晰的。

然而呢离焦的位置它就变得模糊了,对不对,然后我们可以通过一些呃这个计算的方法,也就是我们一些底部漏的一些方法,来对我们在传感器上不乐的部分进行增强,来进行实现,拿到了一个增强的一个图像。

这就是我们传统的一个成像的一个脉络,然而就是我们想要通过这个cody的photographer,来提升我们相机的一个成像的性能怎么办呢,场景还是场景,对不对,我们可以用一些新型的一些光学系统。

再加上我们对我们这个光学系统,在光学系统里面加了一个调制,加完调制之后,我们再根据这个光学系统的调制,来给它对应的设计一些算法,最后我要想实现的效果。

想要比传统的一个photography的一个效果更好,你可以想一想,同学们可以想一下,这个有什么例子是可以实现,通过这种调制来实现一个更好的,一个成像的一个像质呢,同学们可以想象一下。

这有没有什么生活中的案例,生活中的案例哈,同学们想想有没有生活生活中的案例,最传统的最传统的一种方法,就是我们日常使用的一个彩色的相机。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以前呢人们为了实现这个彩色,就设计了一种滤光片,也就是我们平常所说的白夜滤光片,它是由r g g b或者是l y c等,一些其他的一些呃滤光片组成,通过牺牲一定的空间分辨率,来最后实现了一个彩色。

也就是呢我们这个color fter位,把这个颜色信息encoding到一个马赛克里面,然后呢我们再通过去马赛克的一种办法,来把这个整个图像传感器上的一个图片,转化成我们的rgb的一个图像。

这个时候我们可以看到,在我们传感器上拿到的是呃这种code representation,也就是进行编码来实现的一种情况,然后呢我们在我们之前第一节就前面几节课,第六节课就讲到了一个图像的sp。

就给大家教过这个啊,卡拉夫特瑞去马赛克的一种方法,最后拿到了一个我们日常生活中,这个就是最经典最经典的一种,special encoding的一种方法,也是空间调制的一种方法。

当然这个时候呃还是比较简单哈,比较简单,大家可以玩一玩比较高级的一些东西,今天就带大家玩一些比较高级的一些,including的办法,最近呢这几年啊有一种叫光场相机的一种东西。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

之前有一家公司叫letter,letter,是发布了第一款,就是我们面向消费级的一个光场相机啊,这个里面叫ufly optic opt camera,也就是它一个全光相机。

当然也不是捕捉到我们全光函数的,每一个维度哈,只是它的维度比较多,在我们一个真实的一个三维世界里面,我们之前课上讲过,他有他自己的一个光谱啊,把物体有自己的一个三维形态,光源有自己的形状,本身呢。

同学们的眼睛或者是相机作为一个观察者而言,它有自己的一个呃一个billion point in building direction,对不对,也就是我们呃物理的世界,通过我们一个呃这种一个透镜呢。

然后后面在他的焦平面上放一个微透镜之列,摄入我们这个啊透镜的一个光线的一个角度,实际上呢这个思想就是用整个相面的一个呃,进行一个分块,然后每个小块记录一个角度的一个图像,也就是前面放了一个micro。

就是在焦平面上放了一个macryarray诶,通过这种方式来记录光线的角度,当然它为了记录这个光线的角度,它牺牲了一个分辨率啊,这个牺牲分辨率,其实啊这个东西挺矛盾的,你想要的光场数量越多。

你牺牲的分辨率也就越多,呃同样的情况也适用在我们这个广场显示,其实在我们之前也提到过这个vr里面,其实后面是有希望啊用到这个广场显示的,当然想要把工厂显示来,做到这个非常高的分辨率。

也会有我们这个啊后面的一个背景的一个,这种显示器,跟我们这个mcaller array或者是啊它的一个冲突,但也有一些办法,比如说你双面胶合的,当然他这个计算量比较大,它是要做那个tensor的分解。

让我们传统的一些广场显示,就是我们加个micro sr,这时候就会给有一个跟分辨率的一个呃,冲突的关系,通过这么一种形式,我们在传统的透镜的焦平面上,加了一个微透镜阵列。

这个时候我们就捕捉到了一个它的一个工厂,我们把这个工厂再进行计算,然后再进行渲染,我们就可以拿到一个我们的一个final image,所以说前几年大家提到过这个先拍照后聚焦哈。

就是用了这种光场成像的一种技术,啊这个类似的玩法,这个除了广场哈,这个mrc ray还可以做这个v from coding啊,之前同学们听过这个,王崇利老师给大家做了一个guest lecture。

这个微缩电阵列呢,啊放到前面就可以做到这个拨弦的检测,它也是一种special encoding的一种办法,本身呢啊为什么啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先问一个问题啊,为什么我们图像会模糊呢,当然我们之前克里夫已经涵盖到了这一部分,比如说我们的这个透镜,它是啊不是理想的啊,这个像我们这个手抖啊,或者相机抖动也会带来一定的模糊场景的抖动。

或者是啊深度的一个呃,就是景深的一个限制,都会影响我最后的一个图像的模糊情况,这个在我们之前的课上已经提及过了,所以说今天呢我们要通过这种special including的方法。

来说一个景深延展的一个故事哈,首先呢要实现一个谨慎延展以前的做法啊,就是很难哈,我们要想要设计一个光学系统,要做到一个非常大的景深,这个是非常困难的,为什么呢啊还要从这个点扩散函数来说起。

就是理想的情况下我们会汇集到一个点,但是实际的啊这种情况呢,我们一个点是不太可能的哈,通常呢我们一个点到了一个啊传感器上,它就是一个不断ko,然后这个科呢到底是跟什么相关呢。

我们在传感器的这个p s f,是跟我们整个的系统,光学系统的哪个部分去相关的,同学们可以思考一下这个问题,哪个部分是跟我最后的点扩大函数,是密切相关的,这个我们在上课之前已经讲到了一些剧透哈。

已经剧透了一部分了,已经剧透了,也就是我们的aperture,直接决定了我们这个点扩散函数的一个形状,然而呢我们的这个深度,决定了我们这个布洛克诺的大小,就是我们最后的点控大函数长得什么样。

第一这个第一个决定因素就是我们这个孔蓝,孔蓝的形状决定了我们顶峰的函数的形状,深度的变化决定了我们这个布莱克头的大小,就是两个两个因素决定的,同学们一个就是孔栏,第二个就是深度。

比如说这是我们一个呃传统的一个单反透镜,我们知道像这个是类似一个五棱镜型的,一个就是五边形的一个app,类似五边形的一个app,当然我们一个理想的点经过这个五边形的action。

实际上呢我们知道大概是他们有一个近似的,一个傅立叶变换的一种关系,它的这个强度就是傅立叶变换的一个呃,一个absolutely value的平方哈,三我们固定这个app不变,我们换一个不一样的景深。

这个时候psf的一个形状是不变的,但是呢我们不一样的景深,比如说呃我在离交的一个部分,它的点光的函数是变大的,这个变大就是决定了这个p s f skill哈,这skill我们再继续变大啊。

景深继续变大啊,这个深度继续变大,我们发现诶,这个点扩散函数同样的也在继续变大,诶这是再继续变大,诶再继续编导,我们发现唉它基本上就是呃在焦平面的位置,在前面的一个呃理想的下面的位置。

它的是直接这一个点的一个点扩散函数,就一个f f t离得越远,它越大,离得越远越大,当这个类似的情况下,也是离得近越近越大,直到它突破了这个焦点的位置,这是我们呃app的一个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直接就决定了我们这个布莱克诺的一个形状哈,这个最左边这个是我们透镜的一个呃孔完,也就是我们所所谓的一个光圈,他们就是近似一个整个这个action。

有时候呃也叫一个optical transfer function,叫o t f,这个学光学的同学们可能会知道哈,他这个时候,我们这个这个o t f还不全是一个啊,这个并不是这个app的一个啊。

完全就意味着是一个optical transfunction哈,我们这个app上不一定是一个口,也可能是一个相位板,但是这个app整个的这个东西,才叫一个optical transfunction。

因为我们这里面没有一些相位的一些变化,它就是一个物理上的孔,所以说这个时候我们也可以把它叫这个,optical transfer function,当然在下面上我们这个布莱克隆啊。

他就是变pds bad function,就是它是一个o t f的f f t的一个关系啊,当然这只是进轴的情况下哈,这个同学们要到了轴y的时候啊,它还会有一些其他的一些相差哈,这个同学们要注意。

当然这是在不一样的景深下,我们测到的一个呃点扩散函数的一个变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然到了我们一个实际的一个物理场景,每个点都有它自己的一个深度,也就是每每一个深度,都对应着一个点扩散函数的一个呃大小,这个时候同学们是不是想想就非常难进行,就是做底部的一种处理呢,这种已经是比较难。

因为我没有办法直接去判断哪个地方呃有深度,所以说我们要直接对它做debug是非常困难哈,当然要在这种情况下,我们要做一个呃每一个位置都清晰的一张图像,是比较困难哈,比较困难,然后怎么办呢。

因为同学们之前给大家讲过哈,在这个做实际调制的时候,这种情况跟实际调制也非常类似,你这个阿idea基本上都是相通的哈,我们在做实际调制诶,我们有一个非常大的一个,我们在整个曝光时间段都进行曝光的时候。

它的一个频域里面它会有非常多的零点,当时我们想到的办法啊,这是我们在一个呃或一个encoding,它的一个exposure,叫coded exposure,我们在这个曝光的时候呢,给它加一些编码。

这个时候我们就会使一些零点的地方去掉,也就是在我们的频域里面看,我这个频率是更平了,我可以踩到更高的频率,同样的方法是不是可以挪到我们这种呃,空域里面调制呢,同学们想一想,同样的方法。

是不是可以挪到这个空域里面调制呢,我们看到不一样的深度,进行卷积之后会产生不一样的模糊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们怎么样去做一个depth defocus的一个问题,来实现一个all in fox image,那这个呃有些像机器视觉呀或是车载,我们要判断路上情况的时候。

我们实际上是想要希望一个非常大的一个app,但是又有非常大的景深,让每一个点都清晰的聚焦里面,但理论上是不可能的,但是我们可以有非常多的办法,来提升我们这个景深的一个问题。

有的同学就说我们可不可以测一下,不一样的深度的点扩散函数,然后在不一样的深度给它进行分别的debul,其实是一个很难哈,因为很难,因为我并不知道我们并没有获得这个深度图,没有办法根据这个深度的一个位置。

来给他进行有针对性的一个地步了,但是想一想我们这个code exposure,我们可以在时域上进行编码,我们是不是也可以在空域上进行编码呢,对不对,我们在空域上进行编码,在我们的频域里面。

在对应的频域里面把它的一些零点消掉,把我们想要采集的频率,通过我们这种编码的方式来进行提升,这就是我们code的apture的一个核心思想,我们可以看到这种变化的点cos函数,是非常恶心的哈。

它不一样的这个位置我做底部。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这他那个效果是特别是这个点炮的函数,特别大的时候,他这个效果是非常差的哈,非常差的,所以说针对的办法我们是呃,要进行一个在app上进行encoding,来,在我的点扩散函数里面。

保持住我们想要的一些频率,啊这是我们传统的一个啊,左边是我们传统的一个单反透镜,它的那个app就是一个clear app,就是一个就是一个洞啊,右边的这个是一个编码进行apture。

它是一个二级的一个mask,二指一个mask,当我们当年的时候看论文哈,就看到这篇啊codapp的论文的时候,我们看这个mask是咋算出来的呢,我为什么能算出来这么一个形状的mask。

来实现我最佳的效果呢,啊同学们可以想一下啊,我第一次看的时候也有这种疑问,当年是怎么样找到这么好看的一个mask,它取得最好的效果呢,同学们猜一猜哈,这个没有啥技术含量哈,他们猜一猜这个这个这个形状哈。

这个encoding这个形状,它这个图案为啥是这个样子,当时我第一遍看中文没看明白,看到第二三遍的时候才发现,他这个action的这个这个这个编码哈,居然是穷举算出来的,他是把每一种都试了。

然后最后挑出来一个最好的,这位同学说的非常对哈,是多试几次,他是把每一个都试了哈,然后呢本身像我们在一定的深度,它一个点扩散函数是这个样子,当我们引入我们对它的一个呃,app的一个调制之后。

我们看到它的点扩散函数,现在是不是encoding的一些这个高频的信息呢,在有同学说这个大力飞砖啊,这个唉当年确实是,不,过,我们今天哈我们要再设计这么一个呃app的时候,你要再用这种方式。

那肯定论文中不了,所以随着时间的发展,我们这个本身这个技术也会不断的提升,所以今天呢就我就鼓励同学们,今天听完这节课之后,可以做一篇论文诶,这怎么样做去,我们去可以用做一个可微的一种方式。

把这个app进行encoding来去啊,做那么一个最优的一个mask哈,因为当年这个mask分辨率并不高,就几十乘几十的一个可能是32还是16,32x32还是16x16,这种穷举法是可以的。

但你要搞个高点的分辨率,128x128,这个可能就玩不了了,没有啊,你这个32x32就是二的32次方嘛,这个也还好,对这个还好,可能是16x16吧,我记得不是很清楚了,但确实是穷举法的。

我们这个时候我们在这个对action including之后,我们p s f就变成这个形状,实际上我们在频域里面是有一定的一个提升的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们通过这种cod的app的方式,来改变了我们这个p s f的形状哈,这是左上角,是当时他们做的一个圆形,其其实哈这个相机是镜头是不太好拆哈,不太好拆。

那个时候他们为了把这个这个app chencoding,他们是怎么做的呢,直接把那个镜头给锯开了哈,这个就把这个相机给破坏掉了哈,嗯本身呢,如果我们要拿到一个all in focus的一个图像哈。

就是它每个地方都是清晰的,当然我们要通过一个传统的一个点扩散函数,就是一个大原班,我们发现这这这个给给这个清晰的图像,进行卷积之后,各个地方诶没有高频,高频,该抹掉了,全都抹掉了。

右边呢像我们这种coded aperture,它是通过这种引入了一部分高频的信息,也就是哪怕是我们卷积之后,一些高频信息还是会有保留的啊,一些高频信息还是会保留的,唉所以说呢。

唉我们最后我们可以看到传统的一个透镜,我会捕捉到这么一个点框的函数,但是呢我们这个里面的一些亮点哈,它就会有这种带给我们这个pattern encoding的,一个点扩散函数的一个变化,当我们看到啊。

在频域里面看这个code apture,是怎么样把这个变化的呢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是一个圆一个圆一个圆形的一个点框的函数,我们在做这个f f t做了一个变化,变化大的一个频率,我们发现它大概就像一个衍射斑一样哈,衍射斑一样,中间能量非常强,然后一环一环的诶这么个情况。

我们这个coded aperture呢,我们对它做一个分列变换,你就发现再往的频率啊,我们可以看到啊,这个这个同学们仔细观察一下,这两个频率的图像有没有什么区别哈,我们想一想,中间这个地方肯定是低频嘛。

能量都在低频,这个地儿边缘的地方是高频,就很明显哈很明显,就是我们这个code的一个边缘部分有更多的高频,也就是我们保留了更多的一些高频信息,当然我们看到啊,我们传统的一个点扩散函数,它是有零点的哈。

就是在我们中心能量的旁边是有零点的,我们知道频域的成就,我们做卷积的时候,频域的乘等于时域的卷,也就是卷积在我们频率里面做卷积的时候,也就到了我们频率里面实际上去做点乘,对不对,当我们一个高频的图像。

跟我们这个传统的psf的这个呃频域相乘的时,候,这些零点啊就意味着我们这些信息完全丢掉了,对不对,同学们这个而且边缘的地方没有高频信息,直接就被这个这个ipad,它就是点扩散函数的一个频率直接给干掉了。

高频信息就完全抹掉了,而且在呃这个他会有零点,有些信息就完全抹掉了,但是我们这个cody action呢,我们看到它基本上是没有零点的,也就是我的大部分频率都是有所保留了。

然后呢我们看到边上一些高频的信息,也是比较有效的进行的保留,同学们注意这一点哈,一个圆形的p s f跟这么一个调制,调制过后的一个psf,它在频率的保持能力哈,我们这个code有一个本质上的提升。

我们这些频域信号的保留住了,然后后面我们可以通过算法,把这些保留住的频率再进行一步一部分的恢复,从而实现我们最好的一个重建的一个效果,因为有信息才可以进行重建,没有信息,那你就是呃瞎猜了啊是吧。

所以说这个时候我们输入的图像是这个样子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个理想的,每个地方都啊聚焦了非常好的一个情况输入,然后做一个deconvolution,然后呢我们要对比一下这个标准的一个apperture。

跟那个coded aperture有没有什么样的区别哈,当我们做这个底部链的时候,不一样的,这个这个app这个点换的函数的一个大小,它是会非常影响这个decoversion的一个结果的。

我们可以看到大小相符的地方,比如说这个natural这个标这个字的时候,它的抵抗不是效果比较好,但是本身呢像前面这些薯片啊,可乐呀,它这个他的这个啊p sf,跟我们啊就是预设的这个psf不一样。

他那个节卷机出来这个artifex就比较多哈,我们coded or捕捉到的图像就会是这个样子,我们可以看到,当然我们是通过这种编码的方式,我除了对我们已知的图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以拿到一个all in foxes image,也可以通过这种编码的变化,来进行一个deft的重建,我们知道了预估了每个位置的一个深度,然后可以通过这种办法呃,进行各个部分的一个重聚焦啊。

我们已知深度了,我就可以呃想让它在哪个地方清晰,就让哪个地方清晰,背景就可以模糊掉哈,这个就是refoxing的一种啊,玩法大家可以看到诶,我让他假装聚焦在前面啊,这个假装聚焦在中间,假装聚焦在后面。

这是都是来源于我们对通过这个cody action,对它的一个深度的进行一个估计,这是一个深度估计的办法,其实哈近几年我们可以看到,就是整个cv界里面有非常多的这个弹幕,来估深度的一种办法。

当然这种啊只是通过数据集估,它的一个相对深度是比较难估得比较准的,哎所以说后来啊,但是他那个相对相对相对深度是可以估的,还不错哈,还不错,当然工业跟车载里面肯定不会用,因为这个毕竟是猜的。

所以说呢相对深度比较好,我们可不可以用什么办法,来使这个单目深度估计来过的比较好呢,因为我这个通过一个神经网络啊,我只能比较好过他的一个单目的,一个就是一个相对的深度,这个时候怎么办呢。

同学们有没有什么idea,来去对这个弹幕的一个深度估计,进行一个有效的提升呢,单目深度科技,记住哈,弹幕只是弹幕的一个深度,估计可以比较好的估出它的一个相对深度,这怎么办呢,聪明的人类就有一篇论文哈。

看到非常有意思,它是通过一个单点的一个测距仪,测到了一个图像的某一个点的一个深度,这个深度是准的,然后以这个做参考,然后再结合着弹幕深度估计诶,这个时候就拿到了一个啊,有一个点的一个深度估计的一个情况。

再进行结合着这个弹幕深度,因为相对深度是准的嘛,它结合着一个点就可以拿到一个比较好的一个,这种深度估计的结果哈,这是一个单位估计的一个小trick,当然本身这种瞎猜啊还是不太好。

因为它没有一个物理的保障,所以说呃有非常多做计算摄影的一个同志们,可以就用这种啊special including办法,我让不一样的深度有不一样的点扩散函数,这个时候我们通过这种变化来估计。

我们最后的一个啊深度的一种啊,值就有两个公司哈,有两个公司是做这种呃,通过点扩散函数的变化,随深度的变化来进行估深度的一个叫double helix,double helix不是公司还是一种方法。

叫double helix,它是一种显微镜里面常见的一种方法,我们要做三维的显微镜哈,我这个不大可能通过这个光飞行的时间来去测,这个也不大可能用双目哈,这个结构光也不行,咋办呢。

就只能通过这种点扩散函数的变化,他是怎么设计的呢,这种double click,它点cos函数,就像这个我们这个脱氧核糖核酸一样,它是一种双螺旋的结构诶,它就像两个点不一样的深度,这两个点在变化啊。

两个点在变化,最后可以比较好的估计出来我们深度的变化啊,类似的一种做法,有一家公司叫艾瑞斯v d啊,是美国还是加拿大的一家公司啊,这些圈里我们都很熟哈,这这公司就做的。

通过这个光学进行不一样深度的一个点,光大函数的变化,来进行一个三维的一个深度的估计,这是啊我们这个code的一些嗯,结果输入的图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

all in fox,这是一个清晰的一个,这是一个coda的一个,然后做题conclusion的一个结果,然后我们可以估深度呀,然后对这个深度进行refoxing,这个是非常有意思的啊,一篇文章。

来同学们想一想,当我们用这个code的时候,它有没有什么缺点呢,有没有什么缺点,就以我们这个手上的这个code action,就是图图里面展示的这个为例哈,首先我们丢失了一部分光。

对这个同学说是光能损失,就你这个透光的地方越少,它这个光头损失就越大,这里面大概是一半啊,这里面大概是一半,然后还有没有什么其他的一些呃缺点呢,对极限情况下等于小孔图像,也就是说我们在这个当时哈。

我第一遍读这个论文的时候也会发现真空,我们这个每一个它像一个二维的,一个像一个二维码哈,我们这个二维码这个每一个小项点,它大一点好呢,还是小一点好呢,大了之后最大之后就变成一个一个孔了吧,小了呢。

每一个点就会带来它的一个衍射的一个效应,所以说这个大小哈当时也是做了一个平衡的,同时呢我们这个psf,你别看它就including了一些高频,然而它还是会受到这个深度变化的一些影响。

也就是这个形状是控制住了,但是我的大小还是会受到唉,这个深度变化的影响,啊我们刚才讲到了,我们对这个点换的函数形状的控制,我们可不可以控制它的大小呢,这就是我们今天的第二部分。

就是对这个focus swap,来控制一个均匀的一个大小,从而实现一个景深的扩展,我们知道啊,这个不一样的深度,决定了我们点扩散函数的大小,对要聚焦的位置就会理想的一个点,它就是一个呃衍射斑。

但是大了之后,你会发现他的一个skill,是会随着深度的变化而变化,当我们聚焦到不一样的位置,但是它还是会随着深度的变化而变化,这个是呃没有办法的事情,但是呢,我们最不一样的这个大小的点扩散函数。

很难debu,我们可不可以让它一样的坏,对呀我不一样好,每个点每个都是一个非常小的p s f很难,我们可以可不可以让它一样坏,就是都是均一的一个大就好了,然后我们对这个大的一个psf进行解卷积。

这个时候人们就想到了一个focal swap,的一个idea,这个售后swap是咋实现的呢,比如在我这么个深度的一个位置,曝光很多很多帧,每帧呢有一个对焦位置,然后把它加起来,就在我曝光过程中。

我是在调焦,从而呢我们最后可以拿到一个积分起来的,一个点光参数,也就是我们对这些扫描的时候进行积分,拿到一个军医大小的一个psf,但是呢虽然这个psv已经损失的比较高频,但是我解剪辑的时候嗯可能还行哈。

解的结果还行,这个他有什么异样的优点缺点吗,同学们想一想,优点就是我的这个点峰赛函数,不再随深度而变化,但是呢他损失了一部分很多的高频信息啊,不是一部分,就是每一个经过这么一个难看的一个,点控的函数。

它的一些高频都会损失掉,也就是我们那个锐利的边缘,都被这个呃大大的p sf给磨平了,但是呢嗯我们虽然不能捕获到每一个位置,都非常的一个清晰可见,但是呢我们通过这种方式,拿到一个均一的p s f。

我们就可以简单的一个简单的做一个deconution,来实现啊,这种我们这个非常大景深的一个成像,哎同学问同学有两个问题哈,刚才我们做code action的时候,我们是可以啊,估深度的。

同时呢我们估了深度也可以做这个refocing,那这种focal swap的一种玩法,可不可以来估深度来做refox呢,这个答案肯定是不行的哈,因为我们最后拿到了一个啊,随着深度不变化的一个psm。

扫完之后都一样哎,都一样的意味着什么呢,就是我们所有的深度信息都丢失了,想要估深度,这就是让每个地方不一样才行,所以说刚才像个double helix一样,还像d都是专门设计光学系统。

让不一样的深度有不一样的点化的函数,当然这个时候我们要刻意的保持住高频哈,它不能像传统透镜,你这都模糊掉了,你重建的深度没有边缘了哈,这个也也不好,所以说要专门设计一些关于系统来啊。

通过不一样的深度来进行编码,来实现一个呃深度的估计,这是一个focus swap的一个原型哈,它有这种调的时候。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

积分的时候,我们在这做对图像进行积分的时候,啪一下调焦诶,这事就搞定了,像我们传统的一个呃相机的一个点扩散函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们看到诶,不一样的,当然我们可以看到这个focal swap,的一个点空单函数,你看它右边,它基本上随着深度不咋变化不大变化。

这个有时候也叫extended depth of field camera,也就是请伸延展相机来谨慎延展,不止这种方法哈,我们也会有非常多的一些景深延展的方法,来实现我们最后的一个啊大景深成像哈。

当然这个大点声前提是要保住它的光圈,光圈足够大,这个时候我们做到了,这个景深成像才会有一个比较好的效果,这是我们对这个啊不一样这个景深的一个对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到啊,左上角是我们这个呃focal swap amazing,直接拍到的图像,它是一样的弧一样的坏,右边呢是我们做的这个conclusion的一个图像,左下角呢就是我们传统的一个这种镜头。

拍到了一个地方聚焦的位置,清晰理焦之后就模糊了,当我们做一个对他做的conclusion的时候,其实挺困难的哈,这个时候我们本身的这个呃图像,我做deconclusion的时候,他也受到噪声啊。

或者不要这个啊,点关函数的一个大小的一个影响,最后拿到了一个图像,解出来总是有这些artifacts哈,有些artifacts,我们用这种focus sweat sweep的方式来实现呃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们这个景深演讲的时候,同学们想一想他有啥一些缺点呢,就最简单的一个缺点,就是我们有一些机械的部件需要它进行移动,所以说呢呃它会有一些像这种扰动啊,或者是motion blur的一些问题。

然后第二个缺点就是我们这个深度不变啊,深度不变,对我们这个整个的一个调教的一个速度,要求是比较高的哈,这个要求比较高的,还有恒定的一个扫描的速度,然后第三个部分就是我们丢失了一些深度的,一些信息啊。

它是一个随深度变化的一个呃,随深度不变的一个psf,当然那最重要最重要的缺点这里没列出来,就是它损失了非常多的一个频率的一个,高频信息,所以说呢这个东西啊玩一玩是不错哈,但是很难用到实际的一个呃。

就是生活生产中中之中,我们可不可以用一些更好的方式来实现这个呃,来对这个景深进行延展呢,我们可以用一些generalized optics来进行调制,可不可以呢,其实是有办法的。

当我们就是传统的一些呃透镜哈,就是一个单透镜,我们可不可以用一种像自由曲面呀,或者是一些呃其他的一些微纳,一些微微纳的一些调制,微纳一些元件的调整,比如d o e或者是超表面的一些元件进行调制。

来实现一个呃就是整个的一个景深扩展呢,这是一个就是拨弦调制的一种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是用了一个三次相位板,我们传统的这个就是在这个app上就in fox,在聚焦的位置,一个非常小的p s f离焦之后呢,我们可以看到哈,右边这个点空单函数有一个非常大的一个班啊,非常大的一个班。

当我们进行用这个三次强化版,也就是微from coding的一种办法,来进行调制的时候呢,我们可以发现在我们可以保持住在中心,保持住一个比较高的能量,然后保持住一定的高频,但是呢他是牺牲了呃。

就是其他两个方向的一个分辨率,也就是在我们这个xy方向,它是有应对牺牲的,这种方法是可以比较好的对景深景深进行扩展,但是有一个什么问题呢,就是我在xy方向扩散的能量比较高,比较高,会有什么问题呢。

就是有特别亮的一些地方,我这些周围的psf,会让我这些周围的点再次饱和掉,这个时候也就是我们通过这种为防的coding的一,种办法来进行景深延展的时候,我会牺牲一部分的一个动态范围,就是特别亮的地方。

总总是有问题的,这是当然了,要避免这种三次相关板的一种呃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就调制损失这个动态范围的一种办法,但这个很难哈,这个到现在也没有完全解决掉啊,这个对这个动态范围的损失的一个问题,当然除了像我们刚才讲到的一个,三次相关版的一种方法。

我们还有一种lightest length的一种方法来,也就是每个地方有一个啊,它有一个自己的一个小特性进行调制,也就是用一个list light array,来调节我们不一样深度的一个呃焦距吧。

这是一个lettuce lch的模型,也就是在我们的这个嗯在我们这个镜头之前哈,我们加一些小的一些透镜,但这些小的透镜呢有不一样的一个焦距,不一样的焦距,这个时候我们通过这种调制啊,这个也就是这个上面。

直接是直接挪到这个透镜上的哈,通过这么一种方式,我们是可以encoding,很多不同景深的一些高频信息,然后把这些高频信息including在我们center之后,还是信息捕捉到了吗,不知道了。

我们再去解这个高频的信息,哎这就是一种lettuce lunch的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以啊非常有效的啊,去捕捉到我们想要的一些信息,当然它是一个呃4d light field的一个小的一个呃,就自己本身呢我们想拉着锯子呃,包就是fd捕捉的是一个4d的一个信息。

但是我们这个image本身呢,它的一个谱是一个二级信息,深度是一个1d的信息,我们后面两个就是xy,再加上深度是一个3d,最后呢呃我们这个想要拿到一个本身哈。

我们通过这种lettuce encoding它的一个点cos函数,它是一个随深度变化的一个变换函数哈,它并不是不变哈,所以说呢通过这种encoding,我们还是需要对不一样的这个深度进行。

分别的节卷积啊,这个时候其实对应用也带来了一定的困难哈,这是一个传统的一个啊标准的一个途径哈,standard length聚焦的地方诶非常清晰。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

提交之后就会变得模糊,这是一个lettuce length,拍到了一个情况,我们看到哈,这个比之前哈我看到背景前景背景变好了,前景坏了一点,坏了一点,但是这个时候可以接受哈,可以忍。

这一个标准的一个透镜,就是let is length拍到的一个呃,这个图像它是对有效地对高频进行了调制,这里一个标准透镜,life is length。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到这个letters lse啊,虽然说这个拍到了这个artifacts会有一些好,但是它是可以比较好的保留前景,后景的一部分高频哈,当年那个时候大家可能算法呃,基本上只有这种优化的一种方法。

同学们可以把当年的记,像这个lettuce list的一个嗯,玩法呢换到今天,我们可以通过这种方法,再换一个深度学习的一个重建网络,大家再看一看,重做一遍这种实验,看看我们的这个效果。

会不会有一个本质性的提升,我相信是有一个非常好的一个有效的提升,但这种方法因为我们这个深度点化的函数,随深度变化还是有的哈,所以说这个时候我们是可以啊,比较好的估算它的一个不同位置的一个深度的。

我们能过了深度之后呢,我们就可以对这个图像进行refox,就是啊,就是我们在拿到一个all in fox的一个图像之后,我们根据这个深度的图啊,对啊背景比如说做个布乐呀,做前景做个不乐呀。

来做一个refox的一个效果,这是一个refox的一个效果,不一样的深度的一个距离,当然我们对这个after encoding,就是这个special encoding有非常多的方法。

这个包括像我们标准的一个透镜啊,像code action啊,像focal swap,we found coding,然后还有一个letter length,我们都是有一个呃比较好的一种。

就是我们对不一样的这个以后这种办法来做,对谨慎延长这个特殊情况进行了一个比较好,进行一个比较,我发现这个code action其实嗯效果是比较好的,但是他对一些极限的一个深度就比较难以把控。

极限的深度比较难以把控,所以这个对一个一些比较呃,非常非常大的一个景深的情况下,这个lettuce认识表现是比较好的哈,这个微风的coding呢,当然现在微商coding也有一些比较好的一种啊。

结果同学们啊下了课可以去嗯google scholar,搜一下最近的一些special encoding的一些方法,但除了这个之外,哎我们还可以啊,对这个special including。

我下节课会给大家讲到一些,就我们这个这几年最新的一些研究成果啊,这个时候会有一些呃,除了谨慎延展一些其他的一些,special encoding的一些方法方法。

这是一个diffusion code photography。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它是用了一种啊滤光片啊,是不是这fer直接把这个diffuser放到这个呃,放到这个app上了哈,它也是可以啊,比较的实现这个有效地实现,这个景深的一个延展。

今天呢就给大家简要的介绍了一个code photographed。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这么一个玩法,然后呢它包括这个code aptor,focus swap,还有一些其他的一些generalized optics,呃,为什么,let us length,这你这整个问题是什么意思。

这这个peter陈同学,为什么lettuce,哦你说这个letters lcode这个景深延展呢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你说效果会就是极限的一个景深延展会大一些,对不对,这是为什么呢,我们这个letters lunch本身啊,上面我们可以加不一样的一个focal length,这个时候也就是对我最后不一样。

景深的一个高频调制会更好一些,但是我cod的app本身我是copy code,本身是已是对那个点扩散函数引入了高频,但是我这个code aptor随着深度还是会有变化的。

就我景深离的离这个聚焦位置特别远的时候,我这个code的app还是很大,这个时候我高频损失还是比较多,所以说在比较极限的情况下,这个lateli会比较好的保持。

就相比这个code action会保持更有效的,保持更多的一些频率,所以说我最后恢复的一些信息啊,也就会更多一些,也就是为什么let us be coded action。

在极限的情况下会表现的更好一些,当然在有效范围内哈,还是这个code action啊,这个图看起来更好看一些哈,好今天的课程就到这里,同学们有什么问题吗。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嗯这个这有同学们有投入产品的吗。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个没有,还有这个样子,同学问这个every beam,能在播前编码中花费作用吗,应该是可以的,这个应该是可以的,我估计哈,你可以看一下这个艾瑞斯three d这个网站,他们可能用的是用。

用的就是这种方法来进行,这个对这个不一样的深度,来进行电光的函数进行调制,来获取深度,这个可能是可以的哈,这个你可以看看,我没有具体看他们具体怎么实现的,同学们还有什么问题吗,好了,既然同学们没有问题。

那今天的课程就到这里,下次同一时间同学们再见好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

24.端到端相机设计 | GAMES204-计算成像 - P1 - GAMES-Webinar - BV178411w7dC

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好那我们就不等了,你们时间已经已经开始了啊,因为整个课程受到我们整个的时间限制,其实我们这个课程已经从7月份讲到了1月份,其实已经比较长了,但是我们只覆盖到了24节课,本身的一个课程设计。

总共是有32节课,但出于时间原因呢,我们对整个的课程体系进行了很大量的删减,所以说尽可能的把骨干内容,就给同学们讲解清楚,今天呢我们正式步入到了我们最后一节课,因为我们整个课程是在年前。

我们之前讲到了我们整个成像的种种模型,包括它的光学模型,我们的物理世界,还有我们整个的光谱分布呀,它其实整个是用一个全光函数来去描述,我们整个成像的一个过程,到最后包括像我们的传感器模型。

我们想要建立了一些优化模型,还有最后我们一些呃,其他的一些非常经典的一些调制方式,包括像食欲调制,还有空域调制啊,都是给大家带来了很多的一些啊启发吧,可以说今天呢我们就啊授权时间性质啊。

我们把那一部分的一些空域调制,还有一些调制的那些那照明啊,特殊传感器啊,一部分啊删掉了一部分,今天就直接进入到我们最后一课啊,就是我们端到端的一个相机的设计,都要当成像的一个设计本身。

从它的一个物理意义出发,就从某用户的场景,我们用户的场景是什么样的信号,比如说一棵树哎,有树叶子,树叶有它的一个位置分布,它本身树叶会反射光谱,太阳照照出来会有一个光谱,唉像这么多维度的信息。

我们想不想在我的机器里,或者是我们的一个display的一个视觉里,把我们想要的信息恢复出来,但是这个时候我们对我们想要获取的信息,是有一个非常明确的目的的,这个时候我们就可以把我们的光学系统。

我们的一个呃传感器,我们后面的一个计算,整个的打包一起优化,从而实现一个端到端的一个相机的设计嗯,今天呢我们的内容会从四个维度开始。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这也是呃我读博期间的一个研究历程啊,包括像我们中间会有非常多的一些小故事,还有一些非常遇到了怎样的困难,这些困难是怎么克服的,我们从高端成像从零到有摸出来,这一条线大概是经历了四个步骤。

最早呢还是属于我们比较传统的一些成像,我们是联合了工学跟算法一起联合优化,后来呢,我们想要通过直接把这个光学系统做成,可以微分的形式,所以说第二步我们就做了一个初次的尝试,就是把我们的一个关联系统。

跟我们的后面的一个算法同时的联合优化,这个时候就需要对我们的整个的光电系统进行,可以微分,那个时候我们实现了一个单波长的,一个可微的一个光学模型啊,当然这个模型是衍射的,到了后来呢。

我们不再局限于一个单个波长的一个成像,因为我们会有很多的一些限制,实际上我们还是想要对一些彩色进行成像,所以说啊到了我们第三步,当时是把它运用到了一个hdr成像的一部分,到了第四部,也就是终结篇。

是要实现一个端到端的复杂透镜的设计,因为前面啊我们都是基于一些可微的衍射模型,它会有很多爆轴近似啊,或者是单层模型可微,这个时候我们还是想要跟我们的一些工业界,或者是我们的一些实际的一些应用挂上钩。

这个时候我们就花了大概这个最后一天工作,花了挺长时间,可能花了1年半2年的时间,最终实现了一个多层多波长的一个复合,透镜的一个设计,这个时候是用一个可微的光线追踪来实现的,当然这个也是世界上第一个。

你可以就把整套复杂通讯系统,和后面的这个orgorithm一起,联合优化的一套系统,今天就给大家分享呃,整个的故事的一个流程哈,这个咱不算是一个课程了,他有很多的一个故事性。

我们会在中间遇到了非常多的困难。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是呢遇到这些困难之后,我们发现当我们解决了这些困难的时候,就会啊整个人就会变得非常高兴,这第一步整个我们在整个进入端到端成像之前,我们还是做了非常多的尝试,那个时候我们啊做了一个大视野的一个单片。

怎样的一个特性,可能很多学光学的同学会知道,想用一个单个的一个透镜,要实现一个非常大的视野是非常困难哈,但是呢为了实现这么一个东西。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们是想要以更轻薄化的一些成像装置啊,包括像我们呃一些轻薄化的一些单反透镜啊,或者轻薄化的一些啊,特别是我们内窥镜啊,医疗领域里面用的会更多一些,当然还有一些空天探测,比如说我们这个卫星上。

我要打一个非常大的一个透镜,是非常困难的,就比较贵,所以说把这个透镜轻薄化,一直是一个大家想要追求的一个点吧,所以后来人们就做了一些像直接把透镜,比如说用这个3d打印,打印到我们这个传感器上面呃。

也可以用一些像这种颜色的透镜啊,后来呢嗯还有一些像这种啊,直接去用野生云进去做一个,就这这是费尼尔镜去做一种透镜,然后再继续它的相差,那还有一些像diffusion的这个叫18年,这篇论文是哎。

我记得应该是lower的一个论文,它是一个用一个diffusion的一个faceplate,diffusion plate,然后去做一个成像,然后再做解密问题,但是呢像这些颜色呀还是抄表面的。

在那个时候哈,就是那个时候18年,可能18年的时候想要实现一个轻薄化的设计,但是我又想要一个非常大的一个设计自由度,这个时候当时我们就想到了,可不可以用一个单层的透镜,来实现一个大视野的一个成像呢。

但那个时候不像现在我们有非常多的工具哈,就包括我们后面这个21年siggraph的工作,可以做到一个可谓的光线追踪,来去自动优化这套透镜系统,那个时候呢我们只能想办法。

怎么样把光学跟我们的一个重建的一个算法,去挂上钩,联合起来,这样的话才能最大化我们整个的一个优化的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个效果,像我们比如说单个的透镜啊,就是比如说我们搜lab买一个呃50mm啊,或者是呃25mm的一些透镜,我们知道无论是球面镜还是非球面镜,想要实现一个单片镜的大势,也是都是非常困难的。

我们在轴内的一个相差是可以控制在比较好,但是整个单片的透镜它的轴外相差是非常大的,为了解决这个问题呢,右边这个是我们当时实现的一个效果啊,一般哈单层单层透镜,大概就是10度左右的一个视野,哎。

这个时候我们可以通过光学跟算法联合设计,来实现一个50度的一个大视野的一个成像,仅仅用一个单片的一个薄透镜,当然是怎么设计的呢,当时哈是有这么一个idea,我们很难让我们的这个这个这个透镜啊。

在各个视野里面,它的点扩散函数或者是mtf响应都比较好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是非常困难的,但是呢我们可不可以设计这么一个idea,让我们各个视点都一样的坏,对不对,但是一样坏的同时,我在这个一样坏的,这里面又保留一定的高频信息,这个时候我就是保利率的高频。

但是它的尾巴这个点光的函数的尾巴很长,我们就管不了了,对不对,这不管了,但是呢我们编译信息还是中心信息,都是保留了一定的高频信号,这个时候就对我们后面的一个恢复,而从不可能变成了可能。

当时呢像我们设计光学系统的时候,用到了一种叫virtual action的一种技术,就是我们设置一个虚拟光圈,在各个不同的视野里面,我们设置一个虚拟的孔栏,这个虚拟的扣篮。

实际上我们可以看到就把周围的杂光,实际上就是啊都给滤掉了,这个时候我们去设计它的点扩散函数,但是我们知道这仅仅是一个虚拟的空难,当我们考虑到整个全局下面的时候,它的一个尾巴是非常长的。

也就是我有一个点构造函数,有一个尖峰啊,像图里面这样子有一个尖峰,但是呢它的一个周围的一个这个尺寸呀,是非常大的,它有一个很长的一个低频的一个分量,当时我记得我们拍到了那个分量。

可能是这个点扩散函数尺寸啊,可能得有900个像素,你看这个900个像素其实就已经非常大了哈,你这个要对一般的底部其实已经非常困难了哈,所以说最后在图像传感器上拿到的图像,就是右边的这一个图像哈。

当然这个图像我还印象挺深刻的,当时这个事就是你们在群里看到那个顿,熊顿老师,我们跟顿顿老师一起去多伦多玩,然后这是多伦多动物园啊,我带着那个相机玩的时候,就把这个实验给做了啊,这个场景是非常好的。

这应该是他们的一个室内的,一个这个这个这个场景哈,室内的一个像那种看鸟啊,看这些东西的一个地方啊,挺有意思的,当时就拿了一个薄薄的一个透镜,就是落在我们的一个索尼a7 上面。

然后去在我们动物园拍来拍去哈,然后呢把我们这个整个的一个光学成像,跟后面再连接一个呃重建的一个算法就可以啊,最后实现我们一个比较高质量的一个,就是单片层大透镜的一个成像啊,大扩大视野的一个成像。

我们可以看到哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们在不同视野里面捕捉到的一个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它的一个点扩散函数,左边这个是一个传统的一个非非球面镜哈,这是可能是slab买的,一个50mm的一个非曲面镜,其实这个向日它是它本身是非曲面的话,它是按理说应该是比较好的,我们可以看到在中心视野的时候。

它的一个点光的函数能量是比较集中,但是边缘的地方呢它就会破坏的比较厉害,右边呢是我们的一个设计,大家可以看到,无论是中心还是边缘,它都会有一个比较尖的一个分行,但实际上这个我们会有一些低频的一些损失。

就是我们在整个的一个点光三函数,它周围会有一个非常长的一个尾巴,像这种点放在函数的设计,实际上我们当时是保留了一部分的高频的信号,但是呢周围的一些长的尾巴,是造成了我们整个图像的一个。

就是对比度的损失啊,这个对比度的损失,实际上就是我们最后这个图像上蒙了一层雾,诶,这一层雾雾的感觉哎其实哎当然也不好,它会也会有一些飞跃case,比如说我们有非常强的一个太阳光。

这个时候他这么大一个顶空的函数,它周围的地方像素也会过曝,这个时候就会有一定的局限性,唉这个没关系,这个我们已经带来一个全新的思路哈,就是保留一定的高频,可以恢复它的细节,在一些非常多的场景。

是已经可以解决我们实际的一个问题的,当然这是我们当时重建的一套网络,当时那个干比较流行,当时就用了一个去干来去重建我们这个图像,这个还有一个非常有意思的事儿哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是那个时候我们这个deficial retracing。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

还有像这种渲染啊,都还没有很完善,这个时候我们怎么样去造这么一个数据集,然后去恢复我这个数据集的相差呢,所以当时我跟郑老师就一起想到了一个idea,那个时候我们在cos在沙特,然后去做那么一个实验。

就是拿屏幕拍屏幕,当时这个这个这个想法挺扯的哈,就是我们因为我们知道这个整个屏幕的,它的一个就动态范围呀,还是非线性还是非线性,它的响应它也是非线性的嘛,还有包括一些颜色都会有变化。

这个到底拍了个屏幕来造这个数据集行不行,实际上我们可以看到这个像右边那一栏哈,右边那个图,右边右边那一栏,右边的图就在这个图,就是显示器上诶,显示的那么一张图,左边呢就是我们相机拍到的一张图哈。

同学们想一想,这个整个拍屏幕就困难在什么地方,其实这个是非常非常困难一点,psf这个还真不是拍屏幕标的这个p s f哦,不对不对,就前面看的那张图是拍了一个屏幕,但是你要真正的要标p s f。

你要考虑它的动态范围,你就啊这个屏幕就会受限了,大家就同学们就不要去通过拍屏幕去标psf了,当时会遇到什么困难呢,首先我们这个像素啊,是不是要跟我们这个实际的拍照的像素,是不是要跟我们实际的像素进行呃。

按像素匹配的,对这个屏幕有纹理,这是一个问题,屏幕本身哈,我们这个像素大小,我们的传感器像素大小跟我们的这个屏幕,像素大小在我们像空间频率差不多的时候,这个时候会摩尔条纹,好,摩尔条纹。

当时呢这个我们也没有这么多,这个钱去买这个非常大的一个屏幕哈,所以说这个当时就把这个屏幕离得比较远,实际上就只有中心那一小区域诶,是可以管用的,但是当时本身哈,这个点扩散函数。

其实已经基本上没有办法去标定了,这个基本上没有办法去标定了啊,当时一班老师是在美国这个实验室,我跟郑老师在一起折腾,然后没有办法标定的,这个怎么办呢,因为这整个像素非常大哈,而且它周围的这个尾巴。

他这个值相比你们这个pig非常小,也就是你做标定也是没有办法直接的获取,我这个尾巴到底是什么样子本身呢,这个点估算函数的分布,也会随着整个空间的变化而变化,它又随着景深变化而变化,又随着视野变化而变化。

说这个问题就非常困难,所以说当时也是没有办法哈,就是造了这么一个数据集好,造了这么一个数据集,也就是拍屏幕啊,但后面我也见到了非常多拍屏幕的一些做法哈,这个你说可以吧也可以,但是他并不是特别完美。

因为拍屏幕我们要考虑到非常多的事情,像除了非线性颜色,就是我们要叫颜色本身这个屏幕的一个三原色,它的一个曲线要跟我们这整个的一个,就是相机的一个color filter,它的颜色曲线去匹配啊,去匹配。

但你无论怎么样,都不大可能去完美的去还原,我图像本身自己的一个颜色,这个是非常困难的哈,就是因为三原色跟就是卡拉菲特,而wait它的响应不一致啊,显应不一致,这是第一个challenge在里面了。

所以说其实最后我们拿到的结果还是有点色偏,有点色偏,第二个部分就是本身图像的动态范围,我们知道这个,首先你要把这个图像搞成线性显示,要不然你最后拍的图像会有问题,因为本身我有一些就是这种屏幕啊。

它只已经做了一个汤白品,我一个出了一个16位的图像诶,最后我只能看到一个八位或十位的一个东西,但是本身呢我们周围的一个强弱啊,每个不同位置的强弱也是经过了一个调整。

它有一个local的一个tomap进行调整,最后来把细节给你展示出来,这个整体的图像变化了就非常难受,你要拍个仅仅拍个线性呢,它会有一个这个contrast的一个损失哈,当时也是遇到了非常多的困难。

最后诶就把这个相机先搞一个棋盘格,先标定像素对齐,还好好像素对齐,当然你这个像素对齐也不是特别完美,当时为什么选干来做这个事,其实本身刚开始是想解一个呃,这种优化函数来解这个问题。

但是最后没有办法去做了一个优化函数,因为最后像素啊并不是完美的对齐,哪怕我们做了一个标定,再做一个仿射变换,但我们知道啊,我们实际上拍的那个镜头啊还是有相差的,它的轴外跟中心它的像素会有偏移诶。

这个时候就会变得比较困难哈,比较困难,然后在实验室做了一个自动捕获的,拍一张还弄一张,然后自动处理完,搞了这么一个电扇子,其实最后我们看这个处理效果还可以哈,还可以哈,因为这个卷积稍微偏那么几个像素。

可能也还好也还好,当然这个最难的一个问题就是颜色,还有一个我们这个tomap的一个问题,会有一些hdr损失,同时这里还有一些local tomap的问题,会带来不一样的区域的一个不变量。

区域的一个嗯变化吧,这个时候都会对我们结果收敛的不好,也就是我们最后处理出来的一个实际做实验,处理出来一个图像是比较差的,但除了这个部分的困难,还有就是我们加工出来的一个东西啊。

这个以后同学们做这种实验的时候,可以特别注意一下,就是我们如果要加工透镜啊,那个材料一定要选好,一定要选那种光学级别的一个材料,当时我不记得我们用的是pc还是pmm,但是呢那个那个pc还那个材料。

是淘宝买了一块哈,它的本身工业性质不是特别好,不是特别好,在淘宝上买的这个它会有一定的一个色散,对当时用的p m v,这个好像是淘宝买的材料不是特别好,因为我当时在这个材料这块也不熟。

后来也发现加工这种的材料是有一些,就是对一些它的一个diffusion,会有一定的影响的,就是我们当时的材料不是特别好,其实最后做实验的时候,整个图像整个物感会比较强,就是会有一层雾蒙蒙的感觉哈。

我刚开始觉得是加工不准引起的,后来结果就是后面几几次做论文啊,然后做实验发现这个并不是,这个就是材料引起的,有同学们可以注意一下,这是当时加工的一个pro te。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以实现一个50度的一个视野啊,就这么一个单个的,当时用一个单点金刚石车嗯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来去把这个加工出来的,当时是一班老师去找这个,就浙大这些一起加工的,但除了这个上面还是有刀纹的哈,这个这个单点应该是车拆东西会有刀纹。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个也会有影响,其实同学们要是接触到产业界。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特别是做我们这透镜的模具,我们做透镜的模具实际上也是有刀纹的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是我经过注塑,它通过那个表面张力啊,就把这个刀纹实际上是消除掉的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

哎这个同学们注意,就是我们最后注塑出来的这些模具里面的这些。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

哪怕模具有刀纹,我们最后注塑出来的表面仍然是光滑的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它是被张力给拉平了,这个就是非常好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们当时最后做实验的一些结果,当时是在非常多的地方去拍啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

包括这个国王经济城,还有这个当时一个student center里面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是搁那瞎拍哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但那个是最早的一个尝试。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是那个时候并没有构建起来,我们光学系统跟我们这个呃,后面的一个重建的一个直接的一个关系,后来我们就做了一个尝试,就把我们的一个光系统,但是这个是单单单层单波长的哈。

这个是根据我们speed本身的一个采样率的问题,来进行给他一个优化本身啊,包括现在spt传感器自己啊,它也是有非常多的一些。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也有非常多的英文,包括像nana saimage,还有这个深度成像,包括我们现在国内很多,像消费级跟车规级的一些创业公司啊,都在做这个spt传感器,它本身受限于他是一个一个像素周围啊。

它要有一些技术电路,还要淬火回火呀,然后要有那种计数器,这种这种电路它本身就比较复杂,这个时候受限于周围电路的影响,它的一个few factor,也就是填充率就很难做高,但是呢这个spider自己啊。

它有一个皮秒级的响应能力,也可以有一个单光子的想象能力,这么好的一个东西,最后我们发现受限于电路又难做大,这个分辨率很难做大,同时呢它的一个填充率也很难做高,那遇到这种问题呢。

同学们这就很多搞cv的同学就想想,我们可不可以有些超负面的方法,来去克服它这个分辨率低的问题呢,但是你这个时候要注意到受限于填充率的问题,我们在采用一个高频图像的时候,用这么低的填充率。

实际上是会引入一定的elaine的artifacts,也就是走样的一些问题,就我们踩一个高频信号,但是是用一个比较低的一个频率,去踩这么一个高频信号,那之前呢我们在这做这篇工作之前。

还做了一个继续压缩感知的一个speed camera。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个时候当时是用一个dlp去做一个调制,然后那个时候整个系统会变得比较笨重啊,这个只能在实验室一个非常稳定的一个,实验桌上去做实验,这个时候不行,我们想要实际一点应用啊,就是真正的落到实处。

这个也是当时一个超封面的一个sweat成像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它的成像精度可以非常高啊,当我们克服这个pile up的时候,是可以到0。1mm左右的精度,那你这个拍up要首先搞定,这个当时是拍了一个这个光汇聚的一个过程哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

光经过透镜汇聚的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

唉怎么去实现我们去优化去采样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个根据这个图像传感器自己去采样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先我们low few factor就低的一个填充率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

会带来一定的一些走量的问题,同时也会带来一些低效率的问题哈,然后类似的事情也发生在这个带滤光片上,比如说我们会有一些摩尔纹啊,或者是马赛克啊,这个时候唉像这种物理的一些sensor structure。

都会带来我们这个整个的一个图像的采样问题,但是呢我们可不可以优化一个最优的一个,点扩散函数,来让我们这个最后的采样最优,从而实现对我们算法一个进行一个适配呢,也就是我们想要通过做这么一个光学系统。

然后结合着我们传感器的一个形态,再结合的算法一起来吧,我们的信号最后想要的信号完整的恢复出来,也就是涉及一个最优化的一个点扩散函数,来实现我们最后的一个想要的功能,这个时候是我们想要超分辨。

我们知道要直接实现,有一个老fire factor进行采样的话,它会有非常多的问题,当时要建立这么一个点cos函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

跟关联系统的一个关系,其实最早我们做尝试,就是用一个非常简单的一个模型,就是我们在一个透镜前面,搞了一个不是特别大的孔,就比本身我们透进了自己的一个这个孔蓝,稍微小一些,把它放到它前脚面上。

我们可不可以在一个前桌面上设计一套关系统,最后在我们传感器上直接显示到p s f,实际上我们知道学光学的同学知道,当我们这个孔蓝在前桥面上的时候,我前墙面上的一个光学相位或者是一个二。

就是一个binary map变到我的sensor上,实际上就是一个就弗朗和费衍射,实际上也就是一个祭祀的一个分裂变换,诶我们发现这个点扩散函数跟我们的光源系统,它只是一个数列变换的一个平方的关系哈。

只是对列变化的一个符值的一个平方,这个时候我们可以先设计一个最优的一个psf,然后对我们后面的一个采样跟超分,来实现一个最优的一个呃设计图,然后我们再去把这个光学消化板去反向解出来,是不是就可以了呢。

当然这个时候就是第一次,实现这个端到端的成像,其实这个工作呃,最早做的时候是2018年5月,2018年5月,那这个论文做的时候也比较仓促,第一次做的时候比较仓促。

这idea大概是5月就12号时候弄出来的,当时那个srah asia的一个deadline,大概是可能是5月20几号吧,当时我们阿迪尔一出来,然后快速的就花了几天,就把这个p s f设计出来。

然后再去把这个相位板再设计出来,大概花了三四天,然后郑老师就紧急去抄顶间,去把这个流线流出来,就是我们当时是先用idea,然后更快速设计出来这个东西,然后去流片,大概留了大概有七天吧,六七天。

然后郑老师就快速把这个片子拿出来了,流片的期间呢,我就在写论文,然后大概就几天吧,就是总共这个论文最早第一批,第一次做了三个三周,那这个也要感谢我们邓老师,那时候非常给力啊。

这整个加工流程总共就花了四五天,就把这个没打原件去流出来了,最后呢这个pipeline实际上就设计的是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们先去优化出来这么一个,最优的一个点扩散函数,根据我们最后一个重建的一个效果啊,去重建去一起优化,然后优化完之后,再用一个就face retural的一个问题,来把这个相位解出来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后再把这个相位然后加工出来,然后怼到我们前面设计的这个,浅焦面的一个孔栏上,这个时候就可以获取我们最优的一个点,空档函数,啊这是我们一些刚开始做了一些仿真的结果,我们发现当我们只用这个蝴蝶翅膀啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

蝴蝶翅膀这个细节还是比较多的哈,我们只用这个law factor来做采样,再去做一个超面的一个算法,这几个算法应该都是一样的,这个时候我们发现我们恢复出来的这个结果,是有非常多的一个错误的。

然后当时就是出于对比哈,我们还是引入了一些常见的一个满填充率的,一些呃,这个传感器就是作为一个对比吧,就是硬加进去的一个对比,这个时候我们发现这些位置还是有一些呃,比较明显的一个artifacts好。

比较明显的例tx,但是呢我们可以观察到,通过这种最优化的一些采样方案,我们最后这一些部分的小细节,都是可以比较完美的恢复出来,甚至我们可能看着这个我恢复出来,图像比原图还要好,我把噪声都给干掉了。

是不是这个我们可以看到这个效果是比较好的,当时也对比了一些呃,这些在一些小的一些小数据集上去,做了一个小对比,来当我们用到实际的用到了一个spider上面,因为spider这个本身的填充率非常低。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它的一个工作环境是比较恶劣的哈,比较恶劣的,我们没有这个设计了一个doe加在前面,一个关系统加在前面,当它经过算法恢复,因为走样问题啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们这整个恢复出的结果是非常差的,非常强的一个artifacts,这个时候就是想做超声变,你这个低填充率的情况下不行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是呢当你设计了一个最优的采样方案之后,联合算法一起设计啊,就可以非常好的恢复出来,你最后想要的结果,其实啊就是我们可以看到cvpr有非常多,精彩的一个超分辨的论文啊,超方面的论文。

但是同学们有没有想过,为什么这些超篇的论文拿到我们实际的生产,生活之中,就是我们实际的应用部署的时候,大部分都没有落地呢,其实有些效果已经非常好了,就是我们可以看到论文里的效果。

这个时候就是对我们采样的模型进行了去,就是整个采样过程有一部分的缺失,实际上就是没有考虑,我们这个就马赛克的白滤光片呀,还有一个呃,像这个我们本身像啊,sensor自己的一些就填充率呀。

就是不一样的这个sensor,他这些响应都会有一些的多多少少的区别,但是呢我们可以看到之前一些超面的论文,大部分都只是用一个biubic down sampling,就是它的一个退化模型。

没有符合我们实际的一个呃部署的一个场景,所以同学们要真正的想把这些超分辨,部署到我们实际的一些应用之中,一定要先考虑我们这整个退化模型是什么样子,然后根据我们的退化模型,再进行我们后面的一些操作哈。

啊这是我们当时的一个pro type,就当时挺贵的一个这个这个这个driver挺贵的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个激光啊,前面做一个照明哈,这个时候当时就用了一个卡农的一个大痰盂,去当一个镜头,然后前面做了这么一个在前桥面上做了一个呃,这个透镜好,这个时候是其实很简单,就就在我们普通的通勤前面。

加了一个这种消费版哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是它最后呈现出来的一些效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也可以用到深度的一些边缘的一些优化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在最后是顺带成像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

包括呃先照明左边,在左明右边的整个顺带的过程进行一个创业,就实现了一个,包括到现在啊,这个spp传感器要做到一个非常大的一个像素,仍然是比较困难啊,我认识非常多。

做这种这个这个spect to spect传感器的,就是想要设计很大的阵列,目前为止还是非常困难,包括像这个可能最大,我们遇到可以做到这个最大的一个,可能是1024x2024。

当然这个时候成本已经非常非常高了,所以这个就比较困难,这消费板对,这个消费板是要去这个超顶尖去加工的啊,这个这同学不用担心啊,这个想要做的话,这都有地方嗯,这个时候我们还是只是实现了一个单层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单次波长的一个成像,我们还是没有满足我们最后想要成像的一个呃,能力哈,这个时候我们还是想要多波长的一个啊,多波上的一个成像效果,这个时候就针对了我们这个hdr成像的一个问题。

来设计的这么一套可微的一个模型,当我们知道我们传感器啊,我们之前讲过我们的传感器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基本上我们自然界里面,它的一个动态化还是非常大的,就无论我们怎么拍照,它总是有过曝跟欠曝的一部分啊,当然我们也知道像一般啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像我们手机里面摄影啊,或者是这个传感器里面就是像索尼mx嗯,不记得几几几了哈,像那它一行长一行长报,一行长一行短报,或者是直接三次曝光直接融合,像艾森美啊,或者好微都有这种三次曝光去融合的一些啊。

传感器哈,直接就是不需要呃读出来,我们在缓存里面直接爆爆三次,这样的话可以尽可能缩短了,我们就是每一次曝光之间的一个中间的一个gap,但是这种多次曝光融合。

始终是有一些motion arex物体总是在运动,然后呢,这多次曝光也是需要一定的一个就是处理时间,当然这个处理时间,主要是卡在这个内存瓶颈的地方,那么这些东西都要搞到内存里面再去算一算哈。

对r max 982,还有安森美欧记也有这个索尼也有这些很多哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那索尼除了这个还有一种新技术,一个大像素旁边搞了个小像素。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个另说哈,这个是非常好哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然针对这种想要实现一个动态的一个hdr,但是又不牺牲这个分辨率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

又不想换一个传感器,这个时候我们是有一个什么想法呢,就是我们可以把这些特别亮的地方,通过这么一个光学系统,把它搬到一个没有过曝的地方,然后呢把这些没有翻译过去的信息提取出来,再去重建我们这个过曝的地方。

这个时候是不是就实现了一个啊直接的一个,动态范围的一个延展呢,实际上这是一种空域调制的一种办法,这是一种空域调制的一种办法,这个是当时我们做的一个原型,这套路跟前面一样。

这个还是在我们的这个这个前桥面上,前桥面上做了这么一个呃演示的一个模型,跟之前有点不一样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

之前我们最开始设计的时候,是先搞一个最优化的p s f,然后再去通过这个face ritual的一个叫叫js base的,face shoal method去重建这个相位板,因为当时是单次波长的。

我们可以非常精准的去恢复,我们这整个相位板的一个相位,但是呢当我们需要考虑不一样的波长的时候,整个这个js face face method就不工作了,这个时候怎么办呢。

就需要一种我们直接建立这个这个点扩散函数,跟这个app的一个关系啊,我们之前知道大概是一个分裂变化的关系,但是呢同学们想一想,这个分列变换实际上在我们算法里面,它只是一个简单的一个碟形变换。

这个碟形变换它是线性的,线性的意味着什么呢,意味着就可微,这个时候我们是可以,直接通过这种线性变化的一种关系,把这整套光学系统做成可以微分的好,这个时候我们就可以在不一样的通道进行。

去compromise,当时呢这是我们设计的一套完整的一个pipeline。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当时这套系统是比较复杂哈,比较复杂,因为我们最后呃捕捉到了信号啊,他是这个挺挺难处理的,挺难处理的,首先呢还是有像我们这个可微的一个呃,衍射的一个演示,一个透镜模型哈。

当时是为了去减少这个整个viable map的一个数量,就viable的量就是因为viable大了,我们把每个像素点都当成变量的话,这个很难收敛啊,同时嗯第一是难受点。

第二是它很难实现一个global encoding,因为我们非常强的一些信号啊,之前我们有一个斯坦福的师兄也做过一个,像这种呃deep optics,一个hdr,但是当时呃。

就是受限于没有实现一个global的encoding,就没有啊,在一个全局范围内进行一个encoding,因为当时他把整个的一个就是这个face map,当成一个大的viable map。

这个时候他收敛就很难收敛啊,很难收敛到一个比较好的地方,这个时候我们就加了一些constraint,一是让他收敛得更快,第二是让他使得一个全局的一个,就是编码的一个能力,这个时候我们最后搞出来一个优。

最优的一个相位板,它的一个点放大函数很奇怪哈,是一个像十字叉形的,也不是也不是很奇怪哈,因为我们设计的就在这两个维度上去优化,它有空间信息,也有彩色信息,同时我们可以看到中心它是有一个高频的。

它保留了一定程度的一个高频信号,这样的话对我们后面的一些重建是最优的,但后面这些套路啊就是跟前面是一起优化,因为这个时候我们整个光学模型,这已经变成可微的了,唉像我们实际上传感器上拿到的图像。

就是像上面这张图像,这个图像是哎这个当时非常难看啊,我们就当时就想这个咋处理呢,其实是也是试了很多种方法,就发现我们先提取我们整个的特征,提取完我再重组哈,提取完我再重组。

但为了因为我们这个本身已经做了一个encoding,global encoding,对我们的充电网络来说,这个充电网络要有一个比较大的视野,才能去抓到我们非常大的一个,面积上的一个信息。

这个我们先通过一个v g g啊,这还是老套路,金字塔啊,金字塔,金字塔这个拿到了一个大范围内的一个feature,然后我们再用一个空洞卷积啊,空洞卷积去重建出来去,也不是重建啊,这个是又是重建。

又是分离信息,这个deleted conclusion,他有两个任务,第一是把没有过曝的地方去,比较干净的剥离出来,比较干净的剥离出来,第二个任务就是把我们这个residual。

就是我们这个残余的这些including的一些信息,就是过曝的播放的信息,跟我们就是我们底下没有过曝的,一个就是正常的信息去分开,最后呢我们过曝那部分的信息啊,就是我们所谓的这个residu。

就是对我们高亮部分的编码,我们在对对这个高亮编码的一些信息进行重建,重建出我们这些过曝的部分,就可以同时的捕获这个on the exposure,跟over exposure两个部分。

但最后把它这个融合在一起,就可以实现一个实时的高端能范围的成像,这个当时这个想法是比较巧妙哈,实际上就是过量的信息搬走搬到,比如说我颁个简单一点,举个例子哈,就我们把这个这个灯啊,这个灯非常亮。

我把这个灯的一个1/5,1/10的能量搬到一边去,就是1/100的能量搬到一边去,这边上这些没有过曝啊对吧,这个时候我们信号是可以捕捉到的,然后呢我们在用这些编上这些信息啊,这些经过编码的信息。

再去把这些过曝部分的一个细节重建出来,这就是当时的一个空滤调制的思想啊,空滤调制的思想,但这里面用到一个呃非常强的一个假设,非常强的假设,这个后面会讲到,这个是当时我们的光学模型。

这个点这个给大家说一说吧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个可能很多同学们没有见过呃,也可能学物理的同学已经学过了,一个点的一个光源,就是用它的一个嗯r k r,实际上这是一个r写成矢量,就是一个r,这个就是一个自由传播的一个方程。

自由传播经过我们这一个d u e的layer,这个d o e layer其实更简单,整个d o e自己啊就是一个相位延时版,每个像素有个自个儿的一个延时,这个就完了。

就是不同的高度就会产生不一样的延时哈,就是不一样的相位延时,这高度当时是用了两个vector去表示的,两个就是art product去表示的,最后呢我们过了这个相位板,就是整个的一个广场的相位啊。

进行一定的延时到我们这个图像传感器上,实际上就是一个飞鸟衍射啊,飞鸟颜色,这飞鸟也是我们发现这个变来变去啊,这个最后变成一个非常简单的一个,福利变换的一个近似,再说我们的loss function。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当时这个lofunction是分了三个部分啊,四个部分,这三个部分12344个部分啊,三个大部分,第一个是对于我们飞过报地方的一个呃,一个loss,我们非过曝的地方有两个任务。

第一个我们是需要把我们本身的一个,破坏的信号去恢复出来,第二个部分,实际上我们要把这个重叠部分的一个信号,特别是原本已经有细节了,我把encoding的信息,跟我们原本那个细节要去分开。

这个时候就用到了一个小trick,这个叫explosion loss,这个东西本身是干什么的,当时是我记得是哪位老师,是任ng,就是berkeley的任ng,他们作为一个呃。

这个就是反射去除的一个论文哈,反射去除,我们假设这个反射的一个梯度,跟我们自然的一个场景的梯度是不重合的,这个之前我们在讲这个gradient这部分,可能也提到过这个问题。

这个地方也利用了一个同样的原理,就我们假设我们encoding的一个信息,跟我们最后实际的这个自然场景,的一个gradient它是不重合的,当我们最后试了之后,发现这个先验知识它是非常有效的。

可以剥离我们这个编码过后的信息,那我们在这个后面第二部分,这个这种过曝的地方,那个重建的时候就简单这一个v d g就可以了,最后哎把它fu在一起,有一个小的后面loss就把它f在一起了,这个比较简单。

整个的一个精髓啊,就在我们假设编码部分,跟我们这个就是自然场景的,它是一个梯度是不重合的,这是一个比较精髓的一个地方哈,这是我们当时呃重建的一些效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个是hdr cn是17年square up的一篇论文,这格里尔h r格雷尔hdr,同学们可能看到过,这个是之前我们组2001年的一篇best paper award,cvpr。

best paper award,当时呢这个思想很有点类似,它是一个star future,大家就是那种星芒镜啊,大家拍星星的时候会产生一个星芒,星芒镜通过那个调制,然后再用一个a。m去解出来的。

那个时候极限性比较多啊,就是我们最后重建出来的这些,那这些地方artifex啊会比较多,refx比较多,后来呢就有一个deep optics,就刚才讲到一个整个整个variable map。

实现了一个他因为当时这个encoding没有分开啊,他只是做了一个copy,没有实现一个global encoding,当然这个时候他也缺乏了一个,就是这种调制过的信息跟背景信息。

它的一个梯度是不重合的,这个关键点啊,所以说当时重建的效果比较有限,重新的效果比较有限,这个呢就是我们当时去嗯踩到了一个效果,它实现一个global encoding。

就我哪怕因为这整个的信号都不是特别强,就不会有这种在周围又再次播报的一些情况下,这个时候就非常难处理啊,我们可以看到最后我们重建出来的效果啊,这种细节啊都是非常清晰的,细节都是非常清晰的。

这是另一个场景,我们可以看到像这种过曝的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

传统的方法都已经是没有办法恢复出来,任何细节了,但是通过这种global以后,我们可以看到哈,这周围这个彩色的这些编码,里面是有非常多的一些这个它的高频信息的,对不对,这个时候我们发现。

这个时候通过这种高encoding的高频信息,是可以非常完美的去重建,我们这个过曝的地方到底是什么样的细节,这是当时就是测试的一个结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当时哈从那个实际的一个测试结果来看,就是因为它是第一次实现一个,软硬件联合实现的一个优化,他对这种单次曝光的hdr,相比一些竞品的方法竞品,这就是友商竞品哈,它是一个非常大的提升啊。

我们可以看到比最先进的一个deep optics,有接近8dB的一个提升啊,从hdr v t p是另一个指标可以看到呃,这个大概有个6。5个点的一个提升,我们可以看到哈,这个有了光源系统一起加成。

从deep optics相比之前的,只是一个简单的一个重建啊,或者是一个inverse tomapping来重建dr的时候,它已经是有一个56dB的一个提升,但是这个整个管理系统优化的不是特别完美。

当我们比较完美去优化的时候,又可以有一个巨大的提升啊,这巨大的提升,这是当时实拍的一些效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这当时是在我们当时一个合作者家里,叫富强老师。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我看到这个过曝的细节啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是可以非常完美的恢复出来的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这这这灯啊,这也是我们在实验室拍的一个效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个已经完全过曝的,这些小细节都是可以比较完美的恢复出来,啊这个是我们在野外拍的,当时嗯这个我不记得是哪个公园了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当时应该是可能是国王经济城的一个这个公园,花了上百亿美金在海边修了一个,就没怎么有人的一个景点哈,后来可能发展成一个小城市了,当时我们很多做实验的时候,就喜欢去那个经济城去拍这个拍这种景色哈。

我们可以看到这种细节,都是可以比较完美的去恢复出来,当然像之前的这几种办法,我们已经用了非常多的trick啊,包括像就压缩感知的a d m m,好像根据这个模型传感器采样模型进行优化。

还有像包括这个global encoding,可谓的衍射系统,但这些系统呢都是有自己的局限性,这个时候我们想一想,我们可不可以设计一个端到端的一个,复杂透镜的设计系统。

来真正的接近我们商业或者是实用的一些,这办法呢,当然这个可能刚开始想这个idea的时候,会比较困难哈,因为这个咋实现呢,这个是不是有点难呢,其实那个时候就是可微的光线追踪,是刚刚出来啊。

刚刚出来就说米苏八兔,这个时候我们就跟康利老师跟邓老师一起去想,诶,这个干脆就用这种可谓的光线追踪,去设计一套这种自动优化的系统,来去实现这个大招端的一个优化系统,我知道这个复杂透镜系统。

它有非常多的一个镜片啊,再通过这么多的镜片来去消除相差啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是这种他对一个特定的任务来说,就我们就想要一个什么样的信号,它真正的是最优的,往往不是的,因为我们往往是通过经验来去设计,我们这个复杂的一个特定系统,通常呢大家的一个感觉就是,去优化它的一个mtf。

让他mtf响应更好,或者优化它的一个点炮的函数,让我们更锐利,对不对,这个时候啊,就是这跟设计师的一个经验就非常相关啊,这个我们想要实现一个特定的任务,的一个完整的一个优化。

要根据算法一起优化就非常困难,非常困难,但是已经有的work呢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就包括像演示的一些途径啊,或者单个的一个呃折射的途径啊,还有像我们之前自己做的,像那种synfptor这种东西,它都是首先是单层口味好,单层可为用的是进球进四,因为是单层吧。

它的这个就是设计空间也是非常局限的,这个就是自己把自个儿命给革了,当然前面有前面的一些特殊用法啊,这也不算完全把自己的命给革了,像前面的这些东西呢,它因为受限于单层的调制,它那点光的函数有时候特别大。

有时候质量特别差,这个时候我们就恢复的一个图形的质量,都是比较受限的,而且同学们可以观察到,我们最后在图像传感器上拿到的一个,就是项目版的一个分类变换的平方,这个平方哈,但是同学们要想想一个非常一个。

fundamental的问题,就是我们的图像传感器,只能拿到我们最后的强度,对不对,实际上我们这个相位部分是丢掉了的,也就是这个地方我们要做可以微分的话,我们整个光学的相位都是丢掉的。

实际上这个时候整个系统啊,并不是完全可以微分的,它仅仅是部分可微,这个部分可微呢就会引入一个新的问题啊,就是他不一定收敛到最好,他很难收敛到最优的一个位置哈,当然这个光学设计本身。

可能同学们自己做过imax和code five这些课程的话,会可能发现这光学优化本身就是一个玄学哈,你很难让它优化到你想要的一个地方,这个时候就有非常多经典的一些设计啊,像双公司结构啊。

像这种就会指引着大家去呃,根据这种结构再进行去优化好它本身这个,所以说现在很多这个称呼就是叫the art of optics design,并不是the size of optics。

就是也就是说现在我们的光源系统的设计,还是一个艺术哈,所以说大家都是艺术家哈,这个也不用谦虚哈,要实现这么一个可微的一个透镜模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先我们要先做出来一个单透镜,一个单透镜是怎么表示呢,我们知道我们这个非球面镜啊,非曲面镜它是这个我们的这个离轴,比如说在这个离轴r的肉的一个位置哈,他这个离顶点的一个距离h6 就可以表示为诶。

前面是一个啊这种曲这种曲率系数啊,再加上一个椭圆系数,后面是一些高阶项,高阶项,这个时候就可以表示我们这不同的主外的位置,它的这个呃非球面的一个h6 是多少,要实现整个系统可为咱先简单点。

先把这个这个非球面镜的一个微分先求出来哈,这个就先把这个微曲面,非曲面的一个微分线求出来,然后呢再把它这个inflicity form,实际上我们是最后是对x y z空间进行求导,x y z空间进求。

我们要写出来这个面哈,把假设这个是z的零点啊,这个这个顶点是z的零点,这个面它的一个xx y z的一个dp,实际上我们最后我们的光线,对我们这表面上这么一个面片啊,或者是一个小派势来诶。

根据这个地方的微分变化而变化,这个时候我们对整个implicit form进行求导,就可以拿到这么一个函数,说到这个光这个光线追踪,我们就不得不要从图像传感器上,然后去反而去解这么一个。

就跟我们最常见的一个交点啊,场景的一个交点上,我这个时候就定义一个光线,它的原点是o它的一个方向是d,这个我们要发现就是没有,还有非常多的一个折射面啊,在复杂抽筋的时候有非常多的折射面。

一个一个去往前去找这个焦点的位置,直到找到你最常见的一个焦点好,这个时候每一个面就可以用一个牛顿法,来去解这么一个问题啊,就求交点一个问题,这个很简单,但除了这个之外,我们还要考虑到这个色散问题。

因为我们本身做这个图形学里面的光线追踪啊,它通它既不是通常还是只是,都没有考虑到这个色散问题,这个时候我们要引入主动的引入色彩来去呃,平衡这个因为色彩引起的一个相差的问题。

这个时候就用了一个柯西柯西方程哈,柯西方程在我们这个透镜表面的,这些折射率表面,比如一个科学方程,来把这个色彩也同时的模拟出来哈,色彩也同时模拟出来,这个时候就真正的构建了一个可微的,一个光学系统。

可以把后面的一些呃神经网络呀,或者是一些优化了一些他的鬼点子,往前反向传播,这个时候我们整套系统就可以一起进行优化啊,一起进行优化,但到我们出氧传感器上呢,它这个又比较复杂了哈,这个又比较复杂。

它首先我们这个点光的函数,它是空间位置深度,还有一个波长的一个一个一个函数,同时呢我们这个传感器呢啊,这个他要是要跟这个本身这个信号场景性,卷积场景也是一个跟空间深度相关的一个地方。

在同时呢跟我们这个颜色响应曲线,就是传感器的颜色响应曲线来进行积分,总是要考虑噪声,这个时候,我们这个sensor模型会变得比较复杂哈,我做这个我们学过这个games 2101的同学啊。

大家会发现传统的这个sensor,传统的这个sensor,它都是一个没有一个单位的一个一个东西啊,它就是一个像素,我就划了这么一大,它实际上并没有物理单位,但是我们要设计这种光学系统的时候。

我要重新去写这么一套sensor跟这个integrator,这个时候才可以实现,真正的在物理意义上的一个积分,再通过模特卡的采样,在我们这个在我们这个这个传感器上,这个传感器上。

每个像素上面就会有一些蒙特卡洛,采样的一些呃,直接就是积分,然后最后还会有一个问题哈,比如说我们要我们有一个光柱子啊,比如说我有一张图片或一个场景,我是不是要造一个光柱子来把这个透镜过来了。

一个图像跟我们这个小孔过来了,一个图像进行匹配呢,但是我们知道经过了一个不理想的一个透镜,不理想的一个透镜本身啊,它的像素会随着空间位置的一个偏移而偏移,实际上这就是啊。

我们之前提到过的一个就是相机的模型哈,相机的模型这一节删掉了,好像是这节删掉了,刚才给这个学校的同学们讲过,相机的模型实际上就是它的基地啊,我们要先,因为这个中心点是我们是理想的情况下。

就是模拟的一个情况,所以你也不用再对齐了,但是我们要考虑边缘像素的一个对齐的问题,这个时候先把,因为你要是直接对这个,这个这个就追过来的一个图像哈,就是我们追过来的一个图像,就带几片的图像给他再做校正。

再去跟我们这个广告数字相匹配的时候,就有问题啊,有问题,这个我们做一个按discussion,这个就可微性就没有了,当时咋玩的呢,就是我们把这个理想的一个,过了小孔的一个图像,根据我们现在透镜。

我们trace很多个点啊,trace可能大概是当时是15个点了,就把这个畸变模型算出来,我先对这个理想的一个这个图像,进行预畸变校正,就是把它这个基变给它加上,再去跟我们追求来这个图像按像素匹配。

这个时候才跟后面的算法建设一个端到端的,一个就可微的一个部分啊,这是有一个小吹壳在里面,当时,这是一个完整的一套可微的复杂透镜,追踪的系统,这个是比较复杂哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个代码量也非常大哈,啊这是在传感器上,我们可以看到光学参数不断的变化,在传感器上的一个效果也在不断变化,最后也收敛到我们对我们这个整个重建网络,两边一起平衡,达到最优的一个效果,当时就做了两个应用。

第一个是大势力的成像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个是在当时也是自己革自己的命了哈,跟这个邓老师一起做了一个大视野啊,大视野,我发现这个时候无论是现有的一个非球面镜啊,还是一个符合的非球面镜啊,还是已有的这个大视野设计。

都是可以通过这种可微的光线追踪啊,设计一个非常好的一个简单的,单薄的一个大透镜的成像,另一个地方就是实现了一个景深成像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们知道我们口径比较大的时候,光学口径比较大的时候,也就是f数比较小的时候,要实现一个大点声,它是一个比较矛盾的地方,那这个思想啊,还是跟之前大市场设计的时候一样,不能让它一样好,我可以让它一样坏。

但是一样坏的时候我可以解出来,像我们之前在对焦的位置哈,像这种已经有的商业化的,这种比较高级点的透镜啊,对焦是比较清晰,这是它点空大函数会随着距离的变化,快速的就是去衰退。

这是当时我们设计了一个景深延展的一个呃,设计吧,就我们可以看到不一样的深度,不一样的深度,都有一个比较优秀的一个点扩散函数的平衡。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是当时我们加工出来的一套原型啊,这个是这个是自个儿加工出来一套图,左下面右上上面两个是渲染出来的一个效果,左下面是实际加工出来的,这个其实当时挺紧张的哈,这个这次实验我们还是犯了之前的一个错误。

就是选了材料不是特别好,还是淘宝买来两种材料好,但是偏m跟p c这个吃完之后发现这个好家伙,这个上面起雾了,这个同学们一定要注意,这个以后选这个通讯材料的时候,一定要特别注意。

这个也是用单点金刚石车的啊,可能车的时候有可能夹变形了,夹变形了哈,哎而且这个特点本身比较复杂,它有非常多个面是非球面的,这个对心哈也会有问题啊,他这个开粗的时候周围可能有点太大了,最后磨啊磨。

这可能对其也没有对特别好,不过最后使用的效果还不错哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是左边这个是大视野的透镜,在抽氧传感器上的一个图像,它是有蒙了一层雾,好这层雾我怀疑就是要么是刀纹,要么就是这个材料的问题,右边是我们恢复出来的一些效果,这个是拍了这个是这是啥地方。

这是那个无锡有个什么,怎么说,你哪个旅游景点忘了,这个当时是边出去玩,就把这个实验给做了,这是恢复出来的一个效果,哎这个背景图像就这样,图像不用担心他这个背景它就是这么多花纹,这是景深延展的一个实验啊。

左边这是普通的一个透镜拍出来的,右边这个是我们的一个紧身延展的一个透镜,拍出来的,那效果感觉可能还是加工厂影响了不少,这个也是你看左边是主角传感器的原图,它已经起了非常多的雾哈,这个起了非常多的雾。

跟我们最后仿真上差别就在这一层雾上,这是我们就恢复出来的一个效果哈,我们可以看到各个位置景深都是清晰的,但传统的透镜只有聚焦的位置是清晰的,今天就给大家讲到了最后一节课啊。

也欢迎这个同学们已经我们已经走一起,走过了789 10 11 12月七个月哈,这个课程已经延续了七个月,这个不容易啊,是因为上完这个课,它涵盖的内容会非常多啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

包括像我们的光学系统啊,像素啊,就整个就是就图像传感器的设计啊,还有包括我们后后面的算法设计,还包括人类心理感知,整个成像的表达,他是一个非常大的一个综合学科,讲到最后啊。

这个我对这个整个的计算成像东西,还是非常有感情的,还是希望同学们能够就是深挖下去,因为这个领域的人不是特别多哈,不是特别多,所以说需要同学们去不断的去学习,来去丰富整个领域的一些人才。

也希望大家啊在新的1年里面能够乘风破浪来,去收获出自己想要的一个呃,事业跟学业这个同学们有什么问题吗,说明有问题的话可以问,对啊啊啊啊,后续课程呃,这个因为我们这一次删掉了很多课程哈。

这个我们干脆就把一些课程,可能后面可以安排到一些专题课程里面,比如说四开头的一些,三开头和四开头的一些专题课程里面啊,这个现在还没有完全规划好,我们后面可以合计一下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GAMES001-图形学中的数学 - P1:线性代数基础(一) - GAMES-Webinar - BV1MF4m1V7e3

诶切换到这对吧,啊,这个课呢是我们就是今年的这个,现在这个春季呢来上这个课啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

呃由我来做一个这个简单的介绍。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际上啊开个头,但是呢实际上我们有两位同学呢,一个是离心雨啊,一个是阮梁万啊,他们都是啊我实验室的直博生啊,而且都是做物理模拟仿真这个方向的啊,这个新语呢是图灵班的这个首届的这个学生。

然后阮梁万呢是第二届的学生啊,他们都是这个啊做过这个这个啊物理竞赛啊,这些方面哈,但是他们现在主要当然是做计算机图形学啊,呃他们喜欢图形学,也喜欢数学啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也喜欢物理啊,啊同时呢我们这个还有一个这个助教的阵容啊,我们是有这个陶林霄啊,啊他是这个原我们的元培学院啊,这个王瑞成啊也是元培学院啊,还有朱月城啊,是图灵班2年级的学生,还有余成啊。

这个是我们2年级的信息学院的这个啊,本科生,目前啊啊都是这个做图形学研究的这个方向啊,也都是非常有经验的助教啊,在我的这个图形的这个课啊,我们又叫可视计算与交互这个课啊,他们都是都做过我的助教。

所以呢他们也都是非常有经验的助教啊,好吧,所以呢这应该是一个比较啊庞大的一个阵容吧,啊这个一个团队来讲这个课啊,希望呢跟同学们有一个非常好的一个互动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个呢是我们课程的大纲啊,大概分这么几块儿啊,呃几何与代数啊,数值方法啊,微分方程求解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优化与拓扑啊,这是我们的参考书啊,这个呃里面有一些内容哈,如果你想展开的阅读的话,可以读一读呢啊这些书我想跟大家说一下哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是咱们这里列的这些数学的这个这个问题哈,啊大家可能以前或多或少都学过啊,但是这一门课呢呃大家上的时候会感受到哈,咱们不是简单的讲这些数学啊,而是讲这些数学呢怎么用啊,这个用呢非常的重要啊。

啊有很多同学这个课怎么来的呢,就是很多同学上我这个课的时候啊,他们会发现呢,原来有一些数学的好像变得陌生了啊,还有的同学呢,就是通过上我们这个图形的课以后啊,发现数学竟然这么有趣啊。

就原来学的时候觉得没有这么有趣啊,或者这么有用啊,还有很多同学说呢通过上图形学这个课,让他们更好地理解了这些数学,诶,所以这个呢是对我们是一个很好的一个鼓舞啊,也是就是在这么一个鼓舞之下,鼓励之下呢。

哎我们就说咱们就来开一个计算机图形学的,中的数学这门课啊,咱们以一个不一样的方式来讲,这样的一些数学的这个这个啊啊问题啊,嗯所以呢要起到一个什么呢,就是说让我们的数学可以看得见啊。

就所有的这些数学方法呀,很快的我们会看到他们在怎么样变成一个,我们从图形的角度能够看到它们的作用啊,这个就会脑子里面建,就建立一个很具象的这样一个概念啊,这个在之前的课堂上的课堂上的同学啊。

啊觉得这样的非常的好,还有一点呢我想呢跟啊同学们分享,就是说这里有很多的数学的方法,其实它在图形的这个好些不同的这个topic上啊,都可能会用到啊,就看起来好像这是几何问题,那是个渲染问题啊。

这是一个物理仿真的问题,但实际上它是同样的数学工具啊,它只不过是说我们在不同的这个图形的,这个问题中啊,做了一个问题的抽象啊,哎抽象到了最后最后最后发现啊,我们就是解这么一个这个微分方程。

或者偏微分方程,对吧啊,我们解解这么一个拉普拉斯啊,最后一转换他是个拉普拉斯这个问题,或者是个帕松这个这个问题啊,所以呢这是个很有意思的一种思维的方式啊,也是很有意思的一种啊,我们把抽象的数学啊啊。

放到一些很有意思的一些这个,图形的问题中来啊,这样的一种形式好吧,所以呢就说这个课呢,按说哈是一个非常有意思的这么一个课程啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那我前面就做这么一个简单的介绍好不好,那我们还是有请啊,我们倪新宇同学和,OK呀,李星宇同学呢和这个阮娘万同学,来来做一个这个自我介绍吧,好不好,一开始嘛互动一下啊,啊各位同学好啊,大家好,我是李欣雨。

然后我是陈老师现在的4年级的博士生,然后今天呢的晚上的课会是,我给大家讲这个关于呃,线性代数基础的相关部分内容,然后陈老师那边还准备了一个呃,40分钟的分享课件,然后呃现在正在传我,我一会会把它下下来。

所以我们先跟大家做一个简单的界面呃,然后之后我们这些PPT是会传到games官网的,然后除了games官网以外,我们还有一个课程作业的提交系统,如果大家呢就是之前上过games其他课程的话。

应该也接触过那个呃提交系统的啊,就是我们这个我们大概的这对于这门课的课程,上的安排是这样的,就是呃我们并不是说,每一次这个课程之后都会有作业,但是如果有作业的课程的话,呃它会是一个满分100分的形式。

然后呃就是不同的这个课,他的作业形式是不一样的,比如说第一节课这个线性代数,可能就如大家在之前在QQ群里面说说得难,就是很有可能是让大家去啊手写啊,不是不是手写。

是用LT或者word去写这样的证明或者计算,但是到后面的像这个计算几何这样的题目的话,那大家就可能需要去实现一些这样这个代码,就是这些会依照我们不同的这个课程,我先把它调到那个课件的那一页吧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就是这一页就就是我们说是有16次课,但大家可以看到就是计划上,概率论和机器学习都是两个课时,然后因此呢,就是呃我们并不是每一节课都会有作业,然后呃最后呢,就是每门每节课的作业是满分100分。

然后达到60分算合格呃,在所有的作业中,大家完成百只要有80%达到合格,我们到时候就会以邮箱的形式,类似于001呃,101那样给大家去发这个结业的证明啊,就是可能也没有什么用。

它只是一个就是相当于鼓励性质的,这样一个方法,呃对就是是这样的,然后大家在课业作业上还有什么问题,可以可以在这个就是评论区和大家互动,好像还没有,应该快了吧,那那个梁旺,你来跟大家见个面,什么。

啊切换啥可以进直播间,看到在这哦,行行行,啊哈喽大家好,我是这个软件旺,然后啊我今天没洗头,所以这个发型比较飘逸,然后我跟星宇来给大家讲这个课,但是呃就是说实话我们俩这个比较有一些BIOS。

因为我们俩其实都是做这个物理模拟的,所以可能对于某些topic呢也不是特别的专业,所以我觉得这是一个互相学习的一个过程,然后我们在准备这个课程的时候,也是相当于是把这些概念重新啊,重新去学习一遍。

然后再反馈给大家用,我们就用我们觉得这个最能懂的方式,然后最适合这个啊图形学的方式啊,啊对我看到同学有弹幕说多讲点模拟啊,但是我们尽可能的还是啊,把这个就是统计学的各方面。

然后包括甚至一些这个啊V神的东西,也就是这个计算机视觉的部分,然后还有可视化的部分里面呃,用到的各种各样的数学知识,都给大家,这个以我们觉得最容易懂的方式去介绍一下。

然后并且是尽可能的利用图形学这个学科,他这个它的一个优点就是比较直观的,这个可视化,然后能够让大家更容易懂一些,然后哈我再补充一点,就是这个关于这个我们一共现在排的是16讲,然后我跟星宇两个人。

这个大概是就是说我们啊对半分了一下,但是呢这个啊时间就是我们没有说,就是严格的一人一个人一节课,然后所以就是说我们大概挑了一些,我们比较擅长的,比较感兴趣的,然后去给大家去讲,然后同时这个啊。

这个中间这个课程中间会有一些啊时间,就是可能会有一些冲突,比如说我马上这个西瓜这个啊,rebuttal就要来了,所以啊有可能会出现一些情况,就是我们需要推迟一些课程。

然后或者说啊尤其还有可能就是这个课程,比如说这个我们当时排了两节课,但是可能其实他啊没有那么多内容,或者说我们只排了一节课,但是这部分呢就比较重要,所以说就是呃这个课程的讲解,以及后面的这个时间安排。

可能是需要一个不断去调整的一个过程啊,然后我们啊每次直播前,也会就是把这个具体的这个时间,然后各种信息也会尽可能的反馈给大家啊,对,然后所以说就是我们还是希望,就是说通过这个课程。

大家能够以一个相对直观容易理解的方式,把这个大部分的数学基础的部分呢都过一遍,然后呢之后到大家,比如说具体就是到这个生产中,到工作中,到这个啊研究中,需要哪一部分具体的东西的时候。

有一个呃有一个pointer去找那些相关的资料对,然后我们现在这个PPT还剩3分钟就可以传完了,对这个实在不好意思,就是我们这个第一次直播经验不是很够对,那我介绍就差不多,这里,呃然后对。

然后我现在就是简要的说一下,这个关于课程大纲方面的内容,刚刚陈老师也和大家呃就是简要的介绍一下,我现在就稍微详细的说明一下这个呃,就是为什么这样设计这个课程,然后呃第一节这个几何与代数的部分。

其实我觉得他可能是呃就是最基础的数学了,然后呃线性代数这一块,主要是我们之前就是在自己学校开过这个,可是计算相关的课程,然后当时有同学反映说,这个大一学的高等数学和线性代数嗯,他不是非常切合应用。

就是大家可能上完了高数和现代之后,还不清楚这个课,他对于之后的这个研究,也以及这个课程的学习,它它能起到什么样的帮助,所以我们就是觉得有必要,就以如何应用的角度去说一下。

这个关于线性代数的呃相关的内容啊,刚刚有我看到弹幕有同学问说是用什么语言,这个是C加加吗,就是可能会有C加加和Python,应该不会有别的语言对,应该应该是这样,然后呃对相关名词都是有英文的。

相关名词都是有英文的,我我们在做PPT的时候,其实都兼顾了这一点,然后计算几何这个方面,就因为它是这个图形学的基础,就呃我们图形学涉及到的就是点线面,然后计算几何处理的就是点线面,然后旋转变换的话。

就是呃这个其实就是如果大家做过一些渲染,相关的背景了解的话,旋转矩阵在渲染当中起到了一个很重要的作用,因为它可以让你不需要真的去移动,物体的位置啊,通过一个旋转的方式,来改变这个物体的这种朝向。

然后主成分分析与极值分解,其实是线性代数的一部分,它是里面的SVD与PC这个部分,但是因为它对于科研来说非常的重要,所以我们单独的把它拿出来讲了这么一节啊,数值方法上来说呃,就是插值拟合与采样。

它是构成从离散的数据到连续的厂的这样的,一个途径,所以它在我们的研究当中,也占据了比较重要的地位,而谱分析与傅立叶变换,是,因为它能够以一种就是降维的角度,去看待原问题,能够减少到我们的这个计算复杂度。

然后概率论主要是在渲染当中用到,然后以上就是啊part one和part two的这两部分的,我们的课程设计的原因,然后现在这个陈老师那边的课件也准备好了,等陈老师讲完课以后。

我再继续给大家讲后面两部分课程设计。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

OK回来了哈,这个显然显然我们不是吃这个直播饭的哈,但是经过了这门课以后哈,我觉得我们也许就可以了啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这样啊我还是回到我刚刚说的这个问题,我在宣传咱们这个课的时候啊,我就说这个人工智能的尽头是计算机图形学。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以呢我还是得把这个解释一下啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好吧,计算机图形学哈,它其实是模拟一个世界哈,他是啊为了这个对我们一个现实的世界啊,作为一个一个完全真实的逼真的一个仿真啊,啊那我们大家呢也听到这个词叫世界模拟器,对不对啊,大家这个SORA出来以后。

大家就说哎SORA是不是构建了一个世界模拟器,那何为世界模拟器呢,就是对于一个世界的这个运行,它能够做一个高度精确的啊一个仿真模拟啊,所以这就是世界模拟器,那我们知道我们图形这个做到一个最好的。

这个状态,就是我们确实能够模拟一个世界啊,当然确实这个咱们的这个图形模拟世界,我们有很多的一些参数啊,不像这个server啊,这个文本一输入就可以了,但是这个世界模拟器啊。

和人工智能确实现在呢关联度非常高啊,大家也都在谈论说,SORA是不是构建了一个世界模拟器啊,那世界模拟器为什么重要,是因为如果有了一个世界模拟器,或者说它具备了世界模拟器的这个能力。

它产生的这个这个生成的这个场景啊,它就是物理真实啊,所谓的物理真实就是说它的这个物理的现象,它符合物理的规律啊,他这个人的这个动作啊,各个方面他符合这个人的行为啊,他不会不会这个这个穿帮啊。

这说白了就这么个意思啊,那我们来看一看这个说到人工智能啊,那我们这个智能到底是怎么来的,怎么来看一下啊,好不好,那要说智能怎么来的,那咱们就得研究从小孩开始研究,对不对啊,那人类的这个智能啊。

那实际上是从小到大对吧,我们不断的感知认知决策行动啊,然后再又回到感知这样的一个过程中啊,来不断的去去一个循环往复啊,这个循环反复呢来获得这个经验啊,来积累呢我们这个人类人类的智能。

所以呢这个人和现实世界打交道,变得非常重要啊,这是人怎么获得这个智能的,对不对,这是个比较概括性的一个一个介绍,那么具体来讲我们可以看看啊,一个小朋友他学会倒水,就这么一件好像是个比较简单的事情啊。

他是怎么学习的对吧,你比如说来看看啊,这个小朋友一开始倒水的时候,可能就倒的不是那么溜诶,他就水就这个洒了,是不是啊,哎慢慢的呢他这个这个从不同的角度去去尝试,对吧啊,然后又来试一下,发现还是散了吧。

要么是倒慢了,要么倒快了,对不对啊,那我们来看看刚才倒的太快了,那我们现在到他慢慢倒,慢慢倒也不行啊,啊对不对,它也还是流出来了,但是这个人的学习能力呢就非常的强啊,他通过不断的测试诶。

小朋友掌握了对吧,他又不快不慢,要正好这样呢他就学到了这样的一个能力啊,那实际上刚刚这么一个简单的一个操作哈,我们来看看在这个小朋友的脑子里面,到底他是在学什么样的东西,他可能并不知道这样的一些名词。

但是实际上他在学什么呢,形状对不对,这个这个容器啊,它是个什么样的一个形状,还有呢这个物理规律,当然他不懂物理,但是他知道这个水他以从上往下落的时候啊,它它会怎么落下来啊,然后不同的倾斜度呢。

它会有一个不同的这个落的这个速度啊,那还有当然就是他的控制对吧,他得要去控制这个这个这个姿态啊,各个方面才能达到这么一个效果啊,所以呢这就是我刚刚说的,他在学的这个过程中啊。

他的所这个占的一个一个过程啊,那这样的一个过程啊,感知认知决策行动对吧,这么样的一个过程,如果说是机器来学习的话啊,那往前走,如果是机器来学习的话,那我们也需要这个机器,跟这个现实世界有这样的一个交互。

对不对啊,这样呢他也就是来获得,因为他机器也有传感器嘛对吧,他眼睛可以看啊,手可以动啊,这样呢它也能够不断的去啊,就像人一样来去获得了这些经验啊,和这个啊这个这个能力啊。

但是这样的手段呢显然是呢啊不高效的,因为哈你这个一个机械的设备,对不对啊,他这个学习的过程呢,你想人这个成长啊,还是他毕竟他是有基础嘛,对不对,我们这个人整个身体上是有基础。

我们学习可以很快人脑就完善啊,但作为一个积极的话,那他就是要需要更多的这种尝试哈,所以呢这种人是不高效的啊,那么一个办法就是什么呢,我们把这个现实世界呢变成一个数字世界啊,对那一个机器人面对数字世界。

它可以在数字世界里面去不断的去尝试,就像刚刚在现实世界中间的那样的一些动作啊,他同样也是有这样的一个环路啊,来不断的去感知认知决策行动啊,循环反复,然后来获得获得呢,他试错对吧,迭代来获得呢。

他这个知识是这样的一个情况的话呢,那这个效率就高了对吧,我们知道啊,这个数字世界里可以打碎了,重来对吧啊,一个东西弄坏了呢,那也再来,是不是啊,它可以不断的重复啊,他不需要这个对现实世界呢。

做一个真正的这个破坏啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么构建这样的一个和现实世界非常逼真的啊,这样的一个一个学科是什么呢,就是计算机图形学啊,计算机图形学就是就像southern啊,咱们的这个图形学的这个这个致富吧,算是也是图灵奖获得者。

在1965年的时候,他就说,如果说我们能够在屏幕上展示一个,这个这个数字化的这个世界哈,让人看起来是真的对吧,让人呢这个这个跟他交互的时候也是真的啊,他可能还有一些声音啊对吧,这种反馈也是真的。

然后摸起来也是真的,那它就是真的,对不对啊,所以呢,这个呢计算机图形学就是做这么一件事情,它就是构建一个数字世界啊,让你从各种感官来说,他都是真实的感官啊,和在现实中间呢是感官的是一样的。

那这是我们图形学最高境界啊,要达到的,那我们就再来看,再回到刚刚的这样的一个问题啊,就是这个一个智能体AI对吧,他来学习倒水,不是人倒水了,这AI来学习啊,那么我们要让这个AI这个智能体呀。

来学习刚刚的这些动作呢,那我们需要干什么事情呢,我们需要首先把这些容器都要建立好对吧,就是它的几何形状啊,然后呢他不会有倒水这个动作吗,那里面有水啊,水流下来它是什么样的一个动态的一个啊。

一个动态的发生啊,那这个是我们需要有准确的流体动态的模拟啊,同时我们也知道小朋友啊抓着这个这个水杯啊,去倒啊,他要控制这个水杯啊,这样呢就是他这个有一个可控的这个动作啊。

所以呢我们的图形学呢需要在底下啊,在背后啊,我们要把这样的一些东西呢都能够实现啊,才能够实现一个场景,让这个AI机器人啊,或者说是一个巨型智能体,来进行这样的一个交互啊,这个是大家看一看啊。

这是咱们这个这也是我们实验室做的工作,这么个茶壶倒水啊,这是我们辛金瑞同学做的哈,然后呢同时呢也是这个茶壶抓起来去交互啊,这个手的这个抓握的动作的生成啊等等控制啊,这些都是。

那我们可以看到生活中啊这样的一些情况呢,非常的多啊,大家看一下,你看这个布料,我们来叠衣服啊,这个我们也是在一个数字世界里面啊,给一块布啊,你怎么样去把它给叠起来哈,还有其他生活中的许多的一些场景。

比如煎鸡蛋也好啊,烘焙也好啊,甚至是切这个土豆啊等等啊,都可以非常逼真的啊,通过图形学的办法呢把它模拟出来啊,你们可以想象,如果有这样的一个交互模拟的话啊,那我们是不是你AI再去跟他交互的时候。

他是不是就可以是完全感觉到,和现实中间是一样的,对不对,他如果感觉到和现实中间一样,那么他就会获得同样的一个反馈,对不对啊,他切诶它就裂开了,这样呢他就获得经验,是不是他这样的一个经验呢。

那就是和现实世界一样的啊,那我们接下来就稍微的解剖一下啊,这个里面的有几部分啊,到底我们图形学做到什么程度了,对不对,你比如说首先几何我们图形学在早期的时候。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可能是通过手工啊交互的一些这个办法啊,交互性的软件来设计了很多复杂的,这样的一些形体啊,手工来构建啊,但这个呢呃不是最有效的对吧,另外一个这个办法,尤其是在我们需要获得我们一个现实的世界啊。

它的复杂的这个几何的时候啊,那我们就直接从这个现实世界中间,去数字化它啊,我们通过一些传感设备得到一些三维的测量啊,我们叫点名啊,有站点名以后呢,我们就基于我们的一些算法呀等等。

我们就能够非常快速的把它的几何构建,这是一个非常这个有效的啊,高效率的能够把自然界很复杂的这种形状啊,几何形状获取的一种方式啊,那这个我们也早期做了一些工作啊,这个你可以通过地面上开着这个这个无人车啊。

或者是空中飞的这个无人机啊也好,总的来说这个上面带着传感设备,比比如说啊像这个影像的设备啊,我们通过大量的影像,然后去重建它的三维啊,有了这样的三维以后,他一切都是精确测量的,它是三维的。

可以任意交互的这样的一个世界的一个描述,那这个世界你们看啊,因为它是从现实来捕获的,那么它就具备现实的这个场景的一种复杂性啊,那当然我们也可以地面上对吧,直接呢这个通过机关扫描啊。

这个是我们差不多10年前了啊,通过机关扫描的扫描的这个办法呢来快速的啊,直接获获得三维的这个测量啊,大量的三维的数据,我们就三维点云啊,刚刚说过,那有这样的一个大量的三维数据以后的话。

那我们就可以也是通过算法啊,我这里说到的算法,其实背后就是我们说的那些数学的基础,它可能是构成这个算法的非常重要的这个啊,这个一个一个工具啊,那我们可以看到自然界有很多各种各样的,不同的这个物体对象啊。

像复杂的这个建筑啊,树木啊等等,我们都能够通过非常有效的算法,能够把它的几何恢复啊,你想这个比例手工去交互式去建模,构建这些几何是要来的便捷得多,对不对,那再往前走,我们可以让机器人来做这个事情啊。

我甚至都不是人来操作这个事情了啊,操作这个传感设备啊,我就直接是机器人啊,那么这个机器人就厉害了对吧,因为它有传感器,它有眼镜啊,它有相机啊或者扫描设备,同时呢它也有大脑,他有计算这个能力啊。

他带着计算机啊,这样呢他在编观测对吧,就像人的眼睛一样获得影像,同时呢它边计算啊去重建,而且它还能够去决定呢啊,基于他最终的目标,比如说我要把这个场景呢完整的构建,那什么地方缺失数据呢。

它可以过去啊采集相应的数据,那这个呢又带来一个更加自动化的,这样的一个能力啊,如果场景呢变得比较复杂啊,更加复杂,对吧或者是更大的一个场景,那一个机器人呢可能还不够有效。

那我们就可以多个机器人来做这个事情啊,多个机器人协同合作啊,那机器人之间还是很和谐的对吧,或者说你设计算法让它变得和谐啊,不像我们人分工的时候,有些时候比如说我这个肚子饿了对吧,我想少做点啊。

啊经纪人呢他们互相之间协商的啊,非常的好啊,大家一起独立,没有人偷懒啊,这个方面你们如果感兴趣呢,有一期这个走进科学啊,央视啊,这个是啊讲述呢咱们这个工作啊,啊大家呢也如果感兴趣的话呢,可以看啊。

这是我以前啊这个这个实验室做的事情啊,大家可以去啊,找到视频就看一下啊,那我们接下来再看一下啊,这个啊物理反正这个事儿啊,这个可是一个很重要的事情啊,因为这个我们对这个世界对吧。

的一个所谓的真实性的一个感知,是在于它的一些动态现象,它符合物理规律啊,如果你乱动一气,那这个东西它不符合物理规律,那你就你就不觉得它是真实的对吧,所以这个物理非常重要啊,那现实生活中啊。

这个物理的这个现象呢非常的多啊,这个可能你们从高中数学啊或者生活中啊,也看到了很多一些啊物理现象啊对吧,像这些呢都是都是大家呢见过的一些现象啊,这些呢就都是通过我们图形学的算法呢啊,算出来的啊。

这个里面就包括很多,包括这个不同的这个材质啊,这个的物体,比如说弹性啊或者是粘弹性体啊,像血啊,奶油啊对吧,这样的一些啊,还有呢这些这个非常大尺度的这个变化的,这样的一些这个运动,啊还有就是衣服对吧。

这个你如果说有数字人的话,那么他就穿衣服,对不对啊,他这个衣服的动态人在动的时候啊,他的这个这个衣服的皱褶啊,各个方面啊,这个你都能够非常真实的这个这个展示出来啊,还有其他的啊等等这种的。

就相当于呢它是这种薄壳型的啊,这种物体啊,所以呢它都有它的这个啊,非常这个很很这个特别的这种物理的,这样的一些这个这个属性啊,还有就是流体啊,这个流体当然就是很好玩了啊,这个水啊,烟雾啊。

这个啊还有这种夜魔啊等等啊,这种五官实色的特别漂亮啊,这样的一些现象,这些呢都是我们可以通过高逼真的这个,物理仿真呢来实现啊,就基本上能够这个以假乱真吧,啊这是我们的目标啊,像星宇梁望啊。

几位同学呢就都是做这方面的研究的哈,这些这里好些工作呢都是我们实验室发表的啊,还有这个工作啊,这个是我们2万同学的这个发表的工作,就是前面不是说了这个有刚体啊,流体啊。

不同的这个这个这个材质的这个物体嘛,啊其实有很多的场景啊,是这样不同的材质的一个这个混合啊,比如说这个固体啊,这个落在这个液体上面,对吧啊这种现象呢大家啊比较的常见啊,像这种的话。

他就哎非常非常有意思非常有意思的,但是他很有挑战啊,因为它是两个不同的形态,但是不同的物理对吧,你怎么样把他们这个融合在一起啊,还有就是磁流体啊,这也是很重要的,这个就简单的展示一下啊。

这是我们新宇同学啊做的工作啊,这个磁流体它是大家也也不见得,生活中见得那么多啊,但是呢你们来看一下这个这个视频的话,会发现啊,这是个很有很有意思的这个这个现象哈,啊OK就不多放了啊。

这里面还有这种所谓的啊可编程的这个词,弹性磁弹性的材料做成这种软体机器人,说是机器人吧,其实它就是个薄壳,然后外边呢有这个啊磁场啊,他通过这个磁场的改变呢,他就造成了他这个形变啊。

啊他这个形变呢就让你感觉到了,他在自己这个驱动哈,像有个马达似的,好像在驱动它似的啊,在这个液体里面呢,这个这个要么是液体里面游过去哈,要么是在这个一个坡面上啊爬过去啊。

但这个里面呢其实就是磁场没有接触啊,这个对他进行控制来实现这样的一些动作啊,其实像这样的一些模拟仿真,对于我们设计一些医疗,这个微型的这个医疗机器人啊,啊变得非常重要啊。

就是其实在这个微小的这个这个手术的时候啊,我们是需要有这样的这种微小的设备,进入到人体的器官里面去,血管里面去,其实他就需要有这样的一些模拟啊,我还有很意很有意思的事情,我刚刚跟我这个做几何啊。

从现实世界中去捕获它的几何啊,几何啊,这个一样,我们从现实生活中啊,去捕获一些这个物理的这个现象啊,你比如说这是一片荷叶对吧,我们可以通过这个风一吹呀,一拉它就会形变,这个形变呢我们可以把它捕获下来。

我们捕获下来以后啊,我们就能够对它进行一个反向的跟踪啊,然后呢做一个物理过程的一个繁衍啊,所谓的繁衍就是说我能够反过来恢复它,它的几何是什么样子的,它的这个材质是什么样子的,它的物理特性是什么样子的啊。

然后获得了这个以后,我们就可以再往前去模拟它,就相当于我们把现实生活中的这样的一个物体,数字化了,这个数字化不只是个形状,数字化是它的整个物理的这个材质,各方面的一个数字化,他有这样的一个描述以后啊。

我们再去同样的一个荷叶,如果是有不同的外力作用,比如说这些水珠洒下来,或者说风锤过去,它到底会是什么样子的,诶你就可以再去前线的去啊模拟,所以这是很有意思,这个就是从生活中。

从现实世界中啊去获得这个物理啊,那这样的情况当然同样对吧,有好多不同的这种物理现象,生活中啊,刚刚的是这个一片荷叶哈,这里是烟雾啊,这个流体吧啊,这样的我一个烟雾呢在往上升的时候。

我也有不同的视频士兵从不同的角度去捕获它,那么这样我们也可以繁衍呢,他的一些物理的这个一些参数,比如说它的密度场啊,速度场这样的一些东西,这样的话呢我们就可以再拿着这样的东西呢。

像这坨烟呢我们就已经把它数字化了啊,这样的话我们可以再去前线的去模拟它啊,这个就变得非常有意思啊,还有在这个自然就我刚说的物理现象,其实动态的东西除了物理自然这个物理的现象。

还有一个很重要的一个动态的东西,就是我们的这个动物吧,啊人体是中间人是很重要的对吧,那么这个人体他怎么运动,怎么运动,看起来符合一个人的这个真实动作对吧,不懂得性格啊等等,这个呀。

也是我们要从这个实际的这个人体的动作呢,去学习啊,那我们要学习的话啊,首先呢我们就要从一个视频观察中呢,把他的这个三维的这个运动的,这个这个这个状态呢要重建啊,就像这个每一个图片的边上。

都有一个像骨架一样的东西啊,就是那么一个骨架我们要去重建它好,所以呃因为你输入的只是个视频嘛,但是你重建的是三维的对吧,你怎么样让它重建的就是一个三维中间啊,这个是物理也算是物理这个这个正确的啊。

这样的一个三维骨架运动,这个其实也是很有难度的哈,因为你只有得到一个正确的三维的东西,你才能学它的吧,否则你就学学差了啊,这就不好啊,所以这个里面呢其实啊也是及时反过来,又利用了图形学啊。

这个对股价的一些约束啊对吧,他如果是三维的东西,它运动的时候它有一些物理的一些约束,那这样的一些约束能够帮助我们去重建啊,那如果我们学到了很多的这样的一些动作以后,实际上呢那我们就可以用学到的动作。

再去驱动这个一个新的啊一个形体啊,这个形体可能高矮胖瘦啊,可能和他原来的这个形体不大一样,对不对啊,但是呢,只要我们掌握了它的一些基本的这个规则,那我们可以把它桥适配上去啊。

叫叫叫RETARGETING啊,上去这样的,他如果胖一点啊,那我们的动作该是什么样的,他如果个儿矮一点,我们动作该是什么样的啊,所以就是就是这样的一个意思哈,啊还有所谓的风格吧啊这个人体的动作。

比如说同样是走路啊,这个人走路呢你老远一看啊,你知道这是张三,那是李四,对不对,他每个人的动作都有自己的风格啊,所以呢,如果说我们数字化展示这个不同的人体的,这个动作啊。

那其实你还要把这些很微妙的风格式的东西呢,也要展示出来对吧,也要生成出来,这样呢就是感觉到对吧,他就是有些变化啊,他有他的个性啊,他不至于是一个好像千篇一律的东西啊,所以这个呢也符合就是我们真实世界啊。

看到的东西,当然对于这个这个我们生成的这些动作,我们要能够控制它是非常重要的,所谓的控制就是说这个环境,它跟这个环境呢要能交互啊,就是说你像这里啊,他都是有一些这个对象,这个数字人对不对。

他要么是自己去碰一个东西,要么是怕他他被某一个东西去去砸着了哈,他的这个动作的变化等等,这些呢就是他和这个场景之间啊,它又有交互啊,他不是说你给他规定了一些动作,她做的还挺漂亮的,对不对啊。

那样呢它就没有交互性啊,所以这个交互你要能够控制它啊,这个变得呢非常的重要啊,还有呢很重要的是什么呢,就是他又有学习能力啊,他有这个自我学习的能力啊,你看他从不会一个动作到慢慢会一个动作啊。

这个它是可以通过不断的学习呢这个做到啊,而这个学习呢,它是在数字的这个环境中来完成的啊,这个有些时候他学的是比比人还快啊,比这个人的这个学习能力还强啊,啊,这个呢是我们实验室刘立斌老师们做的工作哈。

那当然在这个世界哈,除了我们这个人这种这个两足动物哈,实际上有很多这个四足动物,那当然还有这个这个这个八爪鱼对吧,还有这个章鱼哈哈,各种各样的形体拓扑结构的这种这种生物啊。

那这个就是就是这个啊就变得更有趣了哈,我看这个有同学学的学习呃,有有同学留言还说是强化学习,这是不是AI的范畴了,是的,这个有很多东西它越来越和AI呢发生交集啊,就很多时候他是互相促进的哈。

这个我后面还会再稍微讲一点啊,另外呢其实这个人体的生成,我们知道就像这个人人还要说话,对吧啊,人有个性对吧,这个人的这个动作呢和他说的事情有关系啊,比如说你是在做一个演讲啊,你该是怎么样的动作啊。

你是在抒情,你该是什么样的动作啊,这里有个多模态啊,所谓的多模态的这个也就是说我又有声音,又有文字啊,声音呢是想他是他的这个嘴巴里面的表达啊,大家可以听一下嗯,怎么听不到啊,听到这个声音啊啊OK。

Survival we eat the food,We taste burning processes,Current feat,So what’s going on here。

It turns out that,We’re fighting one of the most evolutionarily conserve learning processes。

Currently known in science,When it’s conserved back most basic nervous systems,known demand的。

他是有了this for word based learning processes,Called positive and negative reinforcement。

And basically goes like this,We see some food that looks good,Our brain says calories,Survival。

We eat the food,We taste it taste good and especially with sugar。

Our bodies and a signal to our brain,差不多了哈,大家得到一点这个idea啊,就是说诶你看他说话的时候,他的这个动作是自动生成的,这不是这不是人控制的啊。

这个你们确实是有AI啊,这个你们猜着了哈,还有对这个世界的深沉啊,其实还是不断地和人呢学习啊,就是我们可以把人和虚拟之间的加一个桥梁啊,就是说我们把人的动作,引入到一个数字世界里面去啊。

这样的就数字和真人之间不断地相互,这个交互呢,我们来生成越来越丰富的一些场景啊,也是让我们这个数字世界呢,就变得就是他能够不断的对吧,就是有人的真实性的存在啊,那这个这个就很有意思啊。

你看我们通过戴一个手套,对不对,戴了这个手套以后呢,我们的手的动作呢就进入到了它就数字化了啊,这样我们在这一个数字世界里面,我们就拿东西呀去做一些动作啊,它就是有一个数字的这个这个这个记录啊。

那这样的一个数字记录呢,实际上因为它数字化了嘛,我们就可以学习它,对吧啊,我们就得学习这些动作,就说哎这人到底是怎么拿这些东西的,是不是啊,我们就学,所以呢学你学到了以后呢。

当然你的这个机器人就有这个能力了,是不是啊,啊我来播放这么一个视频来看看啊,我们这是一个很综合性的方式,怎么样把所有的这些东西啊,这个串起来啊,几何的东西,这个动作的东西啊,然后实际的和虚拟的。

把它给整个给组合在一起啊,这样呢我们看到的是一个数字化的一个场景啊,但实际上呢它是有数字化现实,然后真人的表演,然后一起这样形成的这样一个场景。

And live inside the chee without a micle to my mahoto boss here,I came。

I could be brave or just insane,We’ll have to see,But maybe i’m not sleepy town,Will sick one day。

I’d like her down,And see my face,And think,How do you do too long。

and chasing all the light that shine lights sunshine b好吧,这个感受一下就不一定看完啊,好那我们接下来讲讲,我们刚才已经讲得足够多了。

就说一个好像是世界模拟器这样的东西啊,但是通过cg做的好啊,这样的一个东西,到底他回过头来,对我们这个智能又有什么样的一个作用啊,智能也就是说我们怎么样去用我们这样的一个,世界模拟器来培养一个智能体啊。

培养打引号啊,就训练啊,你比如说自动驾驶对吧,我们知道这个自动驾驶要上路哈,这个车要上路啊,你肯定要跑好多地方,对不对,你要不断的测试,但是你想一想,你如果用没这个能力的时候。

你这个无人驾驶它的智能系统,它没那个能力的时候,你会让他上街吗,对吧啊,这个是很危险的啊,这第一第二呢他在一个现实的这个世界去跑啊,它这个场景是有限的啊,那在一个数字场景就不一样了啊,数字化的世界里面。

我可以随便刚刚大家看到啊,我可以改变路面的情况,我可以改变天气,我可以改变这个现在这个行人对吧,这个穿越的一个各种不同的情况啊,这个都是一瞬间就可以改变,那么这个无人驾驶系统这个大脑它没有生子啊。

这个大脑在这个CYBER空间呢,他就不断的得到这个训练啊,他不断的训练,而且呢说白了你在这个里面,就他就是他就只是消耗你的计算能力啊,你跑个10万公里,跑个百万公里都有可能,他就是耗你的CPU而已对吧。

它不会撞车,他也不会这么低啊,所以呢这个呢就是一个非常基本上,可以说是现在许多无人系统的一个标配啊,就说他一定要先在一个数字世界里面学习,学好了本事以后,然后再去在一个物理的啊。

这个身体里面就是一个物理的车里面他去跑啊,是这样的,你包括像比如说这里的一个机器人,我们从设计的时候啊,设计它的形状开始,就要模拟它的一个走动的一个能力,跑动的能力对吧,跳跃的能力等等啊。

然后直到就说这个能力呢具备了以后,我们再生成呢把它制造出来,而制造的时候当然还要进行测试对吧啊,不断的这个迭代啊,但是有大部分的时间是在这个数字空间里面,去训练测试啊,然后再做出来以后呢。

他就能够快速的这个形成了他的这个,这个能力啊,那当然这个还有很多的一些场景,我就不一一说了哈,这个你比如说做手术啊等等,或者是帮助我们这些,甚至有一些这个像啊辅助一些这个残疾人啊,对吧等等啊。

这样子就是说我们说白了就是把这个机器的啊,像机器人和这个人体啊,这个这个有机的结合起来啊,这个呢有很多的一些啊工作,那么说到这个这个智能体的这个训练,这个事儿啊,其实啊我们正在这个开发啊。

这样的一个所谓的大任务平台啊,也就是说在这样一个空间里面,你可以生成无穷的任务啊,就说你是一个厨房对吧,来做菜,还是说你在办公室什么样的一些场景,他是可以这个随时呢生成,然后随时的去生成一些任务。

比如说去拿这个水杯啊,去榨这个汁对吧啊,是切个黄瓜等等,它可以随时生成这样的一些任务啊,而这样的一些任务的话,对智能体来说呢,就是一个非常好的一个学习的机会啊,当然你还甚至可以模拟一个整个社会系统啊。

这个社会系统里面有好多的人在街上对吧,现在呢还只是说完成一些技能啊,但实际上呢我们可以把这样的一个系统,不断的扩充,不断的这个这个这个让他的这个能力加强,所以呢这就是我们这样的一个基于图形学啊。

构建的这样的一个所谓的世界模拟器吧,啊,或者说对于这个智能体来说,是一个产生无穷任务的这样一个平台啊,这样的在这个智能体啊,这个这个训练中间的发挥啊,具它的作用啊,这个费呃这个费曼哈这个FEYMAN啊。

他说过一句话啊,这个他说呢呃如果我不能这个这个生成,我就不能理解啊,如果放在我们这个上下文的话呢,实际上就是说我们cg啊是生成这个世界对吧,我们深圳这个世界是,当然也是因为我们理解了这个世界啊。

之所以我们能够深圳这个世界,是因为我们就是这个理解了这个世界,同时呢,也是能够帮助我们来更好地理解这个世界啊,所以这两个之间啊,它是不断的这个这个互相促进的啊,这个所以呢图形学这个也也也是就是体现了。

图形学和我们的这个人工智能之间啊,一个非常这个强的这个关系啊,啊我再回到我们cg的话啊,图形学那么几何的形状的构建,这个物理的规律的体现,还有运动的控制,这就是我们的核心的核心啊,核心的核心模块啊。

在这样的一些核心这个模块的这个底下呢,实际上就是我们的这个算法啊,然后算法呢实现这些算法,他最这个最最重要的是什么呢,呃那就是里面有很多的一些数学工具啊,说白了我们有一个很好的工具箱啊。

那这个呢也就是回到了咱们这门课啊,就是图形中的数学啊,我算是跟大家呢做了一个小小的d two哈,就是呃来呃至少呢就是让大家感受一下啊,图形学呢还是非常的神奇的啊,啊这么一个神奇的这个这个事件呢。

我们要啊来做点拆解啊,其实这门课呢就稍微来拆解一下啊,这个也让大家有信心,其实把它拆解到了最后就是我们这些数学工具,有了这些数学工具呢,我们就可以这个打造出非常精彩的世界啊,好吧。

我就大概是就做这么一个,做这么一个开场的一个介绍啊,这个还只是个引子啊,真正的精彩呢是我们的这个两位呃,博士生老师啊,那我们就接下来就进入到这个真正的这个,课程的内容好不好啊,我也希望未来有机会啊。

跟同学们呢在这个呃现实生活中吧,啊在线上线下能有更多的互动,好吧好,谢谢各位呃,刚刚我们介绍了这个part one和part two。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这两部分的主要的呃课程的目的,然后我们现在看一下这个342部分,然后首先这个第三部分是微分方程求解,然后这一部分的主要内容是为物理模拟服务的,因为呃从场论,然后到这个微分几何呃。

以及后面求解微分方程为为为了求解微分方程,还要构建线性系统啊,这整个的一个过程都是呃,物理模拟所需要的相关的内容,然后最后一部分是优化与拓扑,优化与拓扑这个方面主要是为了实现,刚刚陈老师给大家介绍的。

就是虚实结合的相关的内容,也包括我要通过一些人工智能的手段,去驱动我场景内的呃,这样的对象所需要用到的一些算法,然后最最后一节课的拓扑是,因为其实在CRAPH上有很多呃。

就是用一些拓扑知识来进行一些很巧妙的设计,的这样的一些文章,然后所以我们也初步的简略的介绍一下,关于拓扑的一些内容,呃有同学问是常微分多还是偏微分多啊,应该是偏微分比较多一些啊,我把摄像头关掉。

就已经跟大家见过面了,把摄像头关掉,然后右下角的这个logo我也调小一点,好的呃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后我们就进入今天的这个正题部分,建议大数基础,然后现在是八点钟,我们就讲到这个大概九九点,然后下一节课没有讲完的,就接着留到下节课讲,因为呃正好这节课我们要赶上了这个craft呃,这个robot。

所以就可能原本也如果这节课讲完的话,下节课也可能需要gap一次。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以啊我们就没有讲完的部分,就下节课再说,然后呃既然是讲线性代数,那么大家其实接触到的线性代数的这个呃学习,可能有两种模式,第一种模式或许是绝大部分同学,在大学的教材里面所学到的。

上来给大家先定义行列式,然后大家先学会了行列式的计算,然后去讲矩阵的求解这样的一个途径,然后呃但是呢在国外的,包括大家在网上能看到的这样的呃讲义视频,他们走的路径都是先从向量开始说,先介绍什么是向量。

然后什么是向量空间,然后法,行列式在他们那里并不是一个非常重要的,这样的一个部分,然后呢呃我个人呢因为我们今天的这门课,它不是一个就是让大家从就是能够做到,因为我们课程容量的限制嘛。

因为它线性代数学的时候,其实是整一学期都在学线性代数,而我们只是这样用一两节课的时间,给大家讲线性代数,所以我们必然不可能用一种就是从行列式切入,还能把大家每个点都知识点都铺到,所以我们选择一个。

就是让大家能够最快的get到,线性代数到底是干什么的,他研究什么样的问题,然后想要达到什么样的目的,以这样的一个思路来介绍这个线性代数,所以我们也会选择和国外的教材一样,从向量开始去讲。

然后呃因为从向量开始去讲,对我们图形学来说,它还有一个更和与我们相符的地方,就是因为图形学的研究对象,它就是向量呃,不管我们是点的位置也好,我们考虑点的法向量也好,他们其实本质上都是向量。

那么什么是向量呢,我们因为我们的这个前置课程里面,是要求大家学的线性代数的,所以我们现在大家可能在大家脑海里,有两个向量,第一个向量是在中学的数学和物理,当中去学过的那个向量,大家那时候物理上叫它矢量。

然后数学上叫它向量,它们是既有大小又有方向的量,并且它们的运算满足平行四边形法则,平行四边形法则,就是如我们这边右图所展示的那样啊,一个蓝色的V和一个红色的W,然后两个相加得到了一个以这两条边为这个呃。

以这两条边组成的平行四边形的对角线,然后这个就是这样向量相加的结果,然后会给大家又学过这个线性代数的,这样的一个向量,那么线性代数里面的向量,是把向量定义为向量空间当中的元素。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后这些向量之间的运算,是要满足公理化定义的,什么是公理化定义呢,啊这个就是公理化定义,公理化定义是说在一个向量空间,它是定义在某一个数域F上,然后它的在上面需要定义它的向量之间的加法。

和向量与标量的之间的乘法,然后它要满足这八个运算率,第一个是向量的加法的结合律,也就是又加V加W的和,可以写成U加V的和加上W,然后第二个是向量加法的交换律,然后是向量加法的单位元逆元。

然后是标量乘法与数据乘法的结合律,标量乘法的单位里面,标量乘法对向量加法的分配率,以及标量乘法对数据加法的分配率,这些知识就是大家已经应该是都学过了,就是想要给大家回顾一下,然后在图形学应用当中。

数我们这里的数域F呢一般取为实数域R,但是呢这一点并不是就是完全笃定的,因为呃其实我觉得很多图形学的文章,他都带有一点啊这个整活炫技的成分,然后他们会巧妙地使用这个复数域。

引入复数域来解决一些实数域当中的问题,其实呃我觉得这样的思路也是很常见的,就是在物理当中,我们去定义这个量子力学的时候的,波函数的时候,我们其实也引入了复数语,而我们实际上研究的所研究的内容。

它本身反映在这个人们面前的现象,它依然是用实数语表达了这样一个东西,这里的复数语,其实是为我们提供了一些人看不见的信息,对对点乘和叉乘是不在这个体系内的,就是所谓的向量空间是可以没有点乘的。

然后至于叉乘就更遥远了,然后这样的一个这个公理化的定义,它有什么好处呢,就是我们现在研究的向量,它就不再仅仅是我们中学数学当中的那种,二维的,三维的那样的向量,它可能具有很高的维度。

然后它们之间的加法和乘法,也许和大家想象的也会有那么一点不同,但是只要满足这一些运算规律的东西,我们都可以用一个相同的方法去考察它,那么它能为我们提供相当大的便利。

就是我们可以通过二维和三维去直观地理解,什么是向量空间,然后在用的时候却去用很高的维度,这样和会很方便的去帮助大家去进行,抽象性的学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后定义了这个向量空间以后,就呃存在这个线性组合的概念,所谓线性组合就是是说在一个向量构成的集合,从U1到UN中,我们如果存在不全为零的一组数,使得乘以A1乘U1,加A2乘U2。

一直加到AN乘UN等于零,如果存在这样一组数,并且这些A并不全为零,那么我们就说明这个一其中的U1,它就可以写成负A1分之A2U2减去负啊,减去A1分之A3U3。

一直减到A1分之ANUN这样的一个形式啊,当然这里要求A1不等于零啊,这样我们就可以,我们就称U1是U2到UN的线性组合,那我们也可以称U1到UN是线性相关的,所以说到底什么叫线性相关,什么叫线性无关。

那它其实就是说这些数之间能不能用一组数,让他们等加起来等于零,用一组数乘上去,让他们加起来等于零,它就是线性相关的,如果不存在这样的一组数,它就是线性无关的,那么为什么要定义线性相关和线性无关的概念。

概念呢,那是那是因为说,如果我们能在空间中找出许多线性无关的向量,然后我们把这些线性无关的向量的,个数的最大值,我们就它叫做这个向量空间的维度,然后呃维度的概念我们把它记成DEM。

v dim其实是dimension的缩写,然后呃这个video这个向量空间,这个向量空间的维度呢,它有一个非常嗯重要的,对我们来说非常重要的意义,就是维度,个线性无关的向量构成了空间的一组基石。

任何空间中的向量都可以唯一地表示为,这组基石的线性组合,那么如何去证明说,它可以唯一的表示为这组基石的线性组合呢,其实大家只需要去想,如果我们存在一个向量,可以表示成有两种这些基石的线性组合方法。

然后我们把这两种方法相减就会得出,要么它是线性相关,它不是线性无关的,然后要么这两个表达是完全一样的,然后呃线性组合的系数呢,就被称为是这个矢量在这组基下的坐标,然后这样的话我们就避免了。

从呃高中的那套角度上说,先上来将矢量定义为这样的一个坐标组,这样的定义方法,而是选择了运用这样的一套思路去定义向量,这样定义的向量呢呃它最大的区别在于,他有可能不是用坐标表达的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他也许只是一个抽象的概念,然后我们刚看了维度以后,我们现在就来看看图形学研究的维度啊,图形学研究的维度呢,我们就我个人把它粗略的分开,分别成了从低维向量和向量空间,以及高维向量和向量空间。

然后呃低位向量呢,呃其实我们大家涉及到的都很多,就是我高中所学的,然后这个呃数学物理里面所用的,比如说欧几里德空间,它就是定义为XYZ,然后呃,明可夫斯基空间是研究狭义相对论当中所用的。

它用的是XYZICT,然后第三位是一个虚的眼,然后这里的I是这个虚数,然后C是光速,T是时间,然后这样也可以构成一个空间,它是四维的一个空间,然后呃除了这个物理空间以外,因为物理空间。

其实我们中学当中用到最多的空间,因为呃不管是mesh也好啊,曲线也好,点云它的坐标以及这些坐标的导数,都是用这个物理空间的坐标表达的,那么除此以外,我其实觉得同学当中还有一个很重要的空间,是低维空间。

是颜色空间,颜色空间呢它是呃常用的两种颜色空间,可能大家都听说过一个叫RGB颜色空间,一个叫CMYK颜色空间,那可能大家或多或少都听过颜色空间,这个概念,但是为什么颜色空间也是可以被称为空间的。

它究竟是不是一个向量空间,然后这个问题呃其实留待大家思考一下,然后呃或者大家或许大家可以思考一下,就是颜色空间在满足什么样的公理的情况下,它可以构成一个向量空间。

然后这个问题是我们今天的作业题的第一题啊,到时候就是可能大家对这个问题感兴趣的同学,可以通过作业来学习一下,到底为什么颜色空间也是个向量空间,而除了低维的向量以外,图形学还会研究高维的向量,对。

就是刚刚那八条,就是刚刚那八条,为什么颜色空间也符合刚刚那八条,就是进行怎样的定义时,颜色空间符合那八条,然后呃高位向量呢,呃就是图形学研究的另另一种内容了,比如说灰度数字图像中所有像素值。

我们可以把它组成一个向量呃,以我们现在电脑常用的显示屏的尺寸为例,1920×1080,就是1080P的这样的一个灰度数字图像,它的维度有200万,直达,就是这200万个实数都是0~1之间的实数。

这个是他们都是这个灰色灰度,数字图像的自由度,然后这整个构成的一个维度为200万的向量,就是它整个变化的空间的维度,然后呃图形学当中,尤其是我们在模拟和动画当中,还需要去处理。

二维或者三维图形的所有自由度组成的向量,比如说这个我右边放这个图,有很多同学在弹幕里开始打了,就是呃原神中纳西达,他运动的顶点自由度数为4万5459,然后这个是顶点自由度数,是我成了三之后的结果。

也就是说它这个模型的顶点数是1万5000,153啊,这个是L0模型,因为就是如果大家呃当当然,我默认大家没有学过后面的这个渲染的课程啊,就是L0模型是指放大到精度最高的,这个状态下的模型的顶点数。

因为呃L就是图形学中一个惯用的技术,叫LOD技术,就我摄像机离角色近的时候,它顶点数就多,摄像机离角色远的时候,它顶点数就会减少,然后呃我们在c graph的文章中,进行水体模拟的时候。

我们求解的向量维度一般至少要达到100万,然后呃一些比较酷炫的效果,需要1000万的销量才能做到,所以我们可以看到这文学研究的向量,实际上是包括这个地位向量和高位向,而且这两者之间差了非常的多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后有了这个线性组合的概念呢,就可以去定义线性映射,这个线性映射的意思是说呃,我线性映射呢,它能将一个向量空间映射到另一个向量空间,它映射方法是呃,就是我们用F这个函数来标记起来。

然后我们发每发进去一个V当中的向量,它就会给我生成一个W当中的向量,然后呃并且它需要满足FU加V等于FU加F和F,阿尔法为等于阿尔法FV,这样的就可以一个称是保向量加法,一个是保数量乘法。

然后呃只有说大家能够做到这样的映射,它才称之为线性映射,然后线性映射它的它会有几个好处,第一个它是保证加法的单位元,也就是零元是不变的,在一个空间内的这个加法单位元,你经过线性映射。

会得到另一个空间内的加法单位,然后第二个是呃,第二个其实就是把上面两条这个线映射的定义,给写到一起,就是我们可以把FAU加BV写成A倍的FU,加B倍的FV,这个其实看起来只是把这个两个定义写在一起。

但它有一个很重要的推论,就是我们对于线性空间,或者说向量空间进行线性映射,它就相当于说把这个线性空间里的所有的基石,做一次线性映射,然后其他的坐标都不变,然后乘在一起的结果,就会得到新的线性映射的结果。

也就是现在向量空间的维度,也决定了线性映射的复杂度,然后呃我们可以看一下到底哪些东西,哪些运算,它可以构成一个线性映射呃,在低维空间里呢,呃缩放或者旋转它都是线性映射,而平移它不是线性映射。

而这个事情怎么理解呢,我们可以看到右边其实给出的是一个旋转的,线性映射的图案,呃,我们这里是将V加W这个向量给旋转到了啊,V加W这个位置,然后呢,它又可以写成是我先旋转RV再旋转RW。

然后把它们俩相加的结果,这就是一个呃旋转,这个作为线性映射,它应该要满足的性质,但是平移并不满足线性映射的性质,欢迎大家可以试想一下,如果两个向量呃,它这个加在一起,平移和先平移再加在一起。

它显然是不一样的,你会导致它被平移了两次,但是我们在计算机图形学当中,我们又常常需要平移,就是这个平移,那我们这个匝道和缩放旋转具有同等的地位,因为我们一个模型可能需要转机,需要转也需要移。

然后我们就会定义仿射变换这个东西,它是缩放旋转加平移的和。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后我们先搁置这个仿射变换如何实现,不表我们现在来说一说这个矩阵的概念,然后什么是矩阵呢,矩阵嗯,我我我们在这个同学当中,我们不把它认为是一个二维的数字阵列,就是如果你把矩阵仅仅理解为一个。

二维的数字阵列的话,其实呃很多时候会错过一些,这个矩阵的内在的意义,而去陷入到这个数学计算的细节当中去,我们认为矩阵,它就是对线性映射的一种表示方法,然后呃如何去理解这个表示方法呢。

我们这里强烈推荐大家去看这个three啊,Three blue one brown,他们的那个视视频好像是three brown one blue,然后呃他们的这个线性代数的视频当中。

会对于矩阵的定义有一个非常直观的动画讲解,然后矩阵运算的意义,既然我们说矩阵,它就是对线性映射的一种表示表述了,那么矩阵与向量的乘法呢,那它给出的是向量在新的空间里的坐标,就是如果我的向量定义成。

我向量在元空间内的坐标,那么它盖上去一个矩阵的结果,就是它在新的变换空间里的坐标,所以这个矩阵运算,就相当于给出了一个线性映射的定义,然后啊矩阵所谓矩阵的乘法呢,它就又可以理解成对空间的多次相继。

变换的合成,它为什么可以合成,这就是线性代数的性质带来的性代数的性质是,我先将这个坐标进行一次线性映射,再进行粒子线性映射,可以先看成把线性映射组合完以后,再再去做对坐标进行一次映射。

这个是矩阵的所带来的一个啊,对于线性映射合成的一个比较直观的表达,然后一些特殊的矩阵,我们把方就是N乘N的矩阵记作方阵,然后它其实暗示了变换前与变换空间后的空间,有相同的维度。

然后啊如果一个矩阵是单位矩阵,它其实意思就是说,这个坐标进入这个线性映射之后,什么也没有发生。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他会获得一个完全相同的这个空间,然后我们有了矩阵以后,我们再重新来回过头来,看一看矩阵的那些单目运算,它们对应的意义到底是什么,然后第一个矩阵的单目运算就是转制呃,在这个线性代数课程里面,矩阵的转置。

是说帮将矩阵里所有的元素的下标行列,都给互换,比如说原来第一行第二列的元素,现在成了第二行第一列的元素,然后我们说转置的意义,其实是矩阵对应的线性变换,在它的对偶线性空间里的逆变换,对应的矩阵。

当然这个事情,可能大家不是特别容易直观的理解,但是就是呃因为这涉及到队友空间的概念啊,为什么叫单目运算,是比如比如说A加BA减B它就是生物影响,然后如果你这个这个发进去的变量,只有一个的话。

那就是单目运算,然后这里我把所有的矩阵,单目运算作为一个组合去讲一讲,这些弹幕运算的这个呃物理意义都是什么样的,嗯啊回到这个转置上来,就是转置,它其实和逆是有一定的关联。

它并不是就是我们其实经常能看到啊,它就是用转制来实现的,那么为什么存在这样的实现,就是因为矩阵的转置,其实就是在某个空间里的逆变化,然后这个某个空间是对偶空间,然后这个这个理论会比较复杂的。

大家感兴趣的话,可以之后课后去了解一下,然后呢在复数域上的共轭呢,其实和实数域上的共轭是不一样的,复数域上在共轭除了将转制以外,还要将所有的复数,比如说原来的A加bi都改成A减BI。

原来的A减BI都改成A加BI,然后这样得到的东西叫做共轭矩阵,我们把它记成AH,然后他和实数域下的转置矩阵,在意义上是完全等同的,就是因为实数域其实不是一个,对于开根号完备的这样的一个额数据嘛。

所以其实实数域上的转置矩阵,可以看成负数域上的共轭矩阵,在虚部为零的时候的特例,然后转制之外的第二个矩阵的单目运算,就是行列式运算,行列式运算,其实它对应的是矩阵所对应的线性变换。

对于空间的拉伸程度的度量,就是我们知道线性变换,刚刚我们已经说到旋转式线性变换,缩放式线性变换,然后这个拉伸也是线性变换,然后我们每个线性变化,你既然都是在对原来的图形进行拉扯。

那你其实肯定会把原来的图形拉扯的面积呀,发生改变,T如果是二维就面积发生改变,如果是三维就是体积发生改变,那么行列式它其实就是对这个拉伸程度的度量,它的物理意义就是这个东西,然后它的计算方法。

这个大家肯定都学过,就是在N阶方阵当中,我们要选N个元素,使得每行每列各有一个元素被选出,然后把这些选出的元素求乘积之后,再把不同方案的乘积乘以正一之后加和,这个就是行列式的这个计算定义的方法。

然后呃对于这个真正应用当中呢,当然当然就是如果大家去调一些数学库的话,它里面的这个行列式的计算方法会有一些优化,不是这里说的这么简单,但是大大概可以这么理解,就对低位矩阵来说。

我们可以将N条主对角线分别计算乘积的和,减去N条次对角线,分别计算乘积的和对高维矩阵呢,就是我们在用这个高斯消元,把它全部都削成对角线之后,再取对角线元素的基,然后这里写错了,这应该是对角线元素的积。

然后呃行列式的性质是,如果一个东西它的转置行列,行列式是不变的,然后交换它的行列的话。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个行列式会取反,就是其它的相反数,然后我们来看这个另外三个矩阵大模运算,第一个是矩阵的G也就是trace矩阵的G,它的定义是矩阵的对角线元素之和,然后啊,这我的意义就直接写成了矩阵特征值之和。

但是我们目前还现在还没有定义,这个特征值是什么,然后我们之后讲特征值的时候,才会回过头来看记这个东西,然后记它有一些非常好的性质,第一个性质是啊转制不改变,记这个很好理解,因为你爱行爱列。

转置完还是爱行爱列,然后第二个性质是转职,有交换率,就是ab的G等于BA的G,然后第三个性质是转置的,有加法上的交换,就是A加B的G等于B加A的G,这个也很自然,然后G之外就是逆,然后逆它指的是。

我们一般把它记成A的一次幂,它既是写成所有啊,只要我满足A乘上A的一等于单位矩阵,那我们就称为这个A的一,是这个A的逆,然后逆其实呃,我相信大家应该就可以很快的说出来,逆的这个物理意义是什么。

它就是矩阵对应的线性变换的逆,变换所对应的矩阵,然后呃,它当然它也可以称之为是矩阵的特征值的积,然后呃对于逆的求解呢,从最暴力的做法是伴随矩阵法,然后不那么暴力的做法是高斯消元法。

就是我先把一个单位矩阵,接在我要消炎的矩阵右边,然后当我把我要消炎的矩阵消沉,单位矩阵的时候,那边的单位矩阵就会被正好变换成它的逆矩阵,然后need的性质也是ab的逆,等于B的逆乘以A的逆啊。

这个事情很容易证明,然后第二个就是呃这个A的呃,行列式乘上A逆的行列式等于一,然后这个事情其实呃也很好证明,因为我们其实只要在行业是呃两端都去,就我们就看这个need的伴随伴随式的。

它的定义是什么就可以了,因为所谓伴随矩阵是说,A的每个元素的代数余子是AI界构成的矩阵,然后代数余子是呃AI界,这个矩阵呢是什么意思呢,其实就是它是等于它的余子式,乘上一的I加J次幂。

然后J的余子式就是删除第I行,第J列之后的行列式的值,然后呃一个性质是A矩阵乘上它的伴随矩阵,等于它的伴随矩阵乘上,它本身也等于它的行列式的值,乘上单位矩阵,然后用这个性质就可以证明。

刚刚我们说的A的行列式乘上A逆的行列式,等于一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后讲完了这个回,带大家回顾完这个矩阵的单目运算,以及它们的物理意义以后呢,我们就来看一看矩阵的特征值,然后对于某些,这个向量U满足拉姆达U等于AU的数,拉姆达我们称它为特征值,然后这里显然就是这个A。

我们还要规定它必须是方阵呃,这样的得到的U呢我们称为特征向量,然后每个特征值对应的特征向量呢,就可以构成一个向量的子空间,为什么是子空间呢,他们会回想到这个向量空间需要满足定义,我们会发现呃。

如果你一个向量满足拉姆达U等于AU,然后另一个向量又满足拉姆达V等于AV的话,那么拉姆达倍的U加V,也一定会等于A倍的U加V,所以只要把前两个式子加起来就可以了,那么它其实就正好满足了。

这个向量空间里面所说的,向量的加法的这个那个定律,然后如何去求解特征值呢,啊我们可以把这个就是拉姆达U等于AU的右端,减到左边来,把它写成拉姆达乘上一个单位矩阵,减去A矩阵。

然后再乘上某个向量U等于零的形式,那么这个事情它对应的是什么呀,它对应的其实是一个线性方程组,然后这个线性方程组,我们希望这个U是非零解的,因为如果U是全零的话,那么前面不管等于什么东西。

你都可以解出一个它都是零了,那就没有意义了,我们希望U是非零的,那么前面的这个矩阵,也就是这个线性系统对应的矩阵,它的行列式值一定要等于零,因为如果它不等于零的话,你就直接他就全是零了。

所以这前面的事情必须等于零,那么这就构成了求解特征值所需要满足的方程,然后这个方程是一个一元的N次的方程组,那么呃就是特征值,这样定义完以后,我们就会看到对于某些向量。

特定线线性变化的作用是合数成等价的,那这就是测量值的意义,就特征值它找出了一些在某些某些向量,在某个特定的线性变换下,它的作用是数乘,然后刚刚看到有同学问这个特征值,在图形学的应用有哪些。

然后我们就会看到,下面我就会给出一个这个特征值,在统计学当中的应用,因为呃如果大家只是学过线性代数,没有学高等代数的话,大家可能没有讲过矩阵多项式,然后矩阵多项式的特征值是这样。

就是首先我们定义矩阵多项多项式,它就是将一个多项式里面的这个所有的,原来我们写X的地方都换成这个矩阵,然后它就会构成一个矩阵多项式,然后矩阵多项式会有一些特别好的性质。

第一个性质是如果拉姆达是A的特征值,那么F拉姆达一定是FA的特征值,然后第二个是设A的特征值是拉姆达,一到拉姆达N,那么FA的特征值就由F兰姆达一到F兰姆达N,完全给出。

就是这所有的矩阵特多项式的特征值,你只要考察它的自变量的特征值就足够了,你知道多项式长什么样,你又知道自变量长什么样,你就知道矩阵多项式的特征值是什么样,那么呃我们一般的。

我们把这个最大的特征值称为谱半径,然后我们又把最大最小的特征值的比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

称为条件数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

呃,对对哦,我这里面有没有把那个呃做到课件上去,然后我们可以这样去思考思考这么一个问题,如果我这个矩阵多项式就是A的K次幂的话,那么它的多项式的特征值,如果它的最大特征值又都是小于一的数。

这里就会发生一件非常美妙的事情,就是你随着多项式A的K次幂的K升高,你的最大特征值一直在下降,因为你的所有的FA的全部特征值,都是由F拉姆达给出的,而F拉姆达的最大值,或者说绝对值的最大值是小于一的。

那么你FA这个对应的矩阵的最大特征值,就相当于是一定是小于,等于刚刚的那个lambda的K次幂了,那么也就是说对于矩阵多项式来说,只要它的拉姆达是绝对值是小于一的,那么它的谱半径随着次数的增加在缩小。

我们在图形学当中会遇到很多的,求解矩阵的方程的这样的算法,而这些算法当中他们在判定收敛条件的时候,都会用到谱半径,就是因为我们如果能发现,这个谱半径一直在缩小,那么就说明这个算法是收敛。

那么谱半径在这里就起到了,这个收敛判决的作用,然后条件数呢它类似的,它也是就是条件数最大最小特征值的,比如果就是很小,那么这个东西的特征这个条件数就就低,条件数低的矩阵就好解。

然后如果最大特征值和最小特征值之间,差的特别大,就说明我们考虑的各个维度之间,它的权重差异特别大,那么这样的矩阵方程就很难解,所以矩阵多项式的特征值上来的一个用处,就是用来判定这个矩阵的收敛性。

当然特征值还有很多别的用处啊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这只我只是随随便举了一个例子,然后呃现在我们就可以去,就是基本讲完了,这个向量也也不算讲啊,就是大家回顾了一下向量和矩阵,以及向量空间的内容,然后我们再来看一下这个我们平常说的点乘。

叉乘这些运算到底是怎么引入的,在引入点乘之前,我们先要看为向量去引入负数这个概念,我们向所谓范数就是这个在英文中就是NO呃,你把它称之为长度,其实也大小,我觉得都是没有问题的,模长其实都是一个概念。

就是当然有有时候感觉就是学计算机,他喜欢用范数这个说法,可能是因为这个说法听起来比较高大上一点吧,然后呃,度量空间和向量空间最大的区别是什么呢,就是向量空间中的元素是不能直接比大小的,因为你一个向量。

每个向量的方向都是不同的,我是不能直接说我一个向量就比另一个向量大,一个向量比另一个向量小的,但是如果一个集合V里面存在一个度量函数,满足以下的四个性质呢,那这个集合是由我们是可以称之为度量空间的。

这个性质,它的性质是这样的,第一个它要满足非负性,也就是说任意两个元素之间的距离,这个度量我们就可以把它理解为,去任意两个元素,比如说地图上的两个点,他们俩之间的距离它要大于等于零的,我不不能存在。

说我这个某两个点间的距离小于零对吧,这个事情非常就不符合我们的直觉,然后第二个事情是,当这个距离等于零的时候,这两个东西就是相同的,如果这两个东西是不相同的,他们俩一定不等于零。

这个叫不可区分者的同一性,然后这个这个要求其实还是挺重要的,一会儿我们会看到一个不符合这个要求的,所谓的范数,然后第三个是对称性,也就是X到Y的距离,和Y到X的距离得是相同的,然后第四个是三角不等式。

也就是这个这个我觉得也可以把它理解为,这个叫不会不能通过第三点来优化距离,这样的一个性质,因为呃我计算X到Z的距离,他就应该已经是X到Z之间的最小距离,你不应该存在说我取了一个中间点。

然后算X到Y的距离,再算Y到Z的距离,它居然还更小这件事情,所以X到Z就一定是最小的,然后这个性质我们叫它三角不等式,然后这样定义一个集合,如果它能满足这样的一个度量函数,它就叫做度量空间。

那么所谓的负反向量空间呢,它是向量空间和加上度量函数,然后这里的度量函数呢,它就是呃是将这个DUV定义成U减V的,这个范数,范数就是旁边加两杠,然后其实在高中数学物理里面,它一般都会加一杠。

写成和绝对值相同的一个形式,然后现在啊就是在计算机科学的研究里面,大家比较习惯是啊,对于向量我们用加两杠的这样一个写法,然后对于标量还是用加一杠的那个绝对值的写,然后呃所谓的这个举呃。

这个向量空间里的范数呢,就是给定向量空间里的两个向量,一个是U,一个是V,然后我们要求首先对于U考察U这个销量本身,U的范数一定要是大于等于零的,然后U等于零,当且仅当啊就是U的范数等于零。

就这两件事情要是等同的,我在这个校长空间里面,我把这个性别叫做正定性,其实它就对应于上面所说的,不可区分者的同一性,然后它还有一个正其次性的概念,就是因为向量空间里面我们可以定义数乘。

那么我们要求对于这个U这个向量乘以A,再取它的范数要等于A取范数,也就是绝对值,再乘上U的函数,这两个事情必须是等同的,然后第三个也就是次可加性,和上面一样的三角等式,就是任何两个向量相加之后的范数。

要小于等于它们分别的范数之和。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后这样我们就可以定义复范向量空间,然后复范向量空间,一个最大家最常用的复范向量空间,就是内积空间,内积空间,一般在线性代数里面把内积空间记成UV,然后用尖括号括起来这样一个东西,然后在一般意义下。

就是呃他要求满足以下这个四条性质,第一个性质是U和V的内积,要等于V和U的内积的共轭,这个是在复述一下,然后再实数一下,其实这个共轭你就可以不看,就是说就是说那些具有呃这个交换,就交换率就可以了。

然后但是在呃复述一下,大家要记得,就是U和V的那集和V和U的那集是不一样的,然后内积也是具有线性性的,也就是U和V加W和的那集,是等于U和V的那集,加上U和W的那几,然后内机也要满足对速成的。

这个就是线性性,也就是U和av的那集要等于A乘上UV的那几啊,最后一条性质是U和U的,自己本身的内积需要是一个大于等于零的数,然后右边呢啊放了一幅图,就是给出了我们现在定了这么多东西。

然后他们之间的关系是什么样的,就是首先线性空间是一个很很,是一个很大的部分,然后度量空间又是一个很大的部分,然后在度定义了度量空间,定义了度量的这个线性空间的里面,有一部分是复范线性空间。

然后因为我刚刚看到这个范数,我们的定义是把它就是把度量这个东西,看成是两个向量相减之后的范数的,所以度量空间和线性空间的交的一部分,是复范线性空间,然后在复范线性空间里存在这么一个类型,叫内积空间。

这就是这些空间的这样的一个抽象的概念,然后复范线性空间和内积空间的关系,是什么样的,就是我们的这个复范线性空间,它其实只给出了向量的长度对吧,我们其实并没有要求任何别的东西。

但内机除了给出向量的长度以外,它还能给出向量的夹角。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对,然后就是我们来看内机是如何给出,向量夹角的呃,内机与正交的概念是这样的,因为我们在内机当中,我们取U和V的内积,再除以U的模长乘以V的模长,也就是U的和U的那集,乘上V和V的那集,再开根号啊。

这个得出来的是两个向量夹角的余弦,也就是CAUV是等于r cos刚刚这这个东西的,如果cos theta u v等于零,也就是说如果他们俩的夹角是90度,这个时候我们就称为这两个向量是正交的。

然后正交基底是这样,就是一组两两之间互相正交的向量基底,然后他又是这个呃,我们又可以定义单位基地,单位基地就是说如果这个基地的模长都是一,它就是单位基地,然后正交基底加上单位基底就可以升。

就称之为单位正交基底,然后只要通过施密特正交化和规范化,就可以使任意一组向量空间的基地,都成为单位成交基地,单位正交基地的性质是这样的,就是如果我们设U是U1,U1加U212加U3E3。

V是V1加V212加V3E3的话,那么U和V的那集就等于它的每一个坐标,直接相乘再相加,当然我们之前在高中学习这个内机的时候,我们其实只是学了就是坐标形式的,并且是这个正交基底下的坐标形式。

然后我们今天的这节课,那我们今天可能讲不到那里,我们会提出说两个内积,它不一定就等于对应的坐标相乘再相加,因为并不是所有的机理都是单位正交基底,然后呃在单位正交基地的基础上,如果有存在一个线性变换。

使得一组单位正交基地,变成了另外一组单位正交基地,那么这样的一组变换,我们就称之为单位正交变换,然后单位正交变换它的有个性质是,它不改变任意两个向量的内积,因为还是还是一样的。

就是大家可以回想刚刚我们的这个证明过程,所以啊单位正交变换它对应的单位正交矩阵呢,它其实我们称之为旋转,它就是它不能完全等同于旋转矩阵,它是满足于它,它显然是和旋转矩阵一样。

满足A的转置和R的逆相等的这样的一个矩阵,但是呃还存在一个守信的问题,就是我们说在有哪些线性变换,不改变两个向量的内积呢,除了除了把模型转一圈,还可以给模型照镜子,我的镜子里面的世界。

它的内机和我们的现实世界的内机,也是任意两个向量都是完全相等的,所以呃旋转呢加上镜像空间内的旋转,这两个事情一起构成了所有的单位正交矩阵,然后我们呢把所有的这个呃在RN空间当中的,单位正交基底。

加上原点构成的坐标系呢称之为笛卡尔坐标系,然后在笛卡尔坐标系下,由于这个任何两个向量的内积,就等于它对应的坐标相乘,再加和的结果,所以我们也可以用这个转置和向量乘法,和矩阵乘法的形式去定义内积。

把这个内积写成U的,转置成V或者V的转置乘U。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后这里呃我们稍微拓展一下,去谈一下这个要正空间,然后呃我这里采用了物理上的译名叫妖正空间,我并没有用数学上的译名,这个有空间就很多人可能和我一样,当时刚学到有空间的时候。

就觉得他这个翻译有什么玄妙之处的,他是不是和这个呃地支有什么关系,因为地支有12个,那是不是有12种不同的空间,但事实上不是的,这个有空间就是根据这个英文unitary音译过来的,所以我觉得他这个翻译。

实在是让人不是非常的理解,所以我觉得物理上的这个翻译更好,腰正腰就是单位的意思,正就是这个正定的意思,所以叫叉腰正空间更符合这个空间的意义,然后所谓腰正空间,它就是定义了内积的复数域C上的线性空间。

然后呃,他这里的内积呢是通过埃尔米特函数来给出的,然后这个埃尔米特函数其实是一个,跟我刚刚说的对函数很像的东西,但是它是和呃在复数域当中定义的,然后腰正变换呢,就是将腰正空间中的单位正交基底。

变换为另一组单位正交基地的变化,它听起来和我们刚刚说的这个单位正交变换,也非常的像对吧,但是呃单位正交变换其实是腰正变换,在实数域啊,什么特例在复数域中的这个这种变化呢,就叫腰正变换。

然后腰正空间和妖正变换的意义是什么呢,呃其实它最重要的用处就是在量子力学当中,因为量子力学的波函数是在复数意义上定义的,然后我们说一个量量子算符,它如果需要可能被我们是正常的世界要观察,观察到的话。

就是最后我们又会去取这个它的这个波函数,所对应的,把它算成这个概率密度,所以呃这个过程当中我们需要消化器算特征值,这个特征值的表象,就是这个算符的特征值的表象,就是我们真实去观察一个量子态之后。

得到的结果,然后这个里面就会涉及到这个腰正性的概念,就是一个算子,如果他是保内积的,那我们就称为这个算子叫腰正算子,然后呃量子力学它是波函数,就是函数上为什么也能定义内积呢。

其实呃我们在这个图形学当中也会遇到,非常多的函数上定义内积的情况,因为所谓的函数空间,它其实就是无限维的向量空间,你你一组就是如果你看呃我们的一个函数,它其实是发给我一个值,然后我给他吐出来一个值。

然后我们的向量呢,你也可以看成是发给我一个下标,我给你吐出来一个值,那这个函数它其实就是无无穷维的下标对吧,我们可以这样去理解这个东西,所以啊对有同学说,这个乘积的积分是函数的内积吗,啊是这样。

就是一般情况下我们是把两个函数的乘积,然后在它的定义域上的积分,给算成这两个函数的那几,然后我们之前所讨论的一切定义的概念,全部都可以往函数空间上去拓展,比如说这个呃这个内积呀,也包括什么妖正变换啊。

这些全部都可以往函数上去拓拓展,就大家如果看见某个时候忽然跟你说,我定义一些函数的内积,然后甚至去求函数的特征值啊,大家不要太觉得恐慌。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你就把它理解成是一个无穷维的向量空间,就可以,然后我们现在补完了所有的这个矩阵的,基础知识以后,就可以来看一下这个东西,在图形学中的应用了啊,对这个可能刚刚会感觉知识有点陡峭。

但是那些内容就是如果感兴趣,大家可以去看这个相关的,包括西RAPH论文,也包括这个量子力学的,其实啊就是量子计算,他们也会以这些东西为它的基础,然后如果不感兴趣的话。

我们还可以从回到这个更简单的这个图形学的,线性代数上来,比如说我们刚刚忘掉那些高维的向量空间,我们现在回到最低维的向量空间上去,在二维的世界当中,如果我存在哪些线性变化呢,首先我存在这个缩放。

二维的缩放是什么样的,二维的缩放其实就是一个对角矩阵,比如说如果我的X和Y的话,然后呃最早起真的一一是SX,然后二二是SY,然后他说他指的就是我在X方向上的拉,这个缩放和Y方向上的缩放。

我看到右边最上面这幅图,然后左边这个钟表,在经过这样一个矩阵缩放之后,我们会发现它在Y方向被拉伸了,然后在X方向被压缩了,这就是这样一个缩放矩阵的结果,然后第二个就是这个剪切矩阵,这个剪切的矩阵的啊。

形式呢大概是可以写成,就是它相当于是一个单位矩阵,加上一个某一侧的一个缩放量S,然后比如说右边,我们看到一个沿Y轴的这个剪切是这样的,就是它的一一和二二的下标的数都是一,然后它的二一这个下标数是S。

然后我们经过这样一个,呃呃说反了啊,这个沿X方向的,然后沿X方向的这个剪切之后,得到的是右边第二幅图这样的一个形状,然后第三个就是旋转,然后二维的旋转是以这样的,这个三角函数给出的。

这个fine就是它沿逆时针方向的旋转角度,呃我们看到右边这幅图是旋转45度的结果,因为大家可以看到那1。707是什么东西啊,其实是二分之根号二对吧,根号二其实是cos4分之派对,cos45度之后的结果。

这个是二维的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个二维的大家就是肯定或多或少都接触过了,然后我们就可以看到来到三维,然后三维的呢啊,其实三维的缩放和之前是一样的,三维的缩放是XXXYXZ,然后三维的这个剪切是解释一个单位矩阵。

然后加上在某某些角落加上S2和S,然后三维的绕Z轴的旋转旋转矩阵长,长底下这个样子,就是其实可以看到它和前面是完全相同的,只不过是说我多加了一个维度,然后在最右边的Z轴,那个三三的那个元素那里摆了个一。

但是就是这个东西它完备了吗,它不完备对吧,因为我们在三维当中,我们不能说这个东西还是总是绕Z轴旋转,我们希望它能绕任意轴旋转,然后这个时候怎么办呢,其实呃最简单的方法就是,我们把这个绕Z轴的旋转。

左边乘上一个旋转矩阵的逆,右边乘上一个旋转矩阵,我们先把你要的旋转轴给转到Z轴上去,然后把它转一转,然后再把这个旋转转回去,这样就实现了绕任意轴的旋转,然后这个呢这个旋转。

因为是图形当中非常重要的一个部分的内容,我们之后会有专门的一讲来讲关于旋转的知识。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后我们对会讲四元数,会讲四元数,四元数是在这个图形学,尤其是刚体的运动当中,是完全不可或缺的这样一个存在,因为你用别的一切旋转表示方法,都会存在这个锁的问题,会导致有些方向应该能转,但转不过去。

所以四元数在同学当中很重要,然后我们回到这个问题,刚刚我们说到我们讲了讲缩放,讲了讲这个剪切,又讲了讲这个旋转,那么我们还是没有解决平移怎么办这件事情,然后平移的怎么办呢,那我们就引入齐次坐标。

所谓齐次坐标就是说我们用原来N维坐标,它就是N个数,但是我们现在要用N加一个数,来表示这个N维坐标,比如说呃在二维当中,我们现在的三个坐标是XYW,然后它表示的实际的坐标,其实是X除以W和和Y出一大堆。

然后在三维呢原来的这个坐标是XYZW啊,类似的也改成了S除以W,Y除以WZ除以W,这样的来表示一个三维当中的点,我们看右边这幅图,其实就是二维的这个笛卡尔坐标系里面的一二。

这个点它在齐次坐标下可以写成121,也可以写成242,也可以写成三十六三,但它们指向的都是同一个点,然后我们而且这些点之间,你可以在三维空间中,可以用一个轴把它们全都联系起来啊。

这个事情其实呃就是还是挺直观的对吧,然后你定义了这个引入了这个新坐标以后,我们就可以去平移了,平移的做法是呃,我们把这个可以定义这个二维仿射变换矩阵了,二维仿射变换矩阵的左上角的四个元素。

和这个二维变换矩阵的四个元素是完全相同的,然后右边第三列多加了TXTY和一,然后我们把它乘上去,就会发现它等于说是一个旋转缩放之后,一边有一个加TX,有一个加TY,这样我们就实现了这个平移这个过程。

然后呃,一般来说,这个平移变换是在线性变换完成之后进行,我们看这个上面这个矩阵乘法也能看出来,我们是乘完了以后再加的TXTY,所以默认顺序就是胡迪尼亚布兰德,这种商业的图形软件里面。

默认的顺序都是先缩放再旋转再平移,当然这是默认的顺序,它是可以改的,就是因为它都是其次坐标下的线性变换,所以线性变换是可以任意组合的,你当然也可以实现说先平移再缩放再旋转。

只是说以缩放旋转平移这样的顺序来执行,对于计算机来说,就他的建立来说,这个方程的建立来说是最自然的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后呃在有了矩阵,又有了一些基础的矩阵变换之后呢,我们可以看看一看,这个就是矩阵的变换是什么东西,我刚刚讲了线性变换,因为矩阵就是线性变换,那么既然矩阵是线性变换的表示,那么矩阵的变换是什么。

矩阵变换其实是线性变换的变换,就是这样东西,它其实不是一回事,然后呃最重要的两种矩阵变化呢,就是相似变换和合同变换,相似变换是说呃存在一个可逆矩阵P,使得P的逆乘,以这个矩阵再乘以P等于B。

这个时候我们就称为矩阵AB是相似的,然后它的意义是什么呢,其实A和B它是同一个线性变换,它只是在不同的基底下,它所才形成了不一样的矩阵,因为这个P它对应于一个这个不改变空间,维度的这样一个线性变换。

所以它只是改变了这个就是空间里的坐标,的基底,就是我把基基底给改掉了,所以他才导致了说这这两个矩阵不一样,所以A和B就是同一个线性变换,在不同基底下的表象,然后相似矩阵可以对角化啊。

我们可以利用相似这个性质来进行对角化,就是当存在N个线性无关的特征向量的时候,我们就可以将矩阵其相似为一个对角矩阵,那么它其实意意思是说,在某一个特殊的基底下,这个矩阵对应的线性变换。

就等价于一个纯缩放的变化,其实这个事情啊,我觉得大家也可以这样去理解一下,就是比如说我沿这个X轴拉一拉,再沿45度角拉一拉,这个东西在笛卡尔坐标系下,它一定不是一个对角矩阵。

但是如果我的基底分别取向X轴和X方向,沿45度角的那个向量的话,它在这一组基底下这样的一个变化,它就是一个纯缩放变换,所以这个时候他就会成为一个对角矩阵,所以对角矩阵就是纯缩放变换。

刚刚让大家在低维的二维和三维的那里也看到,然后呃相似变换以外就是合同变换,合同变换的含义是说它和相似变换非常像,但是它的就是变换的矩阵原来是P逆乘A乘P,现在变成了C转置乘A乘C。

如果存在一个肯定矩阵C,使得它的逆乘以A再乘以C等于B的话,这时候我们称为矩阵,A和B是合同的来记作A就是两个波浪线B,然后这个的意义是什么呢,它其实是同一个二次型在不同机底下的表象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后这个事情其实在同学当中有很大的应用,比如说从医学当中,大家会学到这个贝塞尔曲线,然后呃BEL啊,nerves曲线,尤里被塞尔这些种种的曲线,还有他们对应的曲面,然后这些曲面它其实都可以写成二次型。

比如说我们在高中的时候,大家学过的圆锥曲线,它的标准形式是这样,X平方加2BXY加C,Y方加2BX加2UY加F等于零,然后这个东西它就可以写成一个二次型,什么叫二次型呢,就是它可以写成一个矩阵。

一个向量的一个行向量乘以一个矩阵,再乘以一个列向量,然后这样乘出来之后等于零,这个东西我们就把它称之为一个二次型,然后它一般形式就是X展值乘A再乘X,然后X就是坐标,这个A就是这个二次型。

这个矩阵就是这个二次型,然后我们来看合同变换,它干了什么,合同变换就是X的转置,乘了中间的这个矩阵的变化,然后又乘以S,然后我们利用这个矩阵的运算性质,稍微变形一下。

我们可以把它写成C这个矩阵先作用到X上,然后再把CX的结果转至再乘以A,然后再乘到这个CX上,然后这样等于,所以它其实只是说我们把X都给变化了,基底对吧,我们把基底变化了,变换完了以后。

这个A也要相应的发生变化才行,因为如果你只变X,那你其实就相当于取得另一组坐标,去算这个二次型,如果为了保证这个二次型不变,我要把中间的A也给变掉才对,所以这个时候这个A要换成之前说的那个B。

这个这个这就是合同变换的意义,那么一个最基础的应用就是说呃,比如说上面我给了一个圆锥曲线是长这样的,它有非常多的交叉项,比如说2BXY,然后这个还有这个2DX,201Y这些东西我们在高中都没有学过。

因为椭圆的方程,我们高中学的就是X方除以A方,加Y方除以B方等于一,然后这个方程是什么呢,这个方程是一个长轴和短轴,分别和X轴与Y轴平行的这样的一个椭圆,如果我想把一个朝任意方向的椭圆。

变成一个标准形式的椭圆,我就要进行合同变换,就是我需要把它的这个椭圆的系数矩阵,进行合同变换,然后他因为椭圆的系数,就是这个标准形式的椭圆,它直接写下来,就是下面这样一个形式。

就是XY1乘上乘上这个矩阵,再乘以XY1,然后中间是一个,只有一对角线上有元素的这样一个形式,我要把上面这个矩阵表示给,转化成下面这个矩阵表示,就需要经过合同变换啊,这个就叫二次型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后二次型二次型,它在它可以与分析进行一定的结合,就是呃我们把所有二次型满足X转置乘以A,又乘以X大于零的这样的一个矩阵,就对于任意的向量X都满足,这种事情的这样一个矩阵,我们把它称之为正定矩阵。

在这个正定矩阵当中呃,呃有正定矩阵有一个应用领域是在于解方程,因为尤其是高远的,应该叫多元的函数的解方程呃,比如说我要求一个二元的可微函数FXY,那么它的二阶的微分可以写成右边这个形式。

就是DXDY乘上,中间是一个二次型,它是偏方F比偏X方,然后偏方F偏Y方是它对角线,然后它非对角元是偏方F偏X偏Y,然后这个是一个二次型,这个二次型给出了这个二元可微函数,沿任意方向的二阶导数。

所以如果上面的这个这个这个二次型是恒正的,它其实意思是说这个二阶的导数,沿任何方向都是很正的,它其实就是说我的这个二元可微函数,在这个特定的XY值处是几小时,也就是说我们通过这个算法。

找到了这个地方的一组极小值,也许大家在解这个矩阵方程的时候,尤其是这个解模拟的时候,对一个挤占方程往往需要要求说呃,这个方程是正定的,为什么他需要这个方程是正定的,其实它就是他的药。

这个二阶导数的方程正定,就是保证说我能去优化到这个最优解,如果这个二阶的方程不正定,也就是右边这个东西存在某个方向,它的二阶导数不是恒大于零的,那这个点它就不会有可能它就不是极小值点。

所以这个我们在优做优化或者解方程的时候,去要求镇定性,就是这个原因,然后正定矩阵的性质是说正定矩阵的特征值,它是全部都是正数,当然逆命题是不成立的,另外就全特征值都为正数,它也不一定是正正定矩阵。

然后呃正定矩阵之外呢,有个稍微宽一点的条件叫半正定矩阵,那就是满足X转置乘,A乘X是恒大于等于零的矩阵,然后这个时候它有可能它乘出来,就不不是完全大于零的,那这个时候这个这个点。

它就有可能不是极小值点啊,可能是一个N点,但但是不管怎么说,这也依然是一个比较强的一个性质啊,不是而不是安点,是那个平稳点,然后这个时候但它也是一个比较强的性质,所以我们有时候就是。

如果你这个矩阵它不是正定,那是半正定的,那他也会有自己对应的一些这个结算的方法,然后呃正定矩阵,我们可以看到刚刚这个矩阵它不仅是正定的,就是就是刚刚我们看这个二阶微分中间,这个矩阵它不仅是正定的。

它还是对称的,也就是它的转置和它本身是相同的,所以啊我们又把这种矩阵,这这这样的矩阵呢,就是这种实数域上对称矩阵呢,又称之为实对称矩阵,然后呢,一个实对称矩阵,一定可以被一个正交矩阵对角化。

正交矩阵就像我刚刚说的是,我们是通过相似变换来把矩阵对角化的,而这个呃相似变换对角化靠的是P逆乘以A,再乘以P本身,然后如果他是正交矩阵的话,就相当于说它既是一个正交变换,又是一个这个呃合同变换。

然后呃对于实对称矩阵来说,刚刚我们说的那个逆命题不成立的时候,它便是它是成立的,也就是说只要特征值全为正数,那就是正定正定矩阵特征值,这就是对实对称矩阵来说,只要特征值为正数就是正定的,这是我们常用的。

判断一个实对称矩阵,是不是正定矩阵的一个办法,然后在复数域上的呃,这个矩阵啊,我们这里补充一下,他们说实对称矩阵是说满足A的转置等于A,这个是在实数以下满足的,如果再复述一下。

他其实要求的是A的这个这个共轭矩阵的,它是等于A的,这个我就来复复述一下吧,埃尔米特矩阵共轭转置矩阵和它本身相等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种矩阵叫做埃尔米特矩阵,然后今天的呃对,然后看老师应该是到了九点钟,然后我们今天这个课件,刚刚带大家把这个比较基础的知识都回顾了,然后下一节课我们还需要讲述的内容是啊,矩阵分解。

然后以及矩阵的各种各样的范数,以及矩阵的导数,还有张亮的相关的内容啊,这些我们就留到下周一去讲,然后因为今天课没有讲完,所以我们的作业题也这个,下周一的时候在布置啊,大家有什么问题吗。

啊有没有更进一步的讲解,是有一些这个课,刚刚我对他就是线性代数的最基础的内容,可以去看这个呃three b one b的他们的那个视频,这个视频在B站上有官方中文版啊,去搜一下,很容易就哦找到了。

然后呃别的一些就是内容的话,呃线性代数还有一本书叫linear algebra done right,这本书是挺好的,就大家可以去提前去看一下,然后作为一个学习对,然后这个这是这是现代复习啊。

这个就前面内容都是现代复习啊,就是因为这个我们但要快速的带大家get一下,我们到底要用到哪些现代知识,所以这些东西并不是一个叫我觉得不算一个,就是教学的过程和下节课关于求导和范数的。

以及张亮的部分可能会稍微讲细,啊作业的形式,我们在刚课程刚开头的时候说过了,作业的形式是呃,以这个要求大家以一个PDF文档的形式,就本节课的作业是PDF文档的形式,去做一些证明和计算题。

包括我刚刚其实已经留了两个作业,第一个作业是那个证明在特定的假设下,颜色空间是一个向量空间,然后第二个证明是证明,关于矩阵多项式的特征值,呃函数求特征值没有太听清楚啊。

就是对这个课会有上传GAMC的录播,对我之后结束这个课程的时候,就会有录像,公众号,公众公众号我也不是很清楚,可能之后要问一下这个技术技术人员,啊函数求特征值,就是说一个矩阵函数的特征值。

等于它的特征值的函数,其实这个结论非常容易记记住,就是也是比较想当然的一个结论,函数空间因为不是这个图形学研究的重点,因为图形学是往往是选择,把函数空间给用向量去表,向量空间去表示,而不是倒过来。

因为我们研究的终究是一个离散的问题,所以呃就是函数空间,我只是说大家如果看到这个概念的话,你可以把它理解成向量空间,但是事实上在图形学当中,你反而是要把一个函数空间给看成,变成一个向量空间,才能去算。

而这些数学的证明,其实呃大家就是如果你掌握了的话,对你之后比如说学习研究来说会轻车熟路一些,但如果你不掌握的话,你知道有这么一回事,然后你记住去用,其实也问题不大。

但是就是如果当你需要去产出一些东西的时候,你会觉得如果你会证明的话,你能做一些别人想不到的事情,啊总总之就是这节课呃,因为时长的关系,我们就是先把这个,大家可能就我们刚讲的所有内容。

就是大家在现代课本上听过的概念对,是这样,然后之后下节课我们会讲一些,大家可能在现代课本上属于遗珠的部分,他没有他提到的一些啊,那些部分可能会讲的详细一些,作业系统的网址啊,在这一页的PPT。

在在我们PPT的最后一页,但是今天因为没有讲完,所以大家也不用太着急,我下节课会放出来,啊是有很多现代课本上没有,我主要是讲了一些,跟这个这些现在课本上提到的概念,它本质上的几何意义。

或者说物理意义是什么,对参考文献我今天会把,我今天会把这个就是前面的26页的PPT,给大家发到,发给这个我们的技技术技术人员,然后他们先传一下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

内容概要:本文详细介绍了使用COMSOL进行三相电力变压器温度场与流体场耦合计算的具体步骤技术要点。首先讨论了变压器温升问题的重要性现有仿真与实测数据之间的偏差,接着阐述了电磁-热-流三场耦合建模的难点及其解决方法。文中提供了关键的材料属性设置代码,如变压器油的密度粘度随温度变化的关系表达式,并强调了网格划分、求解器配置以及后处理阶段需要注意的技术细节。此外,还分享了一些实用的经验技巧,例如采用分离式步进求解策略、优化网格划分方式等,确保模型能够顺利收敛并获得精确的结果。最后,作者推荐了几种常用的湍流模型,并给出了具体的参数设置建议。 适用人群:从事电力系统设计、变压器制造及相关领域的工程师技术人员,特别是那些希望深入了解COMSOL软件在复杂多物理场耦合计算方面应用的人群。 使用场景及目标:适用于需要对变压器内部温度分布油流情况进行精确模拟的研究或工程项目。主要目的是提高仿真精度,使仿真结果更加贴近实际情况,从而指导产品设计优化运行参数。 其他说明:文中不仅包含了详细的理论解释技术指导,还提供了一些实际案例供读者参考。对于初学者来说,可以从简单的单相变压器开始练习,逐步掌握复杂的三相变压器建模技能。同时,作者提醒读者要注意单位的一致性材料属性的准确性,这是避免许多常见错误的关键所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值