视觉显著性

视觉显著性基本理解
可以将视觉显著性理解为视觉注意机制,视觉显著性计算模型是通过计算机视觉算法去预测图像或视频中的哪些信息更受到视觉注意的过程。视觉显著性用来描述场景中的对象对于观测者而言的重要程度,即引起观测者视觉注意的程度。
背景特征建模的显著性物体检测方法
这个方法的基本思想是建立图像的背景特征分布,然后从与这种特征分布的差异中提取图像的前景信息,即显著性物体。
基于全卷积神经网络的显著性物体检测方法
这种方法首先利用全卷积前向计算得到分割图像,同时提取网络前向计算过程中产生的深度特征来计算显著图,然后利用显著图去引导分割图像,得到最终的检测结果。
KL散度
描述两个概率分布对数差的期望。
全卷积深度网络是一种端到端的神经网络,可以实现对图像高质量的语义分割。利用全卷积网络深度特征计算得到的粗略显著图,引导分割图像得到最终的检测结果。卷积神经网络更易于训练并且比全连接的神经网络的泛化性能更好。有四个关键的思想:局部连接、权值共享】池化以及多网络层的使用。GoogleNet采用更深的网络结构设计,并且利用增加的Loss层解决了网络层加深后的梯度消失问题,GoogleNet的核心思想是Inception模块,这种基于多分辨率融合的设计更符合图像的二维结构信息特点。
全卷积神经网络是2015年提出的一种神经网络模型,这个模型最大的不同之处在于是一种端到端的网络结构,可以对应于原图像每个像素位置生成一副新的预测图像。用端到端的训练方法得到网络中的参数,使输出结果为原图像每个像素位置的预测值。
基于全卷积网络的显著性物体检测
该方法基于全卷积深度网络来完成显著性物体检测,首先利用全卷积网络对图像进行分割,同时利用网络中间层提取的特征,结合全局和局部对比度生成显著图,然后利用显著图所表征的图像显著性信息,引导分割图像得到检测结果。
计算
采用全卷积网络对输入图像进行前向计算,得到分割后的图像,同时采用全卷积网络中的特征表示,来进行显著图的计算。全卷积网络随着层数增加分辨率逐渐减小,对原图像的结构表征越模糊,而特征随着层数增加越来越具有抽象意义。
基于运动特征的视频显著区域检测方法几乎都是通过运动信息来计算时间显著图,运动信息可以通过帧差法、光流法、块匹配和全局运动补偿的方法获得,然后对视频序列中的每一帧用空间显著性检测的方法计算空间显著图,最后将空间显著图和时间显著图融合在一起,形成时空显著图。
一种改进的自适应的时空显著性融合方法,该方法能在强烈运动对比的动态场景中给予时间显著图较大的权值,当运动比较弱时,给予空间显著图较大的权值。

没有更多推荐了,返回首页