人眼关注点检测和显著物体检测的关系_人眼关注区域检测-CSDN博客

本文链接：https://blog.csdn.net/weixin_43925119/article/details/109549389

人眼关注点预测（eye fixation prediction）和显著物体检测（salient object detection）都属于显著性检测任务，都是对图片或者视频的最显著区域进行检测。但是两者在方法机理和应用场景上有一些差异。

1.人眼关注点检测

作为人类视觉显著性检测研究引入了计算机视觉领域的早期工作，人眼关注点检测更加关注于人类视觉注意力机制，对人眼在场景中某一个位置停留的可能性进行预测。人眼关注点检测是指通过数学建模的方式模拟人类视觉注意系统的机能, 对图像或视频中不同位置受到视觉关注的概率进行计算, 通过与真实的人类眼动的数据相比对, 对模型预测的视觉显著性结果进行量化评估。

2.显著物体检测

随着计算机视觉的发展，针对目标物体级别的理解显得尤为重要，视觉显著性检测出现了另一个重要的分支——显著物体检测。强调对场景中显著目标整体的准确预测并且获取清晰的显著物体边界, 为物体级别的视觉任务提供更直接更有效的信息，常用于目标检测、目标识别、目标跟踪等。与人眼关注点检测任务相比, 显著物体检测任务的研究历史相对较短, 且是一个纯计算机视觉任务，视为视觉注意力机制在物体分割任务上的延拓, 提出的背景是计算机视觉领域从底层视觉处理任务向高层视觉理解方向的深入, 对物体级别的感知和描述成为相关研究的关键。

3.真值标注区别

（1）人眼关注点检测真值标注
大部分的人眼关注点检测数据集图像包含风景、室内场景、室外场景，肖像等。
1）标注真值，首先安排一定数量的受试者，现有的数据集受试者的数量有8、15、20等。受试者需要具有一定的代表性，不应该局限于一类人群。
2）用眼动仪准确记录每位受试者自由观看图像模式下的眼动数据，包括注视轨迹和注视位置。合理设置每张图像的观看时间。
3）平均每位受试者的眼动数据，对所有注视位置进行二维高斯卷积，得到连续的注视密度图。
4）显著性映射可被阈值化，标定注视点和非注视点，以显示图像中最显著部分。

与众多数据集不同的是，SALICON利用了亚马逊众筹标记平台让标注者用鼠标点击自己关注的位置，即用鼠标记录眼动数据，通过对同一幅图像的所有预处理的鼠标点击样本进行高斯滤波器的聚集和模糊处理，生成 ground truth 显著性图。

（2）显著物体检测真值标注
显著性物体分割的数据集图像应该具有一定的复杂度，显著物体的数量和结构具有多样性，不应过于突出视觉显著性的概念。标注时需注意，不故意给人脸等做标记，同一对象的不连通区域分别进行标识，实心区域近似空心物体等。
1）同样要求一定数量的受试者，标记突出的物体，对显著物体数量可以限制或者不限。
2)标记的方式分为两种，一种是物体边界框标定，过于粗糙；另一种是像素级标定，基于完整分割，更精确标记重要区域，便于广泛和准确的评估。
3)对多名受试者的观察结果进行平均，设定阈值，标注出显著的物体。
另外还可根据眼动数据标注显著物体。