文章链接
补充材料
Motivation:不受控环境下的准确3D标注很难,本文利用人在相互对视时两者视线的约束关系探索基于弱监督的视线估计。
具体来说,作者利用了两个包含人类对视的数据集构建弱监督LAEO数据,该数据集样本为成对的对视图片,以及相机坐标系下的3D头部姿态位置:
1.CMU Panoptic数据集,该数据集在室内环境用多个摄像头采集多个人物的活动影相,包含关节位置注释以及相机校准位置。作者采用Gaze360训练的网络提取视线伪标签,如果在大于四个视角下两个人的视线夹角在其中一个人俯仰、偏航任意一个角翻转后小于20度,则判断为LAEO。
2.AVA数据集。网络获取,标注人的位置、LAEO标注。采用densepose获取头部姿态,相机内参近似为焦距为图像最大边的像素值,主点是图像中点。
约束双人视线:1.约束每个人估计视线和二者眼部中心连线夹角余弦大小。2.约束对方视线与自身头部平面的交点和自身眼部中心的欧式距离。3.根据置信度
σ
\sigma
σ计算3D视线伪标签,约束双方视线与伪标签的夹角余弦。4.对有3Dgaze标注的样本以及翻转图像计算考虑不确定性的L1视线损失。
实验:
弱监督、半监督(训练在Gaze360\GazeCapture以及ETH),测试在Gaze360