手套箱环境下，协同装配的人机协作数据收集

本文链接：https://blog.csdn.net/yorkhunter/article/details/141577009

24年7月来自德州Austin分校的论文“The Collection of a Human Robot Collaboration Dataset for Cooperative Assembly in Glovebox Environments”。

工业 4.0 引入了 AI，作为实现制造流程现代化的变革性解决方案。其后继工业 5.0，将人类视为指导这些 AI 驱动制造解决方案的合作者和专家。开发这些技术需要能够在协作装配过程中安全、实时地识别场景中人体位置（尤其是手部）的算法。尽管已经付出了大量努力来整理用于手部分割的数据集，但大多数数据集都集中在住宅或商业领域。现有的针对工业环境的数据集主要依赖于合成数据，这些数据无法有效地转移到现实世界的操作中。此外，这些数据集缺乏对安全协作至关重要的不确定性估计。

为了解决这些差距，提出 HAGS：手部和手套分割数据集。该数据集提供了 1200 个具有挑战性的示例，用于在工业人机协作场景中构建手部和手套分割应用程序，以及评估通过绿屏增强构建的分布外（OOD）图像，以确定 ML 分类器的稳健性。

数据：https://dataverse.tdl.org/dataset.xhtml?persistentId=doi:10.18738/T8/85R7KQ
基准：https://github.com/UTNuclearRoboticsPublic/assembly_glovebox_dataset

手套箱是一个独立的空间，工人可以通过固定在密封舷窗上的手套来处理危险材料（如图所示）。这种设置可保护操作员免受暴露，并防止未过滤的材料渗透到环境中。在手套箱中处理危险材料的工人和研究人员，面临着诸如人体工程方面的伤害和手套撕裂导致的潜在危险性暴露等问题。在这些环境中使用机器人可以缓解许多这些问题。

添加图片注释，不超过 140 字（可选）

机器学习社区最近的成功启发了机器人研究人员开发大规模数据集，旨在实现类似于 ImageNet的突破，用于机器人研究。虽然机器人应用有无数的可能性，但以前的数据集优先考虑住宅环境中的指令遵循。不幸的是，这些数据集往往忽略了人机交互（HRI）的元素，包括人机协作（HRC）：人类和机器人智体共同努力实现共同目标。特别是，这种行为在协作装配的制造任务中是期望的。

为了安全地执行协作装配任务，机器人必须了解人类操作手在共享任务空间中的位置。这需要主动安全系统，其依靠手部分割算法来避免或与人类合作者互动。尽管有大量公开的手部分割数据集，但大多数数据集并不优先考虑在危险或工业环境中操作。相反，这些数据集利用网络数据，这些数据偏向于容易获取的目标和环境，例如住宅环境中的常见家居用品。针对工业领域的公共数据集通常存在以下问题：(1) 规模小且缺乏人类主体多样性，或 (2) 生成的合成数据。

这些缺点对主动安全系统影响极大。例如，大多数实时分割算法利用卷积神经网络 (CNN) 进行手部分类。然而，这些架构可能过度依赖像素颜色值进行分类。因此，这些数据集中的代表性不足可能会不必要地影响有色人种的效果。

视频是在标准的能源部 (DOE) 手套箱中收集的。每个视频提供两个摄像机角度：一个 1080p GoPro 从鸟瞰视角拍摄，另一个 1080p Intel RealSense 开发套件摄像头记录参与者的右侧。研究中包括 12 名参与者，每人 16 个视频，总内容超过 9 小时。从每个视频中收集并注释了合规分布帧，总计超过 1440 帧。Unreal Robotics UR3e 机械臂带有用于处理目标的附加夹持器，用于协助人类受试者。机器人经过预先编程，可协助人类参与者完成连续的组装任务。

为了收集手套箱内关节组装任务的代表性数据，设计了两个替代任务供人类参与者执行。第一个任务是组装一个积木塔，第二个任务是拆解一个工具箱。

除了任务和参与者的多样性之外，收集过程中还改变了另外两个因素：绿屏和手套的使用。

添加图片注释，不超过 140 字（可选）

以下四个因素的组合导致每个参与者有 16 个视频。
• 顶视图 / 侧视图
• 工具箱任务 / 抽积木（Jenga）任务
• 戴手套 / 不戴手套
• 包含绿屏 / 不包含绿屏

将采样帧分成分布内 (ID) 和分布外（OOD）集。ID 集包含最可能的手套箱操作场景。总共采样了 1440 个帧进行标记。这些帧均匀分布在所有视频中，每个参与者采样 120 个 ID 帧和 24 个 OOD 帧。

每幅图像被分配了三个类别：左手、右手和背景。指示人工注释者从指尖到手腕注释每只手，并提供受试者戴着手套时手腕位置的最佳估计。使用 LabelStudio 【34】，注释者向 MobileSAM 【40】提供关键点提示，MobileSAM 是一个分割模型，可为注释者提供粗略标签以供细化。四名研究人员进行注释。两名注释者标记每幅图像以开发注释者间标签质量一致性 (IAA)。通过两种方式计算 IAA：(1) 平均 Cohen’s Kappa (0.916) ，和 (2) 整个数据集中注释者提供的标签之间的平均 IOU (0.957)，表明高度一致性。每一帧的注释都被转换为一个 PNG 文件，其中记录了三个类别：左手、右手、背景。

为了训练两个实验中的所有模型，输入 256x256 大小的图像，并使用 Adam 优化器，对于 UNet 和 BiSeNetv2 架构，学习率为 1e-3，对于 MobileSAM 训练，学习率为 8e-4。要使用 MobileSAM 进行训练或推理，首先需要视觉提示。采用一种简单的方法，即选择包含整个图像的边框提示。所有架构的训练都使用 p=0.1 的 Dropout。对训练集应用了各种数据增强，包括：调整大小、颜色抖动、高级模糊、高斯噪声、随机旋转 90（p=0.5）。