第二十五天：Interferi: Gesture Sensing using On-Body Acoustic Interferometry

最新推荐文章于 2024-11-05 16:55:29 发布

刘泓君

最新推荐文章于 2024-11-05 16:55:29 发布

阅读量214

点赞数

分类专栏：论文阅读文章标签： vr

本文链接：https://blog.csdn.net/weixin_44907625/article/details/126044903

版权

论文阅读专栏收录该内容

27 篇文章 6 订阅

订阅专栏

Interferi是一种利用声干涉测量的身体手势感知技术。我们使用放置在皮肤上的超声波换能器在佩戴者体内创造声干扰图案，以复杂但有特征的方式与解剖特征相互作用。我们专注于身体的两个部位，具有强大的表达能力：手和脸。对于每一个传感器，我们构建并测试了一系列穿戴的传感器配置，我们使用这些配置来识别有用的传感器排列和机器学习特征。我们为手和脸创建了最终的原型，我们的研究结果显示，它可以支持11个和9类手势集，准确率分别为93.4%和89.0%。我们还在四个连续跟踪任务中评估了我们的系统，包括微笑强度和权重估计，其误差从不超过9.5%。我们相信这些结果显示了巨大的前景，并阐明了一个有趣的传感技术的HCI应用。

介绍

在这项工作中，我们介绍了Interferi，一种新的使用声干涉测量的身体传感方法。我们使用放置在皮肤上的超声波换能器，在佩戴者的体内投射出结构化的声学干扰图案。这些模式以复杂和特征性的方式与解剖特征，如脂肪、肌肉和骨骼相互作用。这些交互作用可以通过分类器来学习，以支持交互式应用程序。我们构建并测试了一系列可以感知手势（即姿势）的手臂佩戴的腕带，它们可以集成到智能手表中，以实现触摸屏之外的输入。我们还构建了一个面部表情感知面具，它可以集成到AR/VR头盔中，使其成为更具表现力的社交体验。

我们迭代地开发了Interferi，从软件和物理模拟开始，以确认其基本的操作原理。然后，我们开发了定制的硬件和软件来驱动8个声学换能器(40 kHz)，并以不同的方式连接臂带和面掩模的形式因素。然后，我们对四名参与者进行了用户研究，以评估这些设计和不同的传感器配置。从这些结果中，我们选择了最后一组特征，以及我们最好的表演臂带和口罩。使用这两种最终设计，我们进行了第二项用户研究，以评估手和面部的离散手势识别性能，显示分类准确率分别为93.4%和89.0%。我们进行了第三项也是最后一个用户研究来评估连续跟踪性能，其中包括四个任务：微笑强度、提升重量估计、手腕角度和手的姿势，这些误差从不超过9.5%。

Pilot Models

在开发我们的系统之前，我们进行了一系列的小规模的测试，以确认我们基于理论的对压缩超声波在液体介质中传播的理解。为此，我们使用一个直径为120mm的水柱，在20°C(即1482 m/s的传播速度)作为人类肢体的粗略近似。我们从软件模拟开始，测试了单发射器和多发射器的配置，并证实了通过改变传感器的位置和相对相位可以产生各种各样的干涉模式。图1，顶部，显示了两个这样的模拟的输出——单个发射机和两个发射机（相位）。当然，现实世界的变化更大，例如，换能器阻抗不匹配和多路径干扰。出于这个原因，我们还使用了一个实际的120毫米，水填充的丙烯酸气缸进行了测试。

使用这种设置，我们测试了不同的传感器排列，角度和相对相位偏移。为了创建一个超声波波形传播和干扰的全面视图，我们使用了一个连接在数控机架上的传感器，并扫描了水浴。对于任何给定的发射器配置（例如，两个发射器，以直角，0°相位偏移），传感器将被移动到槽内的113个点(在5mm网格上)。在浴缸中的每一点，发射相同的发射器序列，并记录在传感器上的声学相互作用。在所有点的波形被捕获后，它们可以同步回放(见视频图)来可视化浴缸内部的音响效果。图1，底部，显示了单个发射机和两个发射机（相位）的物理结果。

我们的软件和物理模型紧密匹配，并帮助我们建立了对操作原理的理解。更具体地说，它使我们能够测试和验证各种各样的传感器排列和信号，这些都很难通过收集身体的数据来理解（只能在圆周感知，即皮肤，而不是在身体内部）。我们还使用这些实验测试了十几个不同的超声波换能器，它们具有不同的谐振频率(40-200 kHz)、功率等级(5-140V)、物理尺寸(10-18mm直径)和光束宽度（7-70°）。我们通过在传感器的最大额定电压下驱动传感器，并在放置在水浴中1厘米外的匹配传感器上测量Vpp来测试传感器。这导致我们选择了[33]——直径16mm，传感器40 kHz，束宽70°，最大额定功率140V。

实现

Interferi由三个主要组成部分组成。首先是我们的自定义驱动程序板（图2），它可以生成、捕获和处理超声波信号。接下来是穿戴的传感器本身，它包含了发射和接收信号的超声波换能器。最后，我们有一个基于笔记本电脑的软件，它可以从硬件上接收数据，并执行额外的处理和机器学习。我们将更详细地描述这些元素。

在这里插入图片描述

我们使用基本的分类法为手和面部生成了穿戴的设计，部分由我们的试点建模研究提供信息。对于手臂，一个设计轴是传感器是排列在一起（连续）还是分成两组（分裂）。在另一个轴上，传感器要么沿着手臂的长度向下（线性），要么缠绕在手臂（环）。对于脸，我们水平探索
在这里插入图片描述
我们的机器学习管道，运行在笔记本电脑上，将由我们的硬件捕获的波形数据转换为功能。对于离散分类，我们使用西基特学习的随机森林分类器（默认参数，200棵树），而对于连续分类，我们使用西基特学习的额外树回归器（默认参数，200棵树）[31]。所有这些任务都是在标准配置2017 15“MacBookPro上执行的。

在这里插入图片描述

用户实验一：传感器几何形状与模式

我们前面提到的软件和物理模拟影响了我们对感知原理的理解，但并没有说明我们的技术在实践中感知人体手势的效果。因此，我们的第一个用户研究试图量化不同磨损传感器几何形状的值（图4）、换能器配对和相位偏移量的值。具体来说，从我们的8个传感器中，我们生成了56个单发射/单接收组合，336个(0°，15°相偏移，30°，35°/单接收组合；导致（56+336‘4=1400可能的组合）。

我们采用了[45]中定义的两个手势集，这允许在我们后来的研究中进行直接的准确性比较：7个“粗”手势（图5，绿色）和5个“捏”手势（图5，黄色），它们有一个共同的手势（放松）。我们在文献中找不到合适的面部手势集，所以我们定义了自己的9个类，其中包含一个“眼睛”手势集（图6，粉红色）和“嘴”手势集（图6，蓝色），并带有一个常见的放松手势。注意，这些手势是静态的，在HCI文献中也被称为姿态。

我们招募了4名参与者（1名女性，平均年龄25岁），他们每人佩戴着我们的四个臂带和4个口罩（图4）。在穿着每种设计时，参与者随机地做了每一个动作，每次10次。当保持手势时，硬件捕获了每个传感器组合和相位偏移的数据。在实验中，我们将记录周期延长到1325µs(图7提供了几个波形示例)。捕获所有1400个波形，包括通过USB传输，我们的传感器板每一帧大约需要4秒(即0.25FPS；我们随后进行了改进)。

在这里插入图片描述

实验二：离散的手势

在研究1中，我们确定了手臂和面部的强磨损传感器设计，并选择了最强的传感器配置。在研究2中，我们评估了我们的最终原型（图12）的手势分类性能。具体来说，我们招募了10名参与者（3名女性，平均年龄30岁），平均手臂直径为9.7厘米(SD=1.8)，平均脸宽（在眼睛测量）为11.5厘米(SD=1.6)。这项研究大约花了一个小时，参与者得到了10美元的报酬。

该研究被分为两个阶段：手臂手势和面部手势。在手臂上，参与者把臂带戴在他们的非惯用手上——因为我们所有的10名参与者都是右撇子，这意味着臂带总是戴在左臂上。我们使用了与研究1相同的手臂和面部手势集（图5和图6）。单轮的数据收集包括每个手势以随机的顺序执行一次。每个手势都保持了大约两秒钟，在此期间记录了50个传感器帧。一次会议包括十轮的数据收集。为了增加真实性，我们为每个用户收集了两个会话的数据，中间删除了磨损的传感器。

总的来说，这个过程产生了110000个传感器帧（50个传感器帧11个手势10轮2次10个参与者）的手臂手势集和90000个传感器帧（50个传感器帧50个9次手势10轮2次10个参与者）。

实验三：连续跟踪

除了研究Interferi在检测离散手势方面的表现外，我们还希望探索我们的系统提供连续的手和人脸跟踪的能力。为了进行评估，我们招募了10名参与者（2名女性，平均年龄22岁），平均臂径7.6cm(SD=0.7)，平均脸宽10.3cm(SD=1.3)。这项研究需要大约30分钟，参与者得到了10美元的报酬。参与者完成了与研究2相同的磨损传感器，完成了四个连续的任务，三个是手臂，一个是面部。所有的任务都遵循相同的一般程序，收集了十轮数据（下面是特定任务的细节）。然后，我们进行了留1轮交叉验证，其中我们进行了9轮训练和第十轮测试（所有组合，结果平均值）。