读论文，第十四天： HulaMove: Using Commodity IMU for Waist Interaction

我们提出了HulaMove，一种新的交互技术，它利用腰部的运动作为一种新的无眼和无手的输入方法，可用于物理世界和虚拟世界。我们首先进行了一项用户研究(N=12)，以了解用户控制自己腰围的能力。我们发现，用户可以很容易地区分8个移动方向和两个旋转方向，并通过返回到原始位置（快速返回）来快速转换动作。基于此结果，我们开发了一个具有八个手势的腰部交互设计空间，并实现了一个基于imu的实时系统。使用分层机器学习模型，我们的系统可以识别腰部手势，准确率为97.5%。最后，我们进行了第二个用户研究(N=12)，用于在真实世界的场景和虚拟现实设置中的可用性测试。我们的可用性研究表明，与触摸屏方法相比，HulaMove显著减少了41.8%的交互时间，并大大提高了用户在虚拟世界中的存在感。当用户的眼睛或手忙碌时，这种新技术提供了一种额外的输入方法，加速了用户的日常操作，并增强了他们在虚拟世界中的沉浸式体验。

介绍

现代无处不在的互动通过来自人体不同部位的无手和无眼输入而越来越丰富，如面部[19,73]、脚[48,55]和口腔[9,52]。在本文中，我们通过引入腰围作为一种新的互动通道来贡献该文献。
虽然通常不明确使用，但核心肌肉位于腰部周围，通常参与广泛的日常活动[42,53]。因此，腰部的运动可以重现广泛的日常生活。研究人员经常采用腰部运动进行全身互动[16,40]、活动识别[7,20]和健康监测[77]等。之前的大部分工作都利用腰部运动作为一个被动的指标，即通过观察在活动中自然发生的腰部运动来实现互动、识别或监控目标。
然而，作为人体最大的关节，腰围也可以很容易地进行主动控制。这一观察结果产生了HulaMove，一种利用自愿的新技术用户的腰围移动作为一种新的无眼无提输入方法，对物理世界和虚拟世界的交互都很有用。在现实场景中，当用户的手或眼睛（或两者都是）繁忙的情况下，它可以作为一个方便的输入通道。例如，用户可以在用手拿着沉重的袋子时轻松地接听电话，或者在厨房的食谱页面之间导航，那里的手可能是湿的或忙着拿着烹饪工具。此外，在增强和虚拟现实(AR/VR)设置中，使用腰部进行互动可以在用户的身体和虚拟世界之间建立更强的联系，从而增强身临其境的用户体验。
了解用户如何控制他们的腰部运动是腰部交互设计的基础。我们进行了一项用户研究(N=12)，通过腰控制目标获取任务来评估用户的腰控制能力。我们关注了两种类型的腰部运动：1)移动，在一定的方向上移动腰部，同时保持腰部朝向向前，2)旋转，围绕身体的垂直轴顺时针或逆时针旋转腰部（见图1）。我们比较了不同数量的方向（从4到16个移动，从2到8个旋转）和三种转换技术（快速返回，时间停留和按钮点击）的使用。我们的研究结果表明，用户可以很容易地区分8个移动方向和2个旋转方向，并且快速返回技术优于其他通信技术。此外，用户表示社会担心直接向前和向后移动，而不是其他的。
基于frst用户研究的结果，我们开发了HulaMove的易于执行和社会适宜的设计空间，导致了8个腰部手势。然后，我们实现了一个实时的手势检测和识别系统。涉及不同身体部位的新型交互技术通常需要定制传感器（例如，[62]、超声波腕带[78]和电容式指指[33]），限制了其他应用的可扩展性和通用性。相比之下，HulaMove除了每个智能手机内置的惯性测量单元(IMU)外，不需要任何其他传感器。通过最小的校准，用户可以随意地将智能手机放入腰部附近的口袋中（在腰部中心上方或下方20厘米以内，例如，夹克口袋或裤子口袋）。该系统可以动态地适应其位置，并稳健地检测腰部手势。使用分层机器学习模型，我们的系统可以成功识别8个腰围手势，准确率为97.5%，在日常生活中假阳性率低至0.1%。
最后，我们在两个场景下进行了可用性研究(N=12)：一个真实场景模拟用户手和眼睛忙碌时的日常工作条件，另一个是用户使用HulaMove玩沉浸式游戏的VR场景。我们的研究结果显示，与现实生活中（即当手机需要从口袋里拿出来时）相比，腰交互只需要58.2%的交互时间，而在VR中使用腰手势显著增加了存在感和增强了用户体验。参与者提供了积极的反馈，并表示愿意在日常生活中使用HulaMove作为一种新的输入技术，因为它很有趣，而且可以方便地执行。
我们对这篇论文的贡献有三方面：

我们创建了HulaMove，一种新颖的无眼睛和免提的输入技术，利用了腰部运动。我们进行了一项用户研究，以了解用户控制自己腰围的能力。
我们开发了一个腰部交互的设计空间，并在智能手机上使用IMU实现了一个实时检测系统，而不涉及任何定制的硬件。我们最好的机器学习模型达到了97.5%的准确率。
我们在现实生活和虚拟现实场景下评估了HulaMove，并证明了腰部互动的良好可用性。

研究一：腰部运动控制

在开发HulaMove的设计空间之前，我们首先需要了解用户在不同的视觉反馈条件下控制腰部运动的能力。我们的第一项研究旨在解决这一差距。研究结果可以提供有意义的指导腰部互动设计，如多少移动或旋转方向。此外，沟通关系是任何基于选择的任务的一个基本方面。我们还比较了三种常见的融合方法，以找到基于腰的交互的最佳方法。
在这里插入图片描述

任务和变量

为了研究用户控制腰围运动的能力，我们设计了一系列目标获取和融合任务[50,74]，并研究了四个重要变量：腰围手势类型、目标获取区域、融合技术和视觉反馈条件。

腰手势类型：我们在设计空间中关注两种主要的腰手势类型：移动（图1a）和旋转（图1b）。我们在不同的会议中独立地评估了它们。在移动过程中，用户的腰中心被用来确定所选择的区域，即光标与腰中心的位置一致。他们需要将光标水平移动到目标区域。在旋转过程中，光标以用户的腰心为中心，指向他们向前的方向，他们需要旋转躯干以面对目标方向范围。
目标获取区域：在移动和旋转的会话中，区域的数量都影响了选择区域的宽度（即每个扇区的中心角）。我们比较了每个移动/旋转方向上不同数量的区域，包括1、2、3和4。我们还在移动过程中转向了四个方向（左、右、前、后），在旋转过程中转向了两个方向（顺时针和逆时针）。因此，轮班会议的区域总数为4、8、12、16个，轮班会议为2、4、6、8个。图2显示了两个会话中每个方向上的两个区域的示例。
对比技术：我们研究了三种对比技术，它们是在用户将腰部光标移动到预期区域后使用的。按钮点击（点击）：按手持按钮，停留（停留）：保持光标在目标区域1秒，快速返回（快速返回）：快速将腰部光标移回中性区域（低于阈值，见图2）。该阈值被自适应地设置为他们在移动过程中最大移动距离的10%和在旋转过程中最大旋转角度的10%。对于快速返回，为了避免在阈值附近的细微运动带来的噪声，经验选择300 ms作为识别“快速”返回的最小时间。返回程序的起点表示所选的位置。
视觉反馈条件：视觉反馈是交互设计中的一个重要因素。在我们的研究中有两种视觉反馈条件。在全反馈条件下（视觉），所有区域在屏幕上都可见的，试验的指定区域是灰色的。实时可视化用户的腰部运动和相应的光标。正确的腰部位置或旋转方向的正确位置。在无反馈条件下（无视觉），只有中性区域可见。没有其他地区可供参考。一旦用户越过阈值，腰部光标就会消失，只有在返回到中性区域后才会再次出现。在实际的应用程序中，视觉和没有视觉都可以适用于不同的情况。虽然HulaMove只有没有视觉的条件（如第4节所示），但我们在研究1中研究了这两种条件，以提供对用户性能的全面理解。

实验设计与过程

我们采用了一个重复测量的被试内全因子设计。第3.1节中描述的四个自变量包括：1）视觉反馈条件（视觉、无视觉）、2）腰手势类型（移动和旋转），3）选择方法（点击、停留、快速返回），4）每个移动/旋转方向上的区域数（N=1、2、3、4）。总共有4个环节（2个反馈的×，2个手势类型）。我们预先确定了四个会议的平衡顺序。在每个会话中，我们使用一个拉丁方块来平衡选择方法的顺序，并随机化区域数量的顺序n。用户重复每个条件三次。
5. 校准由于不同的人的腰围运动范围也不同，所以在用户执行任务之前需要进行校准。在每个环节开始时，用户都要经过一个校准阶段：他们首先展示他们的最大移动距离，然后以一个圆形移动（就像他们在使用呼啦圈一样），从而捕捉到各个方向的平均最大移动距离。然后，它们尽可能地将躯干旋转一次，顺时针一次，再逆时针一次。这就捕获了平均最大旋转角度。校准后，任务区域就会适应他们的腰部运动能力和他们所面对的方向。在我们的研究中，平均最大移动距离为17.1cm(SD=1.9cm，最小=14.1cm，最大=19.8cm)，平均最大旋转角度为69.9°(SD=5.9°，Min=64.4°，最大=84.0°)。
6. 性能指标。因变量包括1)成功率：特定条件下成功获得目标的试验百分比；2)完成时间：从腰部最初移动离开中性区域到获得的时间；3)交叉次数：光标进入目标后，光标越过目标区域边缘的次数（所有快速返回的试验，因为光标返回时不可避免地越过边缘）。这些措施是相互补充。成功率和完成时间表明了任务的整体完整性，而交叉的次数反映了他们的腰部控制表现。
7. 程序。用户签署了同意书，并从热身阶段开始。在他们表示他们理解了程序和手势后，他们一个又一个地进行了校准和四次测试。每节课大约花了10分钟。每次会议结束后都会有一分钟的休息时间。最后，实验者进行了一个简短的访谈，以获得参与者关于腰部互动的反馈。研究的持续时间大约是好几分钟。

参与者和设备

在获得大学IRB批准后，我们通过滚雪球抽样招募了12名参与者(女性=5，男性=7，Age=25.2±1.8)。所有参与者都报告自己身体健康（身高171±6厘米），体重69±16公斤，腰围77±8厘米)。确保测量的准确度在腰部位置和方向方面，我们利用了嵌入HTCVIVEPro的跟踪系统。我们将一个控制器安装在参与者裤子的左侧和另一侧，这样两个控制器的中心表示腰部中心，向前的方向与参与者的身体面对方向一致。在本研究中没有使用头戴式显示器(HMD)。

结果

在这里插入图片描述
图3显示了研究1的结果。下面，我们分别总结了每个因素。
8. 确认技术。我们实验的一个目标是寻找腰部互动的最佳融合技术。我们观察到一个一致的结果：在两种反馈条件下，快速返回要么优于其他转换技术，要么在成功率、速度和腰围运动控制稳定性方面有不显著的差异。
我们将我们的观察结果与统计分析结合起来。由于数据违反了正态性和同方差假设，我们使用广义线性混合模型(glmm)[41]，使用伽马链接函数，以收敛技术为主要因素。表1总结了glmm的结果，以及使用Bonferroni调整的事后两两z检验。对比表明，在大多数情况下，快速返回的性能明显优于其他技术(p<0.05)。在不同的手势类型和视觉反馈条件下的结果是一致的。因此，在其余的分析中，我们重点关注了快速返回的试验。
在这里插入图片描述
9. 区域数量。这项frst研究的一个主要目标是确定在每个移动/旋转方向中有多少区域，用户可以轻松地区分和舒适地控制良好的性能。我们使用快速返回的方法对数据应用了glmm，以区域的数量是主要因素。同样，采用Bonferroni调整的z检验作为事后方法。表2总结了所有的结果。
在这里插入图片描述
3. 这里有一些观察结果。首先，一般来说，性能随着区域数量的增加而下降。区域数量越大，活动范围越小，腰围运动控制的差异也越大，特别是当区域数量大于3时。在两种视觉反馈条件下，N=3和N=4的成功率均显著下降，而在无视觉反馈条件下的成功率下降更显著。“当有12个或16个目标时，我几乎不可能区分两个相邻的区域。”(P2).第二，在腰部转移过程中，N=1和N=2之间的差异并不明显。在表2顶部的6项事后两两比较中，有3项比较在p=0.05水平上没有显著性，1项显示N=2的性能优于N=1。相比之下，在腰部旋转训练中，N=1在大多数指标上的表现明显优于N=2。基于这些结果，我们选择了N=2进行腰移动，N=1进行腰旋转，以最大限度地提高手势数量，同时表现满意，从而得到10个（2×4+1×2）腰手势。
4. 视觉反馈。不出所料，去除视觉反馈会增加任务的多样性，特别是在成功率度量上。我们观察到在移动（χ2（2）=10.1，p<0.01）和旋转会议（χ2（2）=27.3，p<0.001）中的成功率显著下降。在轮环节中，没有反馈的完成时间也明显更长（χ2（2）=39.0，p<0.001）。其他的结果并没有显示出显著性差异。然而，如果我们在腰围移动过程中关注N=2，在腰围旋转过程中关注N=1，glmm并没有表明反馈类型之间有任何显著的差异。
5. 主观反馈。在实验过程中，我们收到了一些有趣的评论。三名参与者表达了他们对社会接受移动手势的担忧。两名参与者对后移手势也表现出了类似的担忧。为了更正式地比较10个手势，我们向12名参与者发送了一份简短的问卷，询问了三个问题——身体需求、心理需求和社会适宜性——李克特量表。图4显示了10个手势的评分结果，从最好到最差的排名。结果与研究期间的反馈一致：向前移动和向后移动的手势得到的评价最负面，尤其是从社会角度来看。

在这里插入图片描述

HULAMOVE 系统设计

研究1的结果为HulaMove的设计提供了信息：使用快速返回具有最高的成功率，交叉时间和次数最低；用户可以在N=2的无视觉转换手势中获得类似的表现，N=1表示旋转手势。我们确定了一些腰部交互设计的指导方针：（1）快速返回是最好的融合（2）技术，使用N=2移腰（八个方向）和N=1旋转（两个方向）平衡手势的数量和性能。（3）向前移动和向后移动的手势被认为是不适合社会使用的。
因此，我们的HulaMove设计空间专注于快速返回的八个手势：左旋转、右旋转、右移动、右移动、右移动、向后移动，向后移动。
用户放手机的口袋都靠近腰部，比如夹克口袋、帽衫口袋和裤子口袋。利用这些位置的智能手机进行腰手势检测可以消除任何定制传感器，最大限度地减少用户负担，并提高可伸缩性和通用性。因此，我们开发了一种算法和一个实时系统，使用从智能手机收集的IMU数据，放置在靠近腰围的任何位置（在腰围中心上方或以下20厘米），用于腰围手势的检测和识别。
为了检测可以放置在多个位置的手机中用户的腰部姿势，我们通过将手机的运动转换为人体的运动来校准IMU数据。在将IMU信号与人体坐标对齐后，对对齐后的信号应用一个手势检测模块，以识别任何当前的腰部手势。一旦一个手势动作被捕捉到，它就会被输入到一个手势识别模块中，以获得输出。图5可视化了整个管道。
在这里插入图片描述

预处理及转化校准

我们收集了30Hz下的IMU数据(线性加速度计acc和陀螺仪дyro，都用x，y，z三维向量表示)。根据两位作者对100多个样本的手工注释，一个腰部手势的平均持续时间为1.6秒(SD=0.3秒)。腰部的动作持续时间在1.0之间2.0 s (0.5-1 Hz).我们在原始IMU数据上应用了低通巴特沃斯信号[56]（2赫兹，是腰手势上界的两倍），以消除高频噪声和平滑信号。
然后，我们对烧瓶后的数据进行了校准。第一步是识别3×3旋转矩阵A=[AX；AY；AZ]从人体坐标空间到手机坐标空间（见图5的最左边），即accp=A·Acch andдyrop=A·дyroh，h/p表示人体/手机坐标空间。该矩阵可以将最初在电话坐标空间中收集到的IMU信号转换为人体坐标空间中的信号。为了获得这个矩阵，我们要求用户在把手机放进口袋后，按照一个倒计时计时器来执行四个手势：向左移动、向右移动、向左旋转和向右旋转。然后，我们从计时器开始设置一个3秒的窗口，以确保一个手势可以被覆盖。我们使用左移和右移的数据来校准x轴(即获得AX)，因为这两个运动在人体坐标空间中与x轴一致。同样，向左旋转和右旋转数据用于校准y轴(AY)。
右手势快速返回可分为四个阶段：1)加速（>0、>0），2)减速直到达到最大转移距离（>0、<0），3)返回和在相反方向速度（<0、<0），4)减速并停止在原始位置（<0、>0）。在收集的acc数据中(即，accp|序列(qacc2 2 2 +acc+acc)有一个小峰（在第1阶段），|-pxpz后面是一个更宽的峰（在第2和第3阶段），然后是另一个小峰（在第4阶段）。图6的上部说明了这个过程。
理想情况下，在右移手势时，腰部向+x方向移动，在人体坐标中向−x方向返回，即acch=[acchx，0,0]T，臀部=[1,0,0]T和accp在空间中有一致的方向（及其相反）。然而，由于人体的解剖特性和运动控制误差，其方向并不完全一致。因此，我们选择了几个有代表性的周期，并使用它们的平均值作为移动方向。特别地，我们选择|accp|(=|acch|)大于3.0s窗口内的平均值加一个标准差的周期，因为小的accp更有可能受到噪声的影响。这就确定了在一个移动手势的四个阶段中自然发生的三个峰值。如上所述，在第2阶段和第3阶段（第二个峰）中，accp的方向与第1阶段(frst峰)和第4阶段（第三个峰）相反。因此，在识别出accp中的三个峰后，我们反转第二个峰，然后计算它们的平均值，dirpsf-r，作为右移手势的方向。为了进一步减少误差，我们以相同的方式计算左移手势的方向(−-l)，反转其方向(−-l)，使其也在+x方向上，并将垂直移动方向设置为两者的平均值：=(−-r−-l)/2。
然后，我们可以很容易地计算出AX：
在这里插入图片描述
对于旋转手势，四个阶段由дyrop中的两个峰值参照，一个用于旋转到最大角度(дyrohy>0)，另一个用于返回(дyrohy<0)。同样的过程可应用于左旋转和右旋转的手势以获得AY。由于旋转矩阵是一个正交矩阵，如果AX和AY不是正交的，我们通过围绕它们共同的垂直轴旋转来稍微调整它们，直到它们正交。然后，我们有AZ=AY×AX。
因此，经过四个手势的快速校准阶段后，我们得到了旋转矩阵A=[AX；AY；AZ]，并通过acch=A−1·accp和дyroh=A−1·дyrop将所有来自电话坐标空间的传入信号转换到人体坐标空间。图6显示了将手机以随机方向放入右前裤口袋时的8个手势的典型IMU信号，以及转换后对应的校准信号。
在这里插入图片描述

当用户四处移动时，放在口袋里的手机可能会轻微地改变其位置和方向。这将导致旋转矩阵的变化 A. 为了缓解这个问题，一旦检测到左/右或左/右旋转，我们的算法动态更新A（如4.2节和4.3节所述）。当检测到这四个手势中的一个时，其对应的变化被附加到记录列表中，我们使用移动平均更新AX（用于移动）或AY（用于旋转），然后更新AZ和 A.。

动作检测

经过预处理和校准后，我们使用滑动窗口对转换后的信号应用了手势检测分类器。窗口大小为3.0s，步长为0.2s。这个分类器以加速度计和陀螺仪数据作为输入(30Hz×3s×6)，并使用5层卷积神经网络(CNN)[37]进行检测，包括三个一维卷积层和两个全连接层，均使用ReLu激活函数[47]。在每两个卷积层之间插入一个最大池化层[46]、一个批处理归一化层[31]和一个速率为0.5[61]的退出层。当IMU信号属于一个手势时，分类器输出1，否则输出0。几乎所有的腰围手势都超过一秒，所以一个手势的出现会导致分类器连续产生多个1；然而，手势信号和噪声的时间变化会使分类器的串行输出产生噪声。我们通过使用多数投票方案来平滑序列来解决这个问题，如果连续1的相邻序列被1或两个0分开，则合并，连续0相同。当有3个或更多的连续1，然后是超过2个0时，一个手势就会出现。每当一个手势发生时，系统就会以1的序列为中心设置一个3.0秒的窗口，并将其输入手势识别模块。

动作识别

该步骤是对捕获的手势信号进行分类。直接的方法，包括静态和动态阈值，以及信号处理和特征工程，很容易被用户腰围运动的许多意外变化所混淆，导致偏置旋转矩阵和IMU信号。另一种方法是训练一个八类分类器。然而，这种方法将需要在每个类中使用大量的训练数据。正如我们在第4.4节中所展示的，这些方法在我们的数据集上的性能很低。相反，我们使用了一个层次树-CNN[51]，它将任务分为四个更容易互补的二进制或三元分类任务。这大大简化了识别能力，并提高了识别结果。具体地说，这八种手势可以分割如下：

类型分类器：旋转手势的主要信号来自陀螺仪，移动手势的主要信号来自线性加速度计。我们无法区分一个手势是在旋转还是在移动。
旋转分类器：这两个旋转的手势可以由一个二进制分类器来处理
移位（左/右）分类器：在6个移位手势中，3个在左边，3个在右边。我们使用了一个二进制分类器来提取这个属性。
移动（向前/向后）分类器：两个手势是向前的，两个是向后的，两个是两者都不是。我们使用了一个三元分类器来区分它们。结合移动（左/右）分类器，该系统可以唯一地识别一个移动的手势。
图7显示了分类树。除了输出单元数（二进制2或三元制3）外，每个分类器都与手势检测分类器具有相同的网络结构。请注意，每个分类器都是在数据的一个不同的子集上进行训练的，例如，旋转分类器将只在旋转手势的数据上进行训练。

数据采集以及建模结果

数据采集

三位作者使用自定义的基于烧瓶的web应用程序收集了用于训练我们的模型的数据。该应用程序在30hz的IMU传感器进行采样。
作者访问使用自己的安卓手机网络应用程序和遵循指令完成一个数据收集时代：1)把手机放在一个口袋里，2)执行校准阶段与四个手势，3)执行八个手势的随机顺序，在同步倒计时计时器出现在笔记本电脑屏幕上；4)对每个手势执行10次。每个作者都多次重复了这一时代。他们改变了每次的口袋和手机定位，以确保数据的多样性。总的来说，从三位作者身上总共收集了20个时代，总共有1600个手势。
对于每个收集到的手势，计时器倒计时2秒，然后参与者还有4秒来完成这个手势。在所有6秒内记录数据，以捕获有或没有手势的IMU信号。此外，三位作者还保持了网络应用程序的活跃，并在日常生活中将手机放在口袋里。收集了6个小时的IMU数据，并将其标记为噪声。坐着、走路、躺下、静止不动、爬楼梯等活动都包括在内。

数据情理与数据增强

这些数据被组织到带有标签的窗口中。回想一下，计时器在每个手势开始前2.0秒就开始了。我们使用滑动3.0s窗口，0.2s的步长来生成训练数据。由于我们在30hz采样，每个窗口包含90个样本。如果超过50%的人（>45）重叠了手势时间（2.0-4.0秒），则它被标记为该手势的一个积极例子。此外，我们还对纵向收集的噪声应用了一个非重叠的3.0s滑动窗口，并将所有样本标记为负的手势检测。然后，我们通过1)固定每个信号[25]，2)添加随机高斯噪声[73]。这使得数据的大小增加了3倍（每个原始样本，有+，有噪声的+，有+和有噪声的+）。

结果

总的来说，使用该方法生成了超过12万个噪声样本和1.4万个手势样本。请注意，对于每个手势识别分类器，只使用了数据的一个子集，例如，旋转分类器只利用了两个旋转手势的数据。
我们用历元号标记所有数据，并使用离开交叉验证来评估手势检测和识别模块的性能，即将一个历元的数据作为测试集，其余的数据作为训练集。对于手势识别，我们还在每个循环的训练集中添加噪声数据，使模型对噪声的鲁棒性。这并不影响测试精度，因为在测试期间没有添加噪声数据。
手势检测。结合平滑技术，我们的手势检测模型成功地捕获了所有的手势（100%的真阳性率）。当我们测试没有平滑的模型的性能时，准确率下降到90.1%。错误分类的样本主要分布在50%的重叠区域附近。这就进一步说明了我们的平滑技术的重要性。此外，我们还将该模型应用于训练中保留的噪声数据子集。假阳性率仅为0.1%。当以0.2s为步长的滑动窗口机制对模型进行测试时，假阳性率进一步下降到0.03%（约每小时5.5个假阳性）。
手势识别。类型、旋转、左、右、前、后分类均达到了令人满意的平均精度：分别为99.2%、99.1%、99.7%和97.8%。将四种分类方法相结合，fnal手势识别模块的准确率为97.5%。图8显示了混淆矩阵。与移动平均阈值(Acc：80.5%)、SVM(Acc：82.1%)或传统的多类CNN（8类）(Acc：92.0%)相比，我们的树-CNN结构显著提高了手势识别的性能。结合手势检测和识别模块，我们的模型在手势数据集上的整体性能，准确率达到97.5%，f1-分数为97.2%。此外，正如我们在下一个可用性研究（第5节）中所展示的那样，我们的模型也有类似的结果当应用于其他12个用户的数据时，其准确率为96.8%，f1-得分为96.9%。
在这里插入图片描述

研究二：用户实验

我们进行了第二次用户研究，并评估了HulaMove的性能和可用性的实时实现。

任务与变量

我们设想HulaMove将被广泛应用于日常场景中。我们将它们分为两类，在现实物理世界中的互动和在AR/VR中，并选择典型的任务进行评估研究。

在物理世界工作。由于HulaMove具有提供无眼睛和免提互动的优势，因此它适用于用户站着、手忙着的许多情况，比如在厨房里做饭。
任务：我们设计了两种常见的基于电话的应用程序，它们经常发生在这些日常案例中。每一个操作都涉及到一组操作。1)音乐播放器：用户通过fve动作控制音乐，包括播放/暂停、升音量、降音量、下一首歌曲和前一首歌；2)电话：当一个电话进来时，用户可以接听、拒绝或静音电话。图9的左侧说明了这两个任务。
设置：这项研究涉及了两个设置。一种基于我们的系统，另一种基于触摸屏输入（智能手机支持的标准输入机制）。在这两种设置中，用户手边都拿着一个空纸盒，以模拟日常生活中眼睛和手忙碌的情况。此外，手机被放在他们喜欢的裤子口袋里（这在日常情况下很常见），所以最初没有视觉上的互动。1)HulaMove：用户使用腰围手势来完成任务；2)口袋：用户需要放下盒子，把手机从口袋里取出来，然后完成任务。表3的上部显示了这两个设置的特殊映射。
请注意，HulaMove并不是为了取代现有的交互技术，也不是本研究的目的是将我们的方法与基线进行比较。我们选择了口袋设置，因为这是日常生活中最常见和最具有代表性的场景之一，其中HulaMove可以很有用。
虚拟现实中的游戏。HulaMove的另一个重要用例是AR/VR，用户可以使用腰围手势作为另一个输入通道。虚拟世界和物理身体之间的这种联系可能会增加用户在虚拟世界中的存在。
任务：我们开发了一款类似于BeatSaber[1]的虚拟现实游戏。用户们静静地站在一个虚拟走廊的中央，在他们前面有一系列的障碍。用户可以通过采取某些动作（左/右滑、跳跃和蹲）来避免障碍。一些障碍也可以用打击技巧来摧毁。用户从三个健康点(HP)开始，如果遇到障碍，就会失去一个HP。当惠普跌至零时，游戏就结束了。图9的右侧显示了用户正在玩游戏的时刻。
设置：我们有两个VR游戏的设置，一个基于我们的系统，另一个基于手控制器。1)HulaMove：用户将手机放进自己喜欢的裤子口袋里，然后用腰间的手势来玩游戏；2)手控制器：用户按下手控制器上的玩游戏的按钮。表3的底部显示了VR世界中可用的所有操作。

设计与过程

我们对这两个任务都采用了主体内设计。在物理任务中，主要的独立变量是任务（音乐播放器和电话呼叫）和设置(腰部v.s。衣袋在VR游戏中，唯一的自变量是设置(腰围v.s。人工控制器这总共导致了6个阶段，4个设置物理任务（2个设置×2任务），2个设置VR游戏（2个设置）。场景顺序、设置顺序和内部任务顺序都是平衡的。对于物理任务，用户重复每个操作数次。对于VR游戏，用户玩一次，直到输掉或10分钟。如果用户在3分钟内输掉了游戏，他们就会再玩一次。

使用方法
对于这两项物理任务，我们测量了从用户开始互动（按照倒计时指令）到他们完成每一项任务的时间活动我们使用7分李克特量表NASA-TLX问卷[24]来测量每个设置[34,72]中感知的工作量和手势的有效性。对于VR游戏，我们使用了相同的NASA-TLX问卷。此外，我们还纳入了群体存在问卷(IPQ)[65]中的四个问题，以测量虚拟现实体验中的存在。
用户签署了同意书，并从热身阶段开始。在物理任务和VR游戏会议之前，用户已经熟悉了操作和互动。他们一个接一个地经历了六个环节，并浏览了调查问卷。每次训练结束后，我们都要休息2分钟。请注意，在使用HulaMove的每个会议开始时，他们经历了一个使用四个手势的快速标定阶段，以确保我们的算法能够正常工作。在他们完成了所有的任务后，实验者进行了一个简短的访谈来收集他们的反馈。这项研究的持续时间约为40分钟。
过程
用户签署了同意书，并从热身阶段开始。在物理任务和VR游戏会议之前，用户已经熟悉了操作和互动。他们一个接一个地进行了六个环节，并浏览了调查问卷。每次训练结束后，我们都要休息2分钟。请注意，在使用HulaMove的每个会议开始时，他们经历了一个使用四个手势的快速标定阶段，以确保我们的算法能够正常工作。在他们完成了所有的任务后，实验者进行了一个简短的访谈来收集他们的反馈。这项研究的持续时间约为40分钟。

参与者及设备

由于在大流行期间招募参与者的差异，我们从研究1中招募了6名参与者，以及6名新参与者(女性=4，男性=8，Age=25.0±2.0)。这项研究得到了irb的批准，所有参与者都报告自己很健康。所有参与者都被告知穿至少有一个口袋的裤子。我们使用了三星GalaxyS8作为IMU的数据收集器。这款手机通过一个基于flask的web应用程序以30hz的频率将数据发送到笔记本电脑(Windows10OS)。该识别算法可以在笔记本电脑上实时运行。对于VR游戏，我们使用了与研究1相同的HTCVIVEPro系统。该算法通过一个基于zeromq的本地网络将其识别信息发送到VIVE。

结果

我们的实时系统很适合新用户。在12名参与者的研究中，总共只有7个假阳性病例（不到执行手势的1%），平均交叉次数也很低（1.3±1.0）。在所有检测到的手势中，每个参与者平均经历的手势少于两个错误分类的手势(717个手势中有23个，准确率为96.8%，F1得分为96.9%)。这些错误分别发生，并在参与者中分布（1.9±0.9）。总的来说，我们的系统的实时性能与我们在第4节中的测试结果一致，表明了模型的鲁棒性。系统的平均延迟时间为445 ms。由于我们的分类器都是轻量级的，所以计算时间是最小的。主要延迟来自手势检测模块，因为它需要在手势完成后等待两个额外的两个滑动窗口步骤(0.4s)，从而在一系列正窗口（1）之后产生两个连续的负窗口（0）（见4.2节）。
研究结果表明了我们的技术的优势。我们总结了图10中的所有指标。对于物理世界的任务，我们分别对每个主观问题应用了Wilcoxon符号秩事后测试。结果没有显示出任何意义。HulaMove的整体主观可用性与最常用的触摸屏方法相似。然而，HulaMove大大加速了交互作用。一个GLMM以任务和设置为主要因素，对时间数据显示了设置上的意义(χ2（2）=885.5，p<0.001∗∗∗)，但不是在Task上（χ2（2）=0.6，p=0.42）上，也不是两者之间的交互作用（χ2（4）=1.0，p=0.31）。HulaMove显著减少了41.8%的交互时间(1.56sv.s。2.68s)与基线相比。
在VR游戏中，尽管新技术被认为是更高的身体要求(W=6.0，p=0.04∗，其他的TLX问题都没有显示出意义)，但差异很小(3.3v.s。2.3).更重要的是，参与者在一般存在(W=7.0，p=0.01∗)、空间存在(W=2.0，p=0.01∗)和参与度(W=7.5，p=0.02∗)方面的得分明显更高。对参与者的采访也显示出了积极的反馈。P10明确地提到了虚拟存在的改进：“我喜欢在虚拟现实游戏中使用我的身体来玩游戏。我觉得自己更投入了！”P7希望HulaMove能用在他的日常生活中：“如果我自己的手机能支持它，那就太棒了。有时候，这真的很有帮助。”他经常在站立式办公桌前工作，他认为使用这种技术会很方便，也会让整个体验更有趣。有趣的是，我们也从参与者那里得到了一些鼓舞人心的反馈。玩完VR游戏后，P5问你：“你打算把它作为锻炼游戏？…吗？当人们因为疫情而不得不呆在家里时，这将会很有帮助。”我们将在第6.1节中讨论我们的方法的更多潜在应用。总的来说，HulaMove提供了一种方便、自然的无眼、无提的输入方法，可以显著加速互动，改善AR/VR的沉浸式体验。