第二十三天：EarTouch: Facilitating Smartphone Use for Visually Impaired People in Mobile and Public Scenar

最新推荐文章于 2025-04-03 21:59:19 发布

刘泓君

最新推荐文章于 2025-04-03 21:59:19 发布

阅读量968

点赞数

分类专栏：论文阅读文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/weixin_44907625/article/details/125881335

版权

论文阅读专栏收录该内容

27 篇文章

订阅专栏

与智能手机使用触摸输入和语音输出是具有挑战性的视障人士在公共场合和通勤时，只有一只手可以输入（例如，当手杖）和使用扬声器语音输出受到环境噪音、隐私和社会问题。为了解决这些问题，我们提出了EarTouch，一种单手交互技术，允许用户使用触耳手势与智能手机进行交互。用户将手机放在耳朵边，私下听扬声器的语音输出。我们通过一系列的研究报告了该技术是如何被设计、实施和评估的。结果表明，耳触摸方便、方便、有趣、被社会接受。
在这里插入图片描述

介绍

智能手机已经成为盲人和视障人士(BVI)生活的重要组成部分，他们依靠屏幕阅读器（例如，画外音[30]和对话[40]）与手机互动。然而，在移动和公共场景中，与智能手机使用触摸和语音输出与智能手机交互有明显的限制，因为输入通常需要双手，一只手拿着手机，另一只手与屏幕交互。这在运输过程中可能会令人沮丧，特别是当一只手被占用时，比如拿着一根手杖。此外，使用智能手机扬声器进行输出也会受到环境噪音、隐私和公共环境中的社会问题的限制。BVI用户必须将智能手机放在耳朵附近，这将以牺牲输入的舒适性和方便性为代价来实现听觉理解(图1.a)。
在本文中，我们提出了EarTouch，一种单手交互技术，可以让BVI人使用耳朵与智能手机交互，在触摸屏上点击或绘制手势。由于智能手机靠在耳朵上，用户可以听到通过耳朵扬声器私下播放的语音输出(图1.b)。这种技术是独特的，因为它支持了和听觉接收在一个自然的姿势，促进单手使用，并提供了一个耳机替代方案。该技术设计用于移动和公共场景，支持BVI用户的常见任务，如接听电话或发送音频信息。
该技术为BVI用户的新的交互创造了一个新的空间。然而，存在技术和人为方面的挑战需要克服。它的耳朵很柔软，形状很复杂。因此，它与触摸屏的接触模式是复杂的，而不是单点的手指触摸，这使得手机很难跟踪其运动和手势输入。此外，交互的人体工程学是相反的：耳触手势必须通过移动设备而不是输入设备（耳朵）来执行。因此，交互范式的设计不能通过直接利用我们所拥有的关于基于fnger的触摸的知识来产生。
为了提取EarTouch的设计目标，我们进行了形成性访谈，以更好地了解BVI智能手机用户在移动和公共场景中的当前实践。为了探索EarTouch的可行性，我们进行了一项用户启发式研究，以确定一组符合社会要求和可接受的耳触手势，以及BVI用户的舒适表现。基于我们的研究结果，我们利用触摸屏的捕获图像和惯性传感器数据，在一个商品智能手机上设计并实现了我们的EarTouch原型。最后，我们进行了两项用户研究来评估实际场景中的技术有效性和用户体验。结果显示，耳触摸简单、快速、使用有趣，解决隐私和社会问题。我们的参与者在不到10分钟的时间内获得了耳触觉，并表达了对在日常生活中使用这种技术的强烈兴趣。
我们的贡献有三方面：

对30名BVI智能手机用户的形成性访谈，以及23名英属维尔京系统参与者的用户启发研究，以激励和指导耳触摸的设计；
EarTouch，一种新颖的交互技术，包括触触摸手势集，合适的应用任务和图像处理算法，可以识别和跟踪商业智能手机触摸屏上的耳朵运动；
对22名BVI参与者进行了两项用户研究，评估移动和公共场景中的单手交互和用户体验。

实验一：形成性访谈

虽然之前的研究提供了一些见解，但我们希望更好地了解BVI人在移动和公共场景中使用智能手机的当前实践和问题，并揭示这些问题背后的原因。特别地，我们想了解：（1）目前在日常生活中与智能手机互动时的手和语音输出的使用，问题以及人们如何处理它们；（2）动机和情况，人们将需要单独的技术和替代耳机，这激励和引导耳朵触摸。
我们对30名年龄在20-29岁之间（平均23名）的BVI智能手机用户（10名女性）进行了形成性访谈。参与者使用了安卓手机或iPhone和屏幕阅读器。其中14人完全失明，其余参与者视力。他们都住在一个人口超过2000万的城市里。数据通过书面记录、音频和问卷记录，我们的信息是基于这些方式报告的。

双手互动的问题

大多数（27/30）参与者每天都用双手与智能手机互动：一个拿着手机，另一个通过触摸与屏幕互动，左右探索、产生多点触控手势等等。通过这种练习，如果参与者想使用手机，他们将必须放开双手，而他们当前的任务将必须被打断。在移动场景中，简单、频繁或对时间敏感的动作（例如，接电话）可能会非常令人沮丧。参与者报告说他们会停止行走，站着不动，然后与智能手机互动，用手杖紧紧地握在腋下。
参与者还报告说，环境噪音、隐私和社会问题的考虑。当使用扬声器时，他们需要调整扬声器的音量，并尽可能地打开手机(见图1a)，这使得同时与触摸屏交互变得令人厌烦。除了不适、无聊和不自然的感觉外，参与者评论说，这种姿势在社交上很尴尬，因为这种姿势似乎与视力正常的同龄人不同。为了确保私下或清晰听，他们甚至可以用扬声器听电话，这样电话就可以水平播放。在这种情况下，他们需要频繁地将智能手机从输入位置切换到收听位置。

单手互动的问题

每天只有3名参与者使用一只手与智能手机进行互动。他们使用单手交互仅限于特殊条件和方法，如把手机在裤子口袋里自由的手，小说在屏幕上的手已经显示无力[9,38]，或使用鼻子，下巴或嘴唇触摸。大多数与会者评论说，这些方法是不可推广的。在27名主要使用双手的参与者中，有2名参与者在需要时进行单手互动。剩下的25名参与者认为单手互动是神秘的，特别是在运输过程中。首先，目前智能手机的尺寸太大了，拇指无法覆盖屏幕空间，使用探索触摸（用户在屏幕上移动屏幕以听到屏幕内容）或在屏幕上闪烁。第二，当参与者步行或在公共空间时，参与者把手机握得更紧，以防止手机掉到街上。这限制了握持手的运动，使用户更难与触摸屏交互。

需要单手互动吗？

答案完全是肯定的。参与者告诉我们，在很多情况下，他们希望智能手机可以用一只手使用，如表1所示。最常提到的情况是当手被占用时，这样的就像拿着手杖、巴士把手或购物袋一样。请注意，在公共场合或交通过程中，人们最需要单手互动，而安全、隐私和社交尴尬是主要问题。在时间敏感的情况下，人们也需要它，比如接电话或打电话，因为它需要时间。
在这里插入图片描述

语音输出问题

当在公共场合使用演讲者进行演讲输出时，大多数（25/30）参与者认为隐私、社交尴尬（例如，社会接受度和社交礼仪）是他们的主要问题。剩下的5名参与者愿意放弃他们的隐私或接受社交尴尬，以换取轻松和舒适。当使用耳机时，大多数（28/30）参与者担心听力损害。11名参与者仍然高度依赖于使用耳机进行语音输出，以避免使用扬声器的问题，而其余的参与者则故意限制了耳机的使用。
当在移动场景中使用耳机时，用户认为安全和便携性问题是主要问题。25名用户报告说，为了解决安全问题，他们只使用过一个耳机，这样对周围声音的屏蔽就更小了。剩下的5名参与者只是尽量避免戴戴耳机。由于环境噪音的影响，使用单一耳机的做法是声音质量/清晰度。参与者通常不得不大幅增加音量，所以如果必须使用耳机，一般仍然更喜欢两个耳机。除了Naftali等人[35]提到的便携性问题之外，我们的参与者报告说，组织和使用耳机是一个没有视觉的挑战，特别是在用户很匆忙的情况下（例如，接电话）。为了避免电线缠绕，两名参与者使用了无线耳机。参与者还提到了露天/骨传导耳机，但出于价格、电池寿命和音质方面的考虑，没有人在日常生活中使用它。他们需要一种替代耳机来解决隐私和社会问题。

设计目标

根据访谈结果，我们总结了设计单手法需要考虑的四个点为BVI用户在移动和公共场景中使用的交互技术，这激发了EarTouch的想法。首先，该技术应该能够非常有效地支持常见的智能手机任务。其次，它应该为用户提供一个替代耳机的语音输出。第三，新技术应该允许用户执行触摸输入和接收语音输出，而手机则保持在一个相对灵活的位置。最后，这种技术应该不显眼，以避免社交尴尬。

头脑风暴耳触摸互动

我们与23名视障智能手机用户（都参与了形成性访谈）进行了参与性设计研讨会，以头脑风暴EarTouch的互动。我们的研讨会遵循了在[16,28]中使用的相同程序，我们将参与者分成四组，每组6人或fve参与者。在头脑风暴中，参与者被鼓励自声思考，并使用他们的智能手机作为道具来想象潜在的互动。每个小组都有一名主持人，他还负责记录讨论的记录。研讨会包括三个阶段，frst阶段关注头脑风暴可能的耳朵手势，第二阶段关注头脑风暴对触耳互动的潜在应用，最后阶段关注触耳互动的设计要求。在每个阶段，各小组分别进行讨论，然后主持人将每一组的想法呈现给所有参与者，以征求反馈。整个车间持续了大约100分钟。图2.显示了我们从研讨会中选择的重要交互集。
在这里插入图片描述

第一阶段：头脑风暴的耳触手势

这一阶段的重点是头脑风暴所有可能的耳控手势，而没有深入考虑可用性。

模仿手指使用的耳触式手势。耳朵可以执行许多常见的单一fnger手势，包括点击、双击、长时间触摸、滑动和自由形式的形状手势。使用常见的触摸屏手势可以让用户采用手势和相应动作之间的现有映射，以最小化学习。
耳朵特有的耳朵触摸手势。耳朵（耳廓）的独特特征使许多新的触摸互动形式成为可能。耳廓柔软，由不同的部分组成，如螺旋状和耳垂。使用耳廓的不同部分来触摸或使用不同水平的压力来触摸可以触发不同的动作。此外，当在耳朵上旋转屏幕时，对于连续或离散的输入，可以检测到轴耳廓相对于屏幕的x，y坐标系统的方向。

第二阶段：头脑风暴的潜在应用程序

最被提到的触耳互动应用程序是使用地图收发电话或语音信息和拼车应用程序。参与者表达了强烈的愿望，希望以一种相对私人和社会可接受的方式单手使用它们。为了展示触耳技术对这些应用程序的支持程度，我们将所需的交互分为三大类：

仅触摸输入。在某些情况下，用户需要尽快完成任务，而不需要收听语音输出。例如，拨打紧急电话，发送预先设置的信息，开始记录课堂讲座，以及启动一个常用的应用程序。在忙碌时，可以用一只手进行这种互动。这可以了用户在行走时的多种行为和反馈的注意力。它还可以方便使用在安静的公共空间，如教室，以避免社交礼仪。
触摸输入与语音输出。在用户需要听语音输出的情况下（例如，检索呼叫者信息、检查时间或导航地图），耳触允许用户听手机的默认扬声器，因为手机保持在通话位置。这在很大程度上减轻了隐私和社交尴尬的问题。
触摸和语音输入与语音输出。在许多情况下，用户在听语音输出时，需要交替进行触摸和语音输入。例如，当与拼车应用程序互动时，用户需要触摸屏幕来导航地图或应用程序界面，使用语音来指定目的地，并听取语音反馈来反馈到输入。耳触是与手机保持在通话位置的，自然适合这种类型的互动。用户不需要频繁地切换手机的位置来说话、听和触摸输入。

第三阶段：设计注意事项

在这项工作的最后阶段，我们向我们的参与者展示所有建议的手势和应用程序，并让他们重现互动并给出设计建议。我们选择了8个手势作为我们的实施和研究。图2总结了手势、参与者评分（5个=易于执行），以及基于以下设计指南的每个手势的潜在应用程序。

易用性。触耳手势应该简单、简单、可靠。他们应该需要用户最小的时间来学习，因为理解或发现新的手势和相关的功能对视障用户来说是不同的。参与者提到，并不是每个BVI人都有画字母或数字的图形概念。他们还发现，很难使用耳廓的不同部分与触摸屏进行精确的交互。
操作限制。耳触不应该取代fnger交互，而且只关注一小组能够有效解决上述问题的应用程序是被广泛接受的。例如，参与者同意耳触摸不应该用于精确指向，因为耳朵的接触面积比指尖大，尽管它可能支持通过快捷方式访问微小图标。他们也不确定是否用耳朵在相对较长的距离上滑动屏幕，因为当向前移动触摸屏时，螺旋可能会折叠，这可能意味着较少使用探索-触摸。最后，参与者指出，由于潜在的疲劳问题，不应该长时间使用触耳（例如，浏览新闻），而他们都同意触耳是有效的时间敏感任务，如我们在表3中列出的任务。

用于耳触摸的模式开关

我们认为在耳朵接触是移动和公共场景中智能手机fnger输入的一个很好的补充。因此，我们的技术应该允许用户在这两种输入方法之间进行切换。由于耳廓有一个独特的形状，所以区分耳朵和小耳朵的一个简单方法是通过比较它们的接触模式。我们发现，用户更喜欢使用耳朵的一部分（如图4中的顶部螺旋）与手机交互，以方便方便地操作。因此，不能保证耳朵的完全接触模式，这使得区分耳接触是不同的。例如，当触摸屏幕的侧面时，耳朵的接触模式可能与拇指相似。
我们设计了一种模式切换技术来考虑这些问题。我们的想法是使用耳朵的完全接触模式作为耳朵触摸模式的明确触发器，其中所有随后的触摸事件将被解释为耳朵触摸。如图3所示，我们的系统默认处于空闲模式。它不断地检查触摸物体的电容性图像，并检测它是否是耳朵。如果是，系统将启动耳触摸模式。否则，它将接受所有的输入作为快速触摸。退出耳触摸模式为通过将智能手机放回用户面前来触发(如图1.a所示)。这是正常触摸输入的位置，可以使用智能手机的惯性传感器可靠地检测到。
在这里插入图片描述
我们的模式切换技术有以下好处。它是健壮和可靠的，用户可以很容易地了解系统状态并进行交互。此外，通过耳朵的完整接触模式，该系统可以检测到哪只耳朵被使用，甚至是用户的身份[21]。这是一个重要的上下文信息，可以进一步用于丰富的交互。

耳部识别与跟踪

我们在一个运行安卓操作系统的华为Mate10上实现了EarTouch的原型。我们从硬件抽象层获得了触摸屏的电容性图像，并使用jni机制将数据传输到45hz的应用程序层。我们的图像处理管道是用Java编写的，并在智能手机上的应用程序层中运行。

预处理

来自触摸屏的原始数据是一个32x18的传感器值矩阵。我们遵循欣克利等人的方法[20]，使用兰氏4算法将数据插值到一个160x90的矩阵中。背景噪声在一个传真阈值下被去除。图4显示了生成的电容性图像的几个示例。
在这里插入图片描述

耳部识别

由于耳朵柔软，形状复杂，耳朵的头部图像可能有不同的不同关于耳朵如何与触摸屏的接触，如图4(a)-(d).所示最具挑战性的问题是区分耳朵和小齿尖，如图4(b)和(f)所示。第5节讨论了这个问题，并描述了我们如何使用模式切换机制来避免这个问题。此外，如果脸颊与耳朵相应地触摸屏幕，它应该从考虑中移除。因此，我们将我们的识别算法作为一个三类分类问题来区分全耳朵、面部和其他耳朵。
图5提供了一个与触摸屏接触的完整耳朵的示例。我们的识别管道有四个步骤：1)我们使用页脚算法提取单个连接区域。2)我们使用K-means聚类将相邻的区域合并为一个单一的区域。3)我们设置了每个区域的边界框。4)对于每个区域，我们将其分为三组：耳朵、脸或其他，使用C4.5决策树与一组特征，包括区域的面积，子区域的数量，边界框的宽度和长度，以及位置。
在这里插入图片描述

耳跟踪

在触摸屏上追踪耳朵的位置是具有挑战性的，因为当触摸屏被抬起或紧贴耳朵移动时，耳廓会变形。为了解决这个问题，我们首先挑战了两个州：厄朗和厄朗。当亮度在10帧的时间窗内达到峰值时，如果屏幕上的耳朵接触处于稳定状态，则可以识别EarOn。耳朵的起始位置被确定为其接触区域的加权中心。如果耳朵离开了触摸屏，耳朵就会被识别出来。其次，我们使用KCF（核化相关滤波器）算法[19]跟踪耳朵运动，该算法适用于检测小变形和非刚性变形，且精度较高。该算法的局限性是无法处理被跟踪对象的大变形。为了解决这个问题，我们扩展了算法，通过维护两个KCF跟踪器，其中一个主动产生跟踪结果，而另一个在后台工作，如果主动的KCF失去了跟踪在触摸屏上的耳朵由于耳朵的累积变形。这两个追踪器每500 ms交替运行一次，以确保耳朵的运动可以被可靠地跟踪。耳朵在触摸屏上的相对运动可以通过比较两个连续帧的图像来估计。我们还采用了一种立方平滑算法来平滑耳朵运动的轨迹。

耳手势

我们使用电容图像和手机惯性传感器的数据识别图2所示的手势。后者用于捕捉旋转手势的旋转程度。为了识别用户的意图，我们采用了另一个C4.5决策树模型，该模型考虑了时间(从EarOn到现在)、移动距离和旋转程度。最后，如果在300 ms范围内连续点击两次，则注册一个双击。

系统评价

我们用自由的分类来评估我们的算法。

训练数据.我们用于开发图像处理算法和训练分类模型的数据收集自在头脑风暴后模拟手势的视障参与者和在试点研究后模拟视力正常的人。
测试数据。收集16名视障参与者的测试样本，记录数据包括：1)各种手势（点击、双点击、长触摸、自由形状、向四个方向滑动、向两个方向旋转）重复10次，2)完整的耳朵形状（进入耳朵模式），3)将智能手机降至正常触摸位置（退出耳朵模式），4)通过与日常应用程序作为负样本交互进行快速触摸。数据被记录在触摸屏（如电容式图像）和智能手机的惯性传感器上。由于日志fle写入错误，并非所有收集到的数据都可以使用。我们从我们的分析中丢弃了它们，得到1)1600个样本，2)148个样本，3)158个样本，4)157个样本。
结果。在所有剩余的数据中，我们的系统对检测耳模式开始的准确率为96.2%，对检测耳模式结束的准确率为98.7%，在fnger触摸时对耳模式的错误识别的准确率为零，对错误识别的准确率为95.8%在识别手势的延迟小于500 ms。表2显示了每个手势之间的混淆矩阵。

用户研究1：耳触摸性能

这项研究的目的是比较EarTouch（定制的用户界面和文本到语音）和手指触摸（未修改的安卓用户界面和反馈）在使用一只手在智能手机上执行日常任务时的效率。我们还对收集用户关于这两种技术在单手情况下的可用性的主观反馈很感兴趣。

参与者和设备

16名BVI参与者（5名女性，年龄在20-30岁之间，都参加了访谈和参与式设计研讨会）自愿参与了本研究。其中7人参与了启发式研究，而其余的参与者都是这个概念的新手。我们所有的参与者都有至少5年使用智能手机的经验。13名参与者几乎没有使用一只手的智能手机，而另外3名参与者报告说，如果需要，他们有时会使用拇指或指数fnger进行单手输入（图6）。我们的研究设备是一个5.9英寸(150.5毫米x77.8毫米)的华为Mate10智能手机。在我们的研究中，只有一名参与者使用指数fnger，其余的参与者使用手握的拇指fnger。
在这里插入图片描述