Spearphone: A Speech Privacy Exploit viaAccelerometer-Sensed Reverberations fromSmartphone Loudspe

圆谷叽喳

已于 2024-02-07 20:11:48 修改

阅读量814

点赞数 22

文章标签：语音识别

于 2024-01-03 22:36:44 首次发布

本文链接：https://blog.csdn.net/weixin_52125285/article/details/135369625

版权

摘要:在本文中，我们构建了一种语音隐私攻击，利用智能手机内置扬声器产生的语音混响，通过零许可运动传感器(加速度计)捕获。我们设计了一种名为“Spearphone”的攻击方法，并证明了内置扬声器在适当的响度下产生的语音混响可以影响加速度计，泄露有关语音的敏感信息。特别是，我们表明，通过利用受影响的加速度计读数和仔细选择特征集以及现成的机器学习技术，Spearphone可以成功地进行性别分类(准确率超过90%)和说话人识别(准确率超过80%)。此外，我们进行语音识别和语音重构，在一定程度上提取更多的被窃听语音信息。

我们的工作揭示了许多目前部署的智能手机的一个基本设计漏洞，这可能会使人们在使用智能手机以扬声器模式通话、播放媒体或语音助手互动时面临语音隐私风险。

I. INTRODUCTION

今天的智能手机包含了大量的传感器，旨在提供全面而丰富的用户体验。现代智能手机中常用的传感器包括红外线、加速度计和陀螺仪、触摸屏、GPS、摄像头和环境传感器。与智能手机运动传感器相关的一个已知安全漏洞是，大多数当前移动平台(例如Android操作系统)上的运动传感器读数不受限制地访问，本质上使它们成为零权限传感器。最近的研究[1]，[2]，[3]，[4]，[5]，[6]利用运动传感器来窃听击键，触摸输入和语音。由于Android移动操作系统在全球的市场份额为75.16%，在美国的市场份额为42.75%[7]，这一安全漏洞尤其在言论隐私方面受到了极大的关注。

在这条研究线上，我们以重要的方式扩展了这条研究线，我们研究了运动传感器中的一个新的攻击漏洞，该漏洞来自智能手机上的共定位语音源(智能手机的内置扬声器)。我们的工作利用智能手机的运动传感器(加速度计)来捕捉智能手机扬声器在听语音通话或在扬声器模式下的任何媒体时产生的语音混响(表面辅助和空中)。这些语音混响是由于智能手机的身体由于强制振动的原理而振动[8]而产生的，其行为方式类似于钢琴的音板。使用这种攻击，我们表明，它是有可能损害一个活生生的人类声音的语音隐私，而不需要记录和重播它在稍后的时间瞬间。

由于语音源(即手机的扬声器)与嵌入的运动传感器共同定位，使用运动传感器利用智能手机扬声器隐私的威胁出现了，它展示了在看似不明显的威胁实例中对用户隐私的危害，其中一些例子如下:

语音通话中远程呼叫者的语音隐私泄露:该攻击可以窃听语音通话，从而危及远程终端用户在通话中的语音隐私。智能手机的扬声器可以通过其运动传感器在语音通话中泄露远程方的语音特征。这些语音特征可能是他们的性别、身份，甚至是通话时所说的话(通过语音识别或重建)。
语音媒体隐私泄露:在我们的攻击中，车载运动传感器也可以被利用来泄露受害者智能手机扬声器上播放的任何音频/视频文件。在这种情况下，攻击者可以利用运动传感器，通过记录运动传感器在媒体播放期间的输出，并了解受害者播放的音频内容。这一事实也可能被广告代理商利用从窃听的媒体内容(例如，最喜欢的艺术家)收集的信息向受害者发送垃圾邮件。
语音助手响应泄漏:我们提出的威胁可能会扩展到手机的智能语音助手(例如，谷歌助手或三星Bixby)，它通过使用手机的扬声器重申任何给定的语音命令来与用户交流。虽然这种行为提供了更好的用户体验，但它也为攻击者学习语音助手的响应提供了可能性。

考虑到这些攻击实例，我们探讨了运动传感器对智能手机扬声器通过智能手机身体传导的语音混响的脆弱性。我们还研究了运动传感器的频率响应和智能手机的硬件设计，这些设计导致语音混响从手机的扬声器传播到嵌入式运动传感器。

我们的贡献:我们研究了语音隐私威胁，利用嵌入式运动传感器对智能手机扬声器产生的语音混响的响应。我们仔细使用现有的技术，通过在多个设置下执行性别、说话者和语音分类来量化威胁。我们的贡献有三个方面:

一种新的语音隐私攻击系统:我们提出了一种新的攻击，Spearphone(第4节)，它通过利用智能手机的嵌入式运动传感器(加速度计)来损害语音隐私。我们的研究目标是由智能手机的扬声器产生的语音混响(表面辅助和空中振动)，而不是手机用户直接对着手机麦克风发出的声音。这包括在语音通话中侵犯远程呼叫者的隐私(在远端直播，但仍通过手机用户的扬声器播放)，泄露手机扬声器播放的媒体信息或智能手机语音助手通过扬声器以预设的声音响应用户查询(包括发出的命令)的用户行为。
加速度计不是设计来感知语音的，因为它们被动地拒绝空气传播的振动[8]。因此，攻击者很难利用加速度计的读数来窃听语音。事实上，先前关于运动传感器利用妥协语音的工作需要通过外部扬声器重播语音，同时将智能手机(带有嵌入式运动传感器)放置在与扬声器相同的表面上。相比之下，我们的研究利用了智能手机内置的扬声器，提供了一种完全不同的攻击向量，旨在窃听语音混响。(与先前工作的详细比较在第二节中提供)。Spearphone是一种三管齐下的攻击，使用加速度计对受害者手机扬声器产生的语音混响的响应来执行性别，扬声器和语音分类。
攻击设计和实施:作为Spearphone攻击的先决条件，我们对运动传感器(加速度计和陀螺仪)进行频率响应分析，以确定最容易受到攻击的传感器(第III节)。我们发现加速度计最容易接受攻击，因此根据其与智能手机扬声器语音信号相关的读数设计攻击。由于运动传感器的“零许可”特性，这种攻击是针对Android平台设计的。我们通过谨慎地使用现成的机器学习和信号处理技术(第V节)来执行攻击。通过使用已知的技术和工具，我们相信我们的攻击实现具有重要的价值，因为它可以由低调的攻击者创建。尽管我们使用标准方法来保持攻击更容易进行，但我们必须解决几个技术挑战，如运动传感器的低采样率和适当的特征集选择，如下面和V-E部分所讨论的。
多种设置下的攻击评估:我们在多种设置下评估了Spearphone，模拟了接近现实世界的智能手机扬声器使用情况(第VI节)。我们表明，Spearphone可以执行性别和扬声器分类，只需要一个单词的测试数据，f-measure分别为≥0.90和≥0.80，这显示了攻击的威胁潜力。语音分类结果也显示了语音识别的可能性，本质上是将其变成攻击者的扬声器。我们的评估和数据集捕获了三个威胁实例，因为它们都需要通过电话的扬声器输出语音信号。

在我们的工作中解决的技术挑战:我们分析了运动传感器在低采样率下对语音混响的响应，并表明加速度计比陀螺仪更敏感。第三节提供了这种行为的详细比较。为了选择能够准确执行性别、说话人和语音分类的最佳特征集，我们将频域特征与mel -频倒频谱系数特征的性能进行了比较(章节V-E)。为了更全面的语音分类和识别，我们建立了一个单词隔离和关键字搜索技术，可以与低采样和保真度传感器一起工作。我们还使用有限的训练集实现了关键字搜索方案，以近似于攻击的更难设置(第VI-G1节)。

II. BACKGROUND AND PRIOR WORK

嵌入式运动传感器(即加速度计和陀螺仪)可用于支持需要运动跟踪或基于运动的命令的各种移动应用程序。然而，它们也带来了泄露用户隐私信息的潜在风险。由于运动传感器的性质，它们可以捕捉到与用户动作相关的振动，比如在手机键盘上打字。这会导致移动设备上的敏感信息泄露[9]、[3]、[10]、[5]、[11]。例如，TouchLogger[3]、TapLogger[11]和Accessory[10]利用智能手机内置的加速度计和陀螺仪来推断用户在智能手机键盘上输入时的击键顺序或密码。TapPrints[9]进一步表明，智能手机触摸屏上的轻拍指纹可以通过智能手机上的加速度计和陀螺仪来识别用户。此外，(sp)iPhone[5]表明，在物理键盘上打字产生的振动可以被附近智能手机的加速度计捕捉到，从而得出用户的输入。

此外，在各种日常场景中(例如，私人会议，电话交谈，观看或收听媒体)，有必要考虑语音隐私。为了防止无意的听者听到演讲，传统的方法是在封闭的会议室使用隔音墙，将演讲限制在房间内。此外，智能手机上的麦克风访问受到高级许可，以防止攻击者利用。为了防止通过智能手机内置麦克风进行潜在窥探，如果用户没有积极使用需要使用麦克风的特定功能，则可以简单地拒绝任何应用程序的麦克风权限。另一方面，运动传感器通常是自由访问的，这意味着任何应用程序都不需要访问它们的权限。此外，MEMS传感器的属性和结构可能会受到噪音和其他声音的影响，这表明智能手机用户的私人语音信息可能会泄露。

已有研究表明，背景噪声会影响MEMS传感器并降低其精度[12]，[13]，[14]。原因是MEMS结构可以与手机周围声音振动的某些频率共振。然而，由于运动传感器的采样率较低(例如，大多数智能手机的采样率为200Hz)，其窥探语音的能力经常被忽视或低估。然而，最近的研究表明，嵌入式MEMS运动传感器可以揭示语音信息[6]，[15]，[2]。具体来说，Gyrophone[6]表明，陀螺仪具有足够的灵敏度，可以测量来自外部扬声器的声信号，从而揭示扬声器信息。Accelword[15]使用智能手机的加速度传感器从现场人声中提取特征进行热词提取。

Speechless[2]进一步测试了语音影响运动传感器对语音泄漏的必要条件和设置。[2]得出结论，只要产生的振动能够沿着表面传播到放置在同一表面(表面辅助)的智能手机的嵌入式运动传感器，运动传感器确实可能受到外部声源的影响。[2]还表明，语音的空中振动，比如真人说话者通过手机麦克风说话时的声道产生的振动，不会影响手机的运动传感器。Pitchin[16]提出了一种窃听攻击，使用物联网基础设施中的嵌入式运动传感器(具有比智能手机运动传感器更高的采样率)，能够进行语音重建。他们通过使用运动传感器网络，利用时间交错模拟到数字转换的想法，由于传感器融合获得的采样率增加，有效地提高了运动传感器捕获的信息。

然而，上述研究主要是研究嵌入式运动传感器响应外部声源(如扬声器和现场人声)的可能性或必要条件。我们的工作探索了从手机自身的运动传感器中揭示智能手机内置扬声器播放的语音的可能性。这个设置与大量的实际实例有关，这些实例的隐私问题仍未得到探索。

与[6]中的相关工作相比，我们发现加速度计在拾取语音混响时比陀螺仪性能要好得多。此外，[6]中的研究检查了来自外部扬声器的语音，该扬声器产生更强的声音/振动信号，并且仅针对使用智能手机的本地扬声器的语音。与外置扬声器(带低音扬声器)相比，智能手机扬声器缺乏宽的频率响应范围，尤其是在低频时。由于产生振动的语音信号由低频组成，我们的威胁模型比[6]中使用的威胁模型弱得多。我们的工作不仅仅局限于表面辅助的语音振动，它还利用了在智能手机自身体内传播的表面辅助和空中振动。因此，我们认为[6]提出了一个对攻击者极其有利的威胁模型，但在现实世界中可能过于限制。表1提供了相关工作与我们工作的总结。

总之，在本文中，我们识别并剖析了通过运动传感器进行语音隐私攻击的实时语音和媒体实例，而最近的一项研究[2]得出结论，这些传感器在大多数其他设置中是“speechless”的(例如，人类对着电话说话，或者当扬声器与电话不共享同一表面时)。我们在第四节详细阐述了我们的攻击模型。

III. MOTION SENSORS VS. SPEECH REVERBERATIONS

声音是一种振动，通常以压力波的形式通过介质(如空气)传播。如图1所示，当手机播放声音时，手机扬声器会产生声音振动。与在空气中传播的振动(空气传播)相比，手机机身还提供了将产生的声音混响传播到嵌入手机中的加速度计和陀螺仪的途径(图1)。这些嵌入的运动传感器设计用于感应手机的物理运动，从而实现各种应用(例如，健身追踪和游戏)，但它们也受到利用(由于零许可性质)，这引起了严重的安全和隐私问题。

A. Accelerometer Frequency Response

加速度计是一种用于测量加速度的机电装置，加速度可以是静态的(如重力)，也可以是动态的(如运动/振动)。MEMS加速度计可以建模为一个质量-弹簧系统。外部加速度使固定电极内部的微小地震体运动，引起电容性电信号的变化，可测量为加速度值[17]。

Spearphone旨在通过利用现成的运动传感器，从智能手机的内置扬声器中捕捉语音。为了测量加速度计对内置扬声器声音的频率响应，我们使用智能手机(例如三星Galaxy Note 4)播放专门设计的信号并收集加速度计读数。实验时将智能手机传感器采样率设置为250Hz的最大值，并放置在木桌上。我们产生一个从频率0Hz到22kHz的chirp声音信号，持续5分钟，并通过智能手机内置的扬声器以最大音量播放声音。这个频率范围涵盖了智能手机内置扬声器能够播放的大部分声音范围。从附录图7(a)中加速度计的幅值可以看出，加速度计对100Hz到3300Hz左右的声音频率有很强的响应。这是因为内置扬声器和加速度计在同一个设备上，声音通过智能手机组件传播，引起振动。此外，从附录图7(b)的频谱图中可以进一步看出，不同频率的声音在加速度计的低频点引起响应，产生混叠信号[6]，可以用公式 $f_{a}=\left | f-N\cdot f_{s} \right |$ 表示，其中 $f_{a}$ 、 $f$ 、 $f_{s}$ 分别为加速度计的振动频率、声音频率和加速度计采样率。N可以是任意整数。因此，加速度计可以从声音中捕获丰富的信息，但在低频中存在混叠信号。

B. Gyroscope Frequency Response

陀螺仪是一种运动感应装置，用于测量设备的角速度。MEMS陀螺仪的主要原理是科里奥利效应，它使物体在旋转时施加一个力。这种力可以通过支撑振动质量的电容感应结构来测量，以确定旋转速率。附录图8显示了陀螺仪对内置扬声器的0 - 22kHz频率扫频声音的响应。陀螺仪在8 ~ 9kHz和18 ~ 19kHz的频率范围内具有明显的响应，因此可以捕获这些频率范围内的一些声音信息。然而，与加速度计相比，陀螺仪对内置扬声器的声音响应较弱。特别是，陀螺仪在0 - 4kHz的频率范围内(即，对于8kHz采样的音频)显示出较弱的响应，该频率范围更常用于实际场景，如电话呼叫和语音信息，语音位于该频率范围内。鉴于陀螺仪的这一特性，我们只关注使用智能手机的加速计来捕捉语音信息。

为了验证这一观察结果，我们在Gyrophone[6]设置和我们的建议设置中捕获了单个扬声器的声音，如第V节所述，并在第VI节中实现。Gyrophone设置的陀螺仪读数频谱和Spearphone设置的加速度计读数频谱显示在附录图9中。我们在附录图9a的频谱上没有观察到说话的迹象，而我们注意到在附录图9b的3.5秒标记处，单词“Oh”对应的语音回响进一步验证了我们的发现。我们还进一步指出，陀螺仪的设置涉及一个共享的传导介质，将语音振动从外部扬声器传递到智能手机的运动传感器。因此，陀螺仪等运动传感器感知这些语音振动的能力取决于共享表面的性质。相比之下，Spearphone的设置检测语音混响，在智能手机体内传播，因此不受任何外部原因的影响。

IV. ATTACK OVERVIEW AND THREAT MODEL

在本节中，我们将描述Spearphone威胁模型，并提供Spearphone概述(图2)，其中展示了利用语音混响的运动传感器。威胁模型基于[6]，[2]，其中在多个设置中记录语音存在的嵌入式智能手机运动传感器读数。

在Spearphone中，我们假设智能手机的扬声器用于输出任何音频。Spearphone威胁实例的一些示例如下:

语音呼叫:在这个威胁实例中(图2a)，受害者正在与另一个人交流，并在扬声器模式下收听(即不使用耳机扬声器或耳机)。我们假设手机扬声器处于产生最强语音混响的最大响度水平(尽管我们也测试了较低音量的效果并验证了在这种条件下的威胁)。这款手机可以手持，也可以放在像桌子这样的固体表面上。在此威胁实例中，攻击者能够捕获受害者电话上的混响，在电话通话期间实时生成。
多媒体:我们还认为，实时通话实例可以扩展到通过智能手机的扬声器在播放媒体文件时产生人类语音的情况。虽然媒体的内容可能不是私人的，但攻击者可以获得有关受害者的一些机密信息(例如，Snapchat视频，喜欢的音乐)。广告公司可以利用这些信息，根据受害者的偏好，向他们投放量身定制的广告。恶意网站还可以在前台播放媒体内容时，在后台跟踪运动传感器的数据输出。如果一个人的习惯或行为模式暴露给攻击者，这可能是对隐私的侵犯。这些信息可以用来对付受害者，使他们在工作、保险目的、经济利益等方面受到歧视。这个威胁实例如图2b所示。
助手:大多数现代智能手机都有内置语音助手来执行智能任务。语音助手经常确认用户的命令，以确保期望的动作。它使进程用户友好，并为用户提供修改或取消当前进程的选择。如果电话助手使用内置的电话扬声器，则电话助手的任何响应都将通过这些扬声器播放，并可能影响运动传感器，从而将用户的意图暴露给利用运动传感器的攻击者(图2b)。

B. Attacker’s Capabilities

我们的威胁模型中的攻击者具有与先前文献[2]，[6]中阐述的类似的能力。攻击者可以欺骗受害者安装恶意应用程序，或者恶意网站可以在毫无防备的受害者浏览时通过JavaScript在后台跟踪运动传感器读数。Michalevsky等人[6]分析了运动传感器在各种浏览器平台上允许的采样率，发现只有基于gecko的浏览器(如Firefox)对运动传感器的采样率没有任何额外的限制。因此，在基于gecko的浏览器上通过Javascript进行恶意攻击，其工作原理与安装在Android平台上的恶意应用程序类似。这些恶意应用程序可以设计为触发前面描述的特定威胁实例，并可以开始记录运动传感器输出。然后可以将输出传输给攻击者，攻击者可以从中提取机密信息。

攻击者在Spearphone中造成的威胁程度是通过对语音隐私的破坏程度来衡量的。Spearphone试图通过执行性别、说话者和语音分类来损害语音隐私。从攻击者的角度来看，性别分类有助于攻击者缩小未识别语音样本的说话人集合，从而提高说话人识别的准确性。说话者分类可以帮助攻击者获得更多关于所通信语音的上下文(除了揭示私有语音呼叫中一方的身份之外)，而语音分类则可以揭示语音本身的内容，这些内容在通信双方之间可能被认为是私有的。下面提供了每种类型的分类/泄漏的更具体的隐私问题。我们还限制了我们的威胁模型使用有限的单词集(一个封闭的字典)，尽管它可以通过识别语音中包含的单个音素来扩展。

性别分类(Gen-Class):在一个人的性别可能被用来以有害的方式针对他们的情况下，性别分类可能会导致隐私泄露。例如，广告网站可以推送针对特定性别的产品垃圾广告[18]。它也可以用来歧视特定的性别，如[18]所示，其中求职广告存在性别偏见。某些压迫性社会对特定性别加以限制，并可能利用性别分类以潜在有害的方式针对个人。
主讲人分类(Spk-Class):主讲人分类是指在语音通话中识别可能导致通话双方隐私泄露的主讲人。例如，攻击者可以知道某个人在给定时间是否与手机所有者联系。另一个例子可能是一个受到执法部门监视的人，他与手机所有者有联系。它还可能导致手机所有者的整个通话记录泄露。
语音分类(Speech- class): Spearphone旨在学习攻击过程中通过手机扬声器传输的实际单词。为了实现Speech-Class，我们建立了一个基于有限词表的分类模型。通过分类模型将获得的传感器读出的孤立单词的语音特征与单词列表的标记特征进行比较，该分类模型为攻击者提供了实际口语单词的可能再现。我们还研究了从自然语音中分离出可能的词，然后对孤立词进行词识别来重建语音的可行性。

C. Attack Setup

受害者的环境在我们的威胁模型中扮演着重要的角色。在我们的模型中，我们研究了智能手机内置扬声器产生的语音混响。因此，我们排除了任何外部振动源，如[2]、[6]研究的外置扬声器。我们的威胁模型假设受害者的手机是环境中唯一存在的设备，而环境中唯一存在的振动是由受害者的智能手机扬声器产生的。为了测试威胁实例，我们将受害者的手机扬声器可以影响嵌入式运动传感器的两种设置进行分类。

平面设置:在这种设置中，手机保持在平面上，屏幕朝上。这种设置可以在语音场景中使用，受害者将手机放在桌子上，同时与电话处于扬声器模式的人交谈。这个设置也模仿了多媒体场景和助手场景中手机放在桌子、台面等的情况。
手持设置:在语音场景中，受害者也可以手持手机，在多媒体场景中播放媒体文件，在助手场景中使用手机助手。在我们的威胁模型中，我们假设当受害者手里拿着手机时，他是静止的，没有手或身体的运动。

最后，该威胁模型中的攻击者并不在目标受害者的物理附近。攻击是通过之前安装的恶意应用程序或流氓网站，记录运动传感器在相关时间内的数据输出，并将其发送给攻击者。攻击者可以离线检查捕获的数据，并使用信号处理和机器学习来提取有关目标受害者的相关信息。

V. ATTACK DESIGN

Spearphone使用安装在受害者手机上的恶意应用程序(或通过手机浏览器中运行的JavaScript)在手机处于扬声器模式时记录运动传感器读数。当受害者拨打电话/视频电话、试图收听媒体文件或与电话助手交互时，恶意应用程序就会被触发.

Spearphone依靠智能手机的扬声器,从接收到的语音信号中产生混响。我们测试了耳机扬声器，它通常用于监听来电(攻击者的目标)。附录图10显示了加速度计日志的频谱，记录了使用耳机扬声器的传入语音呼叫。将通话音量设置为最大，并将手机放置在固体表面上。附录图10没有显示任何语音痕迹，表明LG G3上的耳机扬声器无法产生足够强的语音混响来影响加速度计。

A. Motion Sensor Recording

我们设计了一个模仿恶意攻击者行为的Android应用程序(第四节)。在启动时，应用程序立即开始记录运动传感器读数。从开始延迟5秒后，我们在应用程序的另一个线程上播放一个单词，同时它正在记录运动传感器数据。这个步骤部分模仿被呼叫方在电话/语音通话或通过内置扬声器在手机上播放媒体文件时产生的语音行为。我们对孤立词的使用也可以扩展到连续语音，但我们的目标不是实现一个完整的语音识别系统，仅局限于展示嵌入式运动传感器所带来的威胁。完成后，我们处理包含运动传感器读数的输出文件，详细内容将在后面的小节中介绍。

B. Identifying Speech Areas

一旦攻击者从应用程序中获得运动传感器输出，他需要提取语音区域以执行Gen-Class, Spk-Class和speech - class，如第IV-B节所述。由于我们在攻击中使用了孤立的单词，因此每个语音样本都包含一个口语单词的实例。由于陀螺仪在其读数的频谱中没有显示明显的语音存在(第三节)，加速度计是Spearphone中唯一考虑的运动传感器。为了从加速计记录中提取语音，我们删减了记录的开始5秒和结束2秒，以补偿播放孤立单词之前的初始延迟，以及按下“停止”按钮暂停运动传感器记录的结束手指触摸。

由于我们看到加速计对语音的反应沿Z轴的最大响应(第III节)，我们尝试确定Z轴读数中的语音区域，并使用X和Y轴的相应区域。为了确定加速度计Z轴读数中的语音区域，使用大小为100(样本)的滑动窗口。由于不同的单词有不同的发音长度，我们使用最短单词的持续时间作为滑动窗口的大小。我们计算每个窗口的方差，以确定传感器在该时间段内的行为。读数的较大方差表明存在外部运动(语音振动)。我们提取具有最大方差的窗口边界作为由于语音存在而影响的传感器读取区域。

C. Feature Set for Speech Classification

一旦我们提取了包含语音的加速度计读数，我们就需要这里描述的Gen-Class、Spk-Class和speech - class的语音特征。低频倒谱系数(MFCC)是人类听觉系统的表征，在音频处理中得到了广泛的应用。虽然MFCC特征对噪声敏感，但我们的威胁模型(第IV节)假设干扰噪声最小。

时频域特征是对信号进行分类的另一种选择。这些特征包括信号在时域的统计特征，如最小值、最大值、中位数、方差、标准差、极差、绝对均值、CV(标准差与均值之比100)、偏度、峰度、第一、第二和第三四分位数、四分位数间距离、平均交叉率、绝对面积、总绝对面积和随时间平均的总信号幅度。通过快速傅立叶变换(FFT)将加速度计读数从时域转换到频域，计算频域特征。利用FFT系数推导出能量、熵和主导频率比，将其作为时频特征的频域特征;

D. Evaluation Metrics

我们使用以下指标来评估Spearphone攻击的性能:准确率、召回率和F-measure。

精度表示正确识别的样本与特定类别识别的所有样本的比例。换句话说，它是真正的个数与标记为属于正类的元素的个数之比。召回率是正确识别的样本与类的实际样本数量的比例。它被计算为真阳性的数量与属于正类的元素的数量之比。f度量是精度和召回率的调和平均值。对于完美的精度和召回率，f-measure值为1，对于最坏的情况，它为0。

E. Design Challenges

1)低采样率:像Android这样的操作系统会严格限制运动传感器的数据输出速率，以节省设备的电池寿命。这种行为有助于释放宝贵的处理和内存能力。然而，这一事实使得将车载运动传感器转变为捕捉语音的麦克风变得更加困难。与采样率从8kHz到44.1kHz的音频麦克风相比，运动传感器的采样率受到严重限制(LG G3为120Hz，三星Galaxy Note 4为250Hz)。此外，车载扬声器可能会限制其以真实形式再现音频的能力，导致扬声器范围之外的几个缺失频率。因此，我们需要选择能够捕获大部分语音信号的运动传感器。在第三节中，我们比较了加速度计和陀螺仪的频率响应。第III-A节中的加速度计响应向我们表明，它能够记录100 - 3300Hz音频范围内的运动(声学振动)。对比III-B节中陀螺仪的响应，我们看到陀螺仪在人类语音频率范围内的响应明显弱于加速度计。因此，我们在实验中使用了加速度计。

2)特征集选择:我们比较了MFCC特征和时域频率特征，以确定最合适的特征集，以准确分类加速度计捕获的语音信号。我们使用V-D节中描述的指标和以下分类器:支持向量机(在[6]中使用)与顺序最小优化(SMO)，简单逻辑，随机森林和随机树(在[15]中使用的决策树分类器的变体)。使用TIDigit词表[19]对LG G3智能手机在Surface场景下的孤立词进行了初步实验。我们的研究结果表明，对所有四种分类算法进行10倍交叉验证的时频特征优于MFCC特征。这一结果，结合时频特征在[15]中被证明是有效的事实，使我们决定在Gen-Class、Spk-Class和Speech-Class的攻击中使用它。在分类器中，我们注意到随机森林使用时频特征优于其他分类器，因此我们在其余的实验中使用它(附录图11和图12)。我们的全套时频特征在附录表八中提供。

突出的时频特征:我们进一步研究了Gen-Class、Spk-Class和Speech-Class的时频特征分布差异，因为并非所有特征都表现出相同的区分不同分类目的声音的能力。图3显示了箱形图中最显著特征子集的分布，它最适合Gen-Class。特别是，识别的特征集包括沿不同轴的第二四分位数(Q2)、第三四分位数(Q3)、信号色散(SigDisp)、平均交叉率(MCR)、标准差/均值之比(StdMeanR)和能量。同样，我们也确定了Spk-Class和Speech-Class最有效的时频特征(箱线图见附录图13和14)。

3)完全语音重建:使用低采样率和低保真运动传感器捕获的信息进行语音重建可能不足以识别孤立的单词。此外，为了用户完整的语音重建，生成一个包含所有可能单词的完整字典(即训练概要)是不现实的。为了解决这些问题，我们从加速度计读数中提取了时间频率特征，这些特征显示了丰富的信息，可以根据现有的分类器(例如随机森林和简单逻辑)区分大量的单词。我们通过分析自然语音下加速度计读数的频谱图进行单词隔离，并计算功率谱值的均方根。我们开发了一种基于搜索关键字的机制(例如，信用卡号码，目标人的姓名和社会安全号码)，并且只使用小型训练集来揭示更敏感的信息，而忽略命题，链接动词和其他不太重要的单词。

VI. ATTACK EVALUATION

A. Experiment Setup

智能手机:我们使用三种不同的智能手机型号进行实验:LG G3、三星Galaxy S6和三星Note 4。实验是在一个安静的研究生实验室里进行的，桌子上有硬木台面，用于Surface设置，而手持设置是由两个参与者手里拿着手机创建的。

操作系统:我们主要关注带有Android移动操作系统的手机，因为它不需要明确的用户许可来获取运动传感器数据。相比之下，iOS移动操作系统(从10.0版本开始)要求任何希望访问运动传感器数据的应用程序在关键字“NSMotionUsageDescription”中声明其意图。该键中的文本将显示给用户，说明应用程序为什么要访问运动传感器数据。未能以上述方式陈述其意图将导致上述申请立即关闭。此外，正如第1节所指出的，Android庞大的市场份额(游戏邦注:包括全球和美国)让我们能够非常关注基于该平台的智能手机所面临的威胁。
传感器:我们实验中使用的智能手机内置的加速度计，输出数据速率为4- 4000hz，加速度范围为±2/±4/±8/±16g。线性加速度灵敏度范围为0.06/0.12/0.24/0.48mg/LSB。与最新的三星Galaxy S10智能手机中使用的LSM6DSL运动传感器芯片进行快速比较，可以发现加速度计具有类似的特性。

TIDigits数据集:我们使用TIDigits语料库的子集([19])。它包含从“0”到“9”的10个单位数发音和1个额外的发音“oh”。它由5名男性和5名女性演讲者组成，发音两次。音频样本的采样率为8kHz。PGP单词数据集:我们还使用了亚马逊机械土耳其工人在自然环境中说出的预编译单词列表。该列表由PGP单词列表中的58个单词组成，他们被要求在安静的环境中记录这些单词。这项数据收集活动得到了大学内部审查委员会的批准，参与者可以选择在任何时候退出实验。我们使用4名男性和4名女性亚马逊土耳其工人的音频样本(44.1 kHz采样频率)。PGP单词列表用于通过语音通道进行清晰的通信，主要用于安全VoIP应用程序。

语音处理:我们使用Matlab对加速度计输出进行特征提取，具体见第5节。我们使用Weka[20]作为我们的机器学习工具，对提取的语音特征进行性别、说话人和语音分类。特别是，我们使用随机森林分类器测试攻击，该分类器优于其他分类器，如第V-E节所述。我们使用默认的分类算法参数，详细配置见附录表六。我们使用10倍交叉验证和训练和测试方法进行分类。10倍交叉验证将样本空间随机划分为10个大小相等且互不相交的子空间，使用9个子空间作为训练数据，保留1个子空间作为测试数据。对于训练和测试方法，我们将数据集分为训练集和测试集，其中66%的数据集用于训练，其余34%用于测试。

在我们的攻击中，攻击者收集用于构建分类器的训练样本，这对于每个设备都是唯一的。由于我们的数据集并不大(PGP单词限制为58个单词，TIDigits限制为22个单词)，我们认为这并不表明攻击者获得训练的开销很大。

在我们的攻击中，攻击者收集用于构建分类器的训练样本，这对于每个设备都是唯一的。由于我们的数据集并不大(PGP单词限制为58个单词，TIDigits限制为22个单词)，我们认为这并不表明攻击者为攻击目标下的每个设备获取训练样本有很大的开销。据我们所知，大多数其他运动传感器攻击(例如，[9]，[3]，[10]，[5]，[11]，[5])，包括Gyrophone，对攻击者有类似甚至更严格的培训要求。

噪音和用户移动的影响:在我们的威胁模型中，扬声器与运动传感器位于同一设备上，因此设备扬声器引起的任何混响都会影响运动传感器。[2]和[8]声称，人类语音频率范围内的外部噪声通过空气传播，不会影响加速度计。因此，智能手机周围环境中的任何噪音都无法干扰加速度计的读数。

我们实验中使用的语音数据集，PGP单词数据集，是从亚马逊机械土耳其工人在不同程度的背景噪音环境中记录他们的语音中收集的。因此，该数据集模拟了攻击者在现实世界中可能面临的语音样本，例如在我们涉及电话的攻击实例中。

B. Gender and Speaker Classification

(Surface Setup)

1)使用TIDigits进行表面设置:使用TIDigits数据集将受害者的手机放置在表面(如桌子)上的Surface设置结果见表II中Gen-Class和Spk-Class。我们观察到，攻击能够以相当程度的准确度f-measure > 0.80执行Gen-Class，攻击在表2中所示的Note 4上特别成功。作为基线，得分明显优于随机猜测攻击者(0.50)，表明在此设置中攻击成功。对于Spk-Class，我们注意到与f值> 0.60的Galaxy S6相比，LG G3和note 4的攻击更成功。与此攻击相比，随机猜测攻击的性能明显更差，为0.10(针对10个说话者)。

2)使用PGP单词数据集进行Surface设置:使用PGP单词数据集进行Surface设置的结果如表2所示，用于Gen-Class和Spk-Class。评估针对随机猜测攻击的攻击(0.50)，我们观察到，在10倍交叉验证和训练测试模型中，所有三种手机型号的攻击报告的f-measure都大于0.70。对LG G3的攻击在所有测试的分类算法中都有超过0.90的f测量值，从而得出结论，Spearphone在执行Gen-Class时的威胁测量值在此设置中可能确实有害。表2显示了使用PGP单词数据集执行Spk-Class时Spearphone的性能。

对于10个说话人的分类模型，随机猜测攻击的准确率为0.10。然而，在我们的测试设置中，我们能够获得更高的f-measure分数，对LG G3的攻击获得了近0.90的分数。在所有手机型号的攻击中，对Galaxy S6的攻击表现最差，但与基线随机猜测攻击准确率相比，f-measure得分仍高于0.50。这些结果得出结论，在执行Spk-Class时，Spearphone威胁也很重要。

我们还通过使用“目标说话人”和“其他”两个类别对说话人进行了二元分类，将每个数据样本分类为目标说话人的声音或任何其他说话人的声音。我们在评估中使用了PGP单词数据集，因为与TIDigits数据集相比，它每个说话者包含更多的单词。使用随机森林分类器和10倍交叉验证，LG G3的二元说话人分类平均f分为0.97，Galaxy S6为0.90，Note 4为0.94。

C. Gender and Speaker Classification

(Hand Held Setup)

1)使用TIDigits数据集的手持设置:使用手持设置中的TIDigits数据集，我们在表III中展示了Gen-Class和Spk-Class的Spearphone攻击性能。对于Gen-Class，我们观察到LG G3的攻击性能在10倍交叉验证模型和训练测试模型下都比其他设备好得多，总体f-measure约为0.70，明显优于随机猜测攻击者(0.50)。对于Spk-Class，我们看到Galaxy S6的分数比LG G3更差，而Note 4的分数介于两者之间。LG G3的Spk-Class的f测量值在所有测试的分类器中都超过0.90，对于Note 4这些值超过0.50，而Galaxy S6的值徘徊在0.25左右。与随机猜测攻击(0.10)相比，G3的攻击明显更好，而Galaxy S6略好一些。

2)手持设置使用PGP单词数据集:Gen-Class攻击结果如表III所示。10倍交叉验证模型表明，攻击者对LG G3的分类器的f-measure值在所有三款手机中表现最好。与Surface类似，攻击的表现优于随机猜测攻击者(0.50)，而攻击的性能与Surface设置中的性能相似。攻击对Spk-Class的评估(表III)表明，攻击能够对LG G3进行高精度的说话人识别。不过，Note 4的f值有所下降，而Galaxy S6的表现最差。因此，攻击的性能，虽然仍然比随机猜测攻击(0.10)好，但在Note 4和Galaxy S6上遭受了一点挫折。扬声器的二元分类(之前在Surface设置中描述过)表明，当智能手机是手持的(手持设置)时，f测量值与Surface设置相似。LG G3、盖乐世S6、note4的平均f-measure得分分别为0.97、0.84、0.92。

D. Effect of Loudness

我们进一步评估了智能手机扬声器音量对Spearphone性能的影响。特别是在智能手机扬声器音量设置为最大音量的100%，80%和75%时，我们测试了Spearphone的性别分类和扬声器分类性能。表四给出了三星Note 4手机的测试结果，当它被放在桌子上(即表面设置)。结果表明，虽然较低的音量确实会对准确率产生负面影响，但较低的音量仍然可以实现非常高的准确率(即80%的音量在PGP单词数据集上实现了95%的性别分类准确率和79%的说话人分类准确率)。此外，结果表明，与随机猜测准确率(即性别分类为50%，说话人分类为10%)相比，较低的音量仍然会导致严重的隐私泄露。此外，人们在各种场景中都倾向于使用最大音量，以使讲话清晰易懂，避免遗漏任何重要信息[21]。更大的音量，在提供更清晰的语音的同时，会通过我们的Spearphone攻击更明显地暴露语音隐私。此外，我们认为智能手机上扬声器的质量将随着时间的推移而提高，目前也有功能强大的扬声器盒可以物理连接到手机上[22]，[23]，即使在较低的音量水平下，这种高质量扬声器的语音泄漏也可能更具破坏性。

E. Result Summary and Insights

PGP词数据集对Note 4和Galaxy S6的说话人分类准确率高于TIDigits数据集。这可能是因为与TIDigits (8kHz)相比，PGP单词数据集(以44.1kHz采样)以更高的采样率记录。这种效果在LG G3上并不明显，因为其运动传感器的采样率(120Hz)略低于Note 4或Galaxy S6(约200Hz)。在某些情况下，PGP单词数据集的性别和说话人分类准确率似乎有所下降。我们认为，由于PGP词数据集中存在一些背景噪声，准确性可能受到负面影响。LG G3的精度似乎没有受到影响，但我们认为这可能是由于其较低的采样率(使其不容易出现数据退化)。

另一个有趣的观察是，Surface设置总体上比手持设置产生更好的分类结果。与手机始终处于静止状态的Surface设置相比，手持设置中微小的手部动作可能会影响运动传感器的读数，并降低性能。由于手部运动导致低频振动，我们应用了高通滤波器来减少这种影响。另一种可能的解释是握手引起的振动吸收/阻尼。为了进一步验证这一推理，我们将Note 4手机放在柔软的表面(即柔软的沙发)上进行了实验。性别分类准确率为87.5%，与手持场景相近(87%)，均低于硬桌面场景。这表明振动可能在某种程度上被手吸收了。说话人分类结果总体上与使用录音进行说话人分类相似[24]。正如我们的实验所展示的那样，这种行为可能表明，加速计也会捕捉到音频振动中出现的突出语音特征

将我们的结果与Michalevsky等人先前的工作进行比较[6]，我们发现他们在Nexus 4上使用DTW分类器实现了84%的最佳案例性别分类准确率，低于我们使用相同数据集(TIDigits)在三星Note 4上使用随机森林分类器几乎100%的最佳准确率。对于说话人分类，我们在Samsung Note 4上使用Random Forest分类器获得了超过90%的更高准确率，而Micalevsky等人[6]使用DTW分类器对相同数据集(TIDigits)的混合性别说话人的说话人分类准确率仅为50%。

自然语音数据集:虽然Spearphone在孤立的单词数据集(即tidigi -its/PGP单词)上实现了非常高的准确性，但我们使用更具挑战性的自然语音数据集(VoxForge[25])进一步评估了Spearphone的性能，该数据集提供了由5名男性和5名女性说话者说的句子样本(平均10个单词长)，每个说话者有100个样本。特别是对于说话人分类，在10倍交叉验证下，Spearphone与LG G3使用Random Forest进行10人分类，准确率达到91.3%。结果与使用孤立词数据集的说话人分类非常相似，这表明攻击在实际的自然语音场景中是显著的。

F. Speech Recognition

接下来，我们将演示使用Spearphone进行语音识别的可行性。我们发现，在木质桌面上的G3手机在显示扬声器信息时表现更好。为此，我们在木桌上使用G3来研究Speech-Class的可行性。我们比较了语音识别中常用的时频特征与MFCC特征的性能，发现时频特征比MFCC特征具有更好的分类精度。我们还注意到随机森林分类器优于其他测试的分类器，因此我们使用随机森林作为我们的时频特征分类器。

1)单个说话人的语音类:TIDigits数据集:表V显示了Spearphone成功识别单个说话人的11个孤立数字(TIDigits数据集)的准确性。对于10倍交叉验证，使用时频特征，我们使用随机森林分类器获得了0.74的f测量分数。相比之下，随机猜测攻击者对测试数据集的准确率为0.09。使用训练检验方法进行分类得到的结果与表5相似，但识别准确率略有下降。

PGP单词数据集:我们进一步对PGP单词进行了实验，以探索Spearphone识别数字以外的孤立单词的准确性。表V显示了10倍交叉验证下的Speech-Class结果。通过使用时频特征，Spearphone在识别58个单词列表中的单词方面取得了比数字高得多的f-measure得分0.81。相比之下，该数据集的随机猜测精度仅为0.02。训练测试模型的结果显示性能略有下降。

2)多人演讲班:有很多场景涉及多个人的声音在一个电话上呈现，比如通过Skype的电话会议。我们进一步研究了多说话人语音识别的可行性。特别地，我们涉及两个说话者(一个男性;一个女性)。表V还显示了识别来自两个说话者(多说话者场景)的数字时的f-measure分数。TIDigits数据集的f-measure得分为0.80，而PGP单词数据集的f-measure得分为0.75。

Gyrophone[6]也使用TIDigits数据集和44个录制单词进行语音识别任务。然而，他们解决了一个完全不同的攻击设置，声源来自外部扬声器，可以实现高达0.65的精度。我们的语音识别准确率约为0.82，这强烈表明智能手机的运动传感器容易受到其自身扬声器语音的攻击。通过将语音识别和说话人识别相结合，Spearphone能够在多说话场景中进一步将每个识别的单词与说话人身份相关联。

G. Speech Reconstruction (Natural Speech)

我们已经展示了Spearphone识别孤立单词的高准确性的能力。为了重建自然语音，Spearphone执行单词隔离和关键字搜索，首先从运动传感器读数序列中隔离每个单词，然后基于第VI-F节介绍的语音识别从隔离的单词中搜索敏感数字/单词。

1)单词隔离:为了重建自然语音，首先需要将语音中的单词从运动传感器读数中分离出来，然后单独识别。然而，从低采样率和低保真度的运动传感器读数中分离单词是困难的。为了解决这个问题，我们计算了每个时间点运动传感器频谱的均方根(RMS)，然后根据预定义的阈值定位局部峰值，以隔离每个单词。图4展示了一个分离TIDigit字符串(“0125”)和PGP句子(“带有香葱的白干酪很好吃”)的示例。将运动传感器的频谱图转换为图右侧的幅度均方根。基于得到的幅值均方根，检测局部峰间的谷值，对关键字进行分割。我们观察到一些命题和连系动词(例如，“with”和“is”)很难被检测到，但这个缺点对我们的结果影响很小，因为这些词不影响理解整个句子的能力。我们进一步测试了20个句子，每个句子大约有28个单词，并对我们的单词隔离方法进行了评估，获得了82%的隔离成功率。通过排除不太重要的命题和连接动词，我们达到了96%左右的成功率。

2)关键词搜索:除了单词隔离，关键词搜索在处理自然语音时也很重要。由于事先很难训练自然语音的所有潜在单词，对手可能对敏感数字/单词(关键词)更感兴趣(例如，信用卡信息，重要人物的姓名，社会安全号码等)。边缘词如命题、连系动词等不太重要的词可以忽略。因此，一个有限大小的数据集可能已经足以让攻击者窃取大多数敏感信息。

在获得孤立词后，攻击者可以根据预先构建的训练模型搜索关键词。特别是，Spearphone依靠训练模型返回的预测概率作为置信度来过滤关键字搜索结果。仅保留高置信度预测作为语音识别结果。图5为使用2/3 PGP词作为关键词时，预测置信水平的CDF。我们观察到，我们可以根据置信度设置一个阈值来区分关键字和边缘词。进一步结合词隔离和关键词搜索来重建自然语音，需要对词进行细粒度分割，并使用隐马尔可夫和其他语言模型进行词更正。这项工作超出了我们当前论文的范围，是未来可能工作的途径。

VII. DISCUSSION AND FUTURE WORK

攻击限制:在我们的实验中，我们最初把智能手机的扬声器调到最大音量。因此，来自智能手机扬声器的语音能够在智能手机体内产生最强的混响，对加速度计产生最大的影响。在现实中，不同手机型号的响度不同，响度对每个用户来说也是有选择性的。因此，我们测试了响度对攻击准确性的影响，发现将音量从最大降低到80%仍然允许攻击以显着的准确性执行性别和说话者分类，尽管与全音量攻击相比准确率较低。

虽然我们的实验测试了两个不同的数据集，但它们仍然局限于单个单词的发音，并且在大小上是有限的。然而，使用语言建模技术，单个单词的准确性可以扩展到整个句子的重构。此外，TIDigits数据集虽然相对较小，但仍然可以有效地识别主要由数字组成的敏感信息。个人信息，如社会保险号、生日、年龄、信用卡信息、银行账户信息等，大多由数字组成。因此，我们认为我们的数据集大小的限制不应该低估我们的攻击的感知威胁级别。

我们的攻击目标是嵌入智能手机中的加速度计，它们对内置扬声器很敏感。来自扬声器的混响通过智能手机的机身传播到受影响的加速度计。在大多数智能手机中(包括本工作中测试的智能手机型号)，运动传感器芯片位于主板上，而扬声器组件是一个独立的单元[26]。然而，所有这些组件都紧密地安装在同一个设备中，以减少设备的整体尺寸(厚度)，导致混响从扬声器组件传播到运动传感器芯片。

低采样率是我们在实施攻击时面临的一个挑战。低采样率导致运动传感器收集的数据点减少，这直接影响了我们攻击的准确性。将所获得的数据以更高的采样率重新采样不会增加所收集数据中包含的信息量。为了缓解这一挑战，我们比较了几种特征集和机器学习算法的组合的准确性，这些算法可以最大限度地从我们收集的数据集中提取信息。

音频中的噪声可能是另一个限制，会对我们攻击的分类结果产生负面影响。我们试图通过使用亚马逊土耳其工人来记录我们的语音数据集来考虑噪声因素，该数据集在语音样本中引入了自然水平的背景噪声(这些噪声是在亚马逊土耳其工人的个人环境中记录的)。另一个需要考虑的因素是受害者在拿着智能手机时的手部动作。我们的攻击实验包括把手机放在一个表面上，或者拿在手里不动。这两种设置都能让智能手机保持静止。然而，情况可能并非总是如此，因为受害者可以拿着智能手机四处走动，或者在拿着智能手机时做手势。Accelword[15]分析了手/身体运动对嵌入智能手机的加速度计的影响，并得出结论:2Hz的截止频率会过滤掉这些运动的影响。这种过滤器的应用可以使所提出的攻击与移动设备兼容，其中智能手机不是固定的。

硬件设计的影响:Spearphone使用智能手机的加速计来捕捉内置扬声器的语音。然而，各个厂商的智能手机的具体硬件设计是不同的，这就导致了智能手机捕捉语音加速的能力不同。特别是，扬声器属性和加速度计规格在不同的智能手机型号上是不同的。三款流行的智能手机的扬声器和加速度计的规格汇总在附录表七中。

这三款手机的加速度计都很相似，但Galaxy S6的扬声器功能不如其他型号，这可能会导致S6的精度结果较低，特别是在手持设备上，智能手机的身体与固体表面之间没有接触，因此混响效果可能会降低。此外，智能手机上的扬声器和加速度计的位置可能会导致加速度模式对同一语音单词的响应不同。这是因为声音引起的混响可能通过不同的路径传播，并受到不同复杂硬件组件的影响。图6显示了一些流行品牌智能手机的运动传感器规格。例如，LG G3和Note 4的扬声器都在智能手机的背面，当放在桌子上时，会产生不同程度的混响。相比之下，Galaxy s6的扬声器位于机身的底部边缘，因此放在桌子上的效果会减弱。

在这项工作中，我们专注于智能手机扬声器的语音混响作为隐私泄露的来源。先前的作品利用了来自外部语音源的语音振动，而Spearphone利用了语音混响的泄漏，这可能是由于智能手机体内的强制振动效应。这些混响可能是地面辅助的或空中的，或两者的结合。激光测振仪可以对这些混响进行分类，这将是我们未来的工作。

加速度计模型:本文测试的三款手机型号都嵌入了Invensense加速度计，如附录表七所示。我们进一步分析了另一款嵌入意法半导体加速计芯片的智能手机(三星Galaxy S3)对车载扬声器播放的语音信号的频率响应。我们的分析表明，响应与LG G3(Invensense加速度计)相似，两种类型的加速度计显示的频率范围在300Hz到2900Hz之间。这表明意法半导体加速计正在拾取与测试的Invensense加速计相似的语音混响。随着每一代新智能手机的MEMS技术越来越好，扬声器越来越响，越来越精致，我们相信从这个角度来看，我们的攻击应该会引起更多对语音隐私的关注。

潜在的对策:利用运动传感器的任何侧信道攻击的设计都围绕着这些传感器的零权限性质。为了减轻这种攻击，Android平台可以实施更严格的访问控制策略，限制这些传感器的使用。此外，应该让用户了解他们授予应用程序的权限的含义。然而，对传感器的严格访问控制策略直接影响到智能手机的可用性。即使应用程序实现显式的使用权限模型也常常不起作用，因为用户没有适当注意请求的权限[27]。它们通常不会读取所有必需的权限，即使读取时，它们也无法理解授予权限的安全含义。此外，许多应用程序被设计为开发者的过度特权[28]。

此外，由于信号混叠，宽频率范围的振动非线性映射到低采样率加速度计数据。高频和低频都包含语音信息。因此，简单地应用滤波器来去除高频或低频并不能减轻这种攻击。

通过改变手机的硬件设计，也可以建立对Spearphone的潜在防御。智能手机的内部结构应该使运动传感器与手机扬声器产生的振动绝缘。实现这种方法的一种方法是用减震材料将内置扬声器包围起来，从而掩盖或抑制手机扬声器泄漏的振动。这种形式的语音掩蔽可以防止手机扬声器发出的语音混响，可能不会影响扬声器产生的声音质量。扬声器隔离垫已经在音乐行业的录音棚中使用，用于限制声音振动泄漏[29]。其他解决方案如[30]也存在，旨在抑制表面辅助振动传播，这可能有助于防止智能手机内语音振动的泄漏。需要进一步的工作来评估这种防御措施对本文所研究的威胁的影响。

完整的语音重建:Spearphone显示高准确度识别孤立的数字/单词。当应用于完全语音重建时，我们初步成功地从自然语音的运动传感器读数中分离单词，并基于有限的训练集进行关键字搜索以揭示敏感信息。将词隔离和关键词搜索相结合来重建完整语音，还需要进一步的研究。例如，隐马尔可夫模型可以与词隔离一起使用，以改善运动传感器读数对词的分割。此外，语言模型可以应用于单词更正。我们将在以后的工作中讨论这个问题。

语言识别:我们工作的一个可能扩展是语言识别的前景。通过使用加密VoIP数据包的长度对VoIP流量进行语言识别[31]。如果攻击者事先知道受害者可能与之交流的一组说话者的语言偏好，那么语言识别可能是有用的。这些信息可以帮助攻击者缩小说话者的范围。此外，语言也可能与目标说话者可能的地理位置相关联，从而导致隐私泄露。

传感器融合:提出的攻击利用了具有有限采样率的加速度计(由操作系统施加)。如果攻击者可以通过超越这个限制来实现更高的采样率，它可以表现得更好，这也可以应用于陀螺仪，进一步提高攻击的性能，当结合加速度计的输出时。我们把它作为未来的工作。

VIII. CONCLUSION

我们提出了一种新的侧信道攻击，通过利用受发射语音影响的加速度计输出来损害手机扬声器的隐私。这种攻击可以泄露有关远程人类说话者(在语音呼叫中)和电话扬声器产生的语音的信息。在提出的攻击中，我们使用现成的机器学习和信号处理技术来分析语音对加速度计读数的影响，并以高精度执行性别，说话人和语音分类。

我们的攻击暴露了加速度计的一个脆弱的威胁场景，它来自手机本身一个看似不显眼的来源(内置扬声器)。这种威胁可能包括日常活动的几个使用实例，如常规音频通话、私人房间内的电话会议桥接、免提通话模式和电话上播放的语音邮件/信息。这种攻击还可以利用语音助手通过扬声器传输的响应来确定受害者的个人详细信息。我们还讨论了一些可能有助于防止此类攻击的缓解技术。

圆谷叽喳

关注

22
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Spearphone: A Speech Privacy Exploit viaAccelerometer-Sensed Reverberations fromSmartphone Loudspe

在本文中，我们构建了一种语音隐私攻击，利用智能手机内置扬声器产生的语音混响，通过零许可运动传感器(加速度计)捕获。我们设计了一种名为“Spearphone”的攻击方法，并证明了内置扬声器在适当的响度下产生的语音混响可以影响加速度计，泄露有关语音的敏感信息。特别是，我们表明，通过利用受影响的加速度计读数和仔细选择特征集以及现成的机器学习技术，Spearphone可以。
复制链接

扫一扫