InertiEAR: Automatic and Device-independentIMU-based Eavesdropping on Smartphones

圆谷叽喳

已于 2024-01-07 16:02:02 修改

阅读量890

点赞数 14

文章标签：语音识别

于 2024-01-06 14:35:45 首次发布

本文链接：https://blog.csdn.net/weixin_52125285/article/details/135415236

版权

摘要:基于imu的窃听引起了人们对智能手机用户隐私的日益关注。在这种攻击中，攻击者利用需要零权限访问的imu来获取语音。一种常见的对策是限制采样率(200 Hz以内)，以减少声基波段(85-255 Hz)和惯性测量(0-100 Hz)的重叠。尽管如此，我们通过实验观察到，由于混叠失真，低于200 Hz的imu采样仍然记录了足够的语音相关信息。因此，我们提出了一种实用的侧信道攻击——intertiear，来突破对零权限窃听的采样率限制防御。它利用imu来窃听智能手机的顶部和底部扬声器。在intertiear设计中，我们使用数学模型利用内置加速度计和陀螺仪的响应及其硬件多样性之间的一致性。相干性允许在没有人工辅助的情况下精确分割。我们还减轻了硬件多样性的影响，并实现了比现有方法更好的设备独立性能，这些方法必须为可扩展的网络模型大量增加来自不同智能手机的训练数据。这两个优势使零权限攻击成为可能，但也将攻击面和危害程度扩展到现成的智能手机。intertiear的识别准确率为78.8%，12款智能手机的跨设备准确率高达49.8%。

I. INTRODUCTION

在信息时代，隐私一直是一个关键问题。人们对隐私保护表达了越来越多的担忧，尤其是对通过智能手机窃听的担忧。智能手机中的各种传感器可以从现实世界中智能地收集信息。然而，这些传感器有被恶意滥用的风险。为了防止隐私泄露，个人会有意识地对与隐私相关的传感器(如麦克风、摄像头和GPS)进行严格的访问控制。

与这些敏感传感器默认为高权限不同，内置惯性测量单元(imu)通常被认为是风险较低的传感器。访问imu需要很少或零权限。然而，据报道，这种传感器促进了对言论隐私的所谓“零许可”攻击[1]-[6]。在这种攻击中，攻击者可以在未经用户允许或注意的情况下访问内置加速度计。这些imu可以从同一部智能手机的车载扬声器中接收语音信号。imu具有高采样率，能够覆盖人声的基本频段(85- 255hz)[7]。

最先进的SOTA攻击[2]，[3]能够获得惊人的81%的语音识别准确率和78%的说话人识别准确率。这样的威胁已经警醒了整个行业。一个广泛持有的信念是限制imu的采样率，以避免惯性测量的范围与声基波段重叠。通过零许可窃听导致私人言论泄露的风险似乎降到最低。根据这一常识，谷歌对imu进行了限制，其采样率不应超过200 Hz[8]。

这一对策对零许可盗版是否有效?在实验中，我们观察到imu在受到上述限制的情况下仍然会进行私人语音窃取。用户语音中的部分高频分量会落入低频频段，即混叠失真[9]。这表明有可能从采样频率在200Hz以内的惯性读数中包含的残余物中恢复语音。以商用智能手机华为P40为例，其加速度计可以响应高达6 kHz的音频信号。它表明，如果仅仅限制imu的采样率，智能手机仍然容易受到零许可窃听。

我们进一步扩大攻击面，窃听顶部和底部的扬声器。如图1所示，IMU响应两个扬声器发出的音频信号。然而，最上面的一个通常被sota攻击所忽略[2]，[3]。我们共同利用imu中的加速度计和陀螺仪来加剧这些扬声器的隐私泄露。在这种情况下，攻击者可以检索智能手机中任何扬声器发出的语音信息，例如:语音助手(VAs)可能会提到地点和日常日程安排的电话、音频媒体和响应。

为了利用窃听的实践，我们进一步解决了在之前的零许可攻击中仍然存在的双重现实挑战。(一)自动化。以往的方法缺乏无差错的信号分割方法。传统的音频检测和分割技术[10]很难处理惯性数据中的附加噪声，特别是在运动干扰下。陀螺电话[1]完全依赖于手动分割[1]，而最近的攻击依靠滤波器来消除噪音和人类运动的影响。但它们的作用是不完整的，因此分割不精确([3]为82%，[2]为92%)。如果划分错误，人工检查是不可避免的。显然，这种人工分割容易出错，无法提供令人满意的语音识别精度。(b)设备独立性。最近的零权限攻击[2]，[3]利用人工智能技术提高了识别的准确性。然而，它们严重依赖于训练数据，因此由于硬件特征的显著多样性，它们在未见过的智能手机上表现不佳。不幸的是，基于从有限的智能手机模型中收集的训练数据构建一个广义的网络模型是非常困难的。对于某个看不见的智能手机，对手必须提前知道它，并花费昂贵的开销来训练一个专门的神经网络。因此，以前的攻击在设备无关窃听方面是不可扩展的。

因此，我们开发了一种新颖实用的攻击，惯性耳。它利用扬声器到imu侧通道，从智能手机的顶部和底部扬声器的演讲。特别是，我们从自动分割和设备独立性的角度解决了以前工作的局限性。我们利用加速度计和陀螺仪的语音相关读数之间的一致性。在乘数的帮助下，我们将这些相干响应迁移到直流偏置中，这样尽管有噪声和运动，响应仍能明显地与沉默片段区分开。因此，它支持无错误的分段，无需人工帮助。同时，我们对智能手机的硬件多样性进行建模，以实现跨设备攻击。我们的方法集成了一系列技术，以消除硬件多样性的影响，并从数据处理的角度促进设备独立性。我们采用DenseNet[11]在处理后的数据上训练语音识别模型，获得了78.8%的高识别准确率。使用经过训练的模型，intertiear支持具有出色的性能，跨设备精度为49.8%。对12款COTS智能手机的广泛评估验证了intertiear在真实场景下的有效性。作为应对措施，我们提出了不需要修改硬件的防御方法。

贡献如下：

我们重新审视了基于imu的窃听威胁，并实现了一种突破采样率限制的侧信道攻击intertiear。为了扩大其攻击面，提高其实用性，提出了一种数学模型。
通过精确分割，实现了无需人工辅助的自动窃听。通过彻底研究惯性读数的相干性，我们的分割是无误差的噪声和运动干扰。
intertiear实现了与设备无关的窃听攻击。与之前的工作不同，我们通过数学模型处理而不是简单地增加训练数据来抑制硬件多样性，从而显着降低了跨设备攻击的开销。

II. BACKGROUND

A. IMUs and Their Sensitivity to Speech

嵌入式智能手机IMU由3轴微机电系统加速度计和3轴微机电系统陀螺仪组成。前者测量加速度，后者提供角速度。它们直接接触智能手机中靠近扬声器的电路板。因此，扬声器发出的语音信号，无论是顶部还是底部，都不可避免地会泄漏到IMU的测量中。

最近的研究已经证明imu对演讲很敏感[1]-[6]。Michalevsky等人[1]利用放置在公共表面的独立扬声器研究了语音对陀螺仪的影响。他们利用多个陀螺仪来捕捉语音振动，以获得高采样率。它在识别(26%)和说话人识别(10个说话人中的50%)方面达到了相当低的准确率。Anand等人[6]重新审视了timus在不同场景下对私人演讲的威胁，包括通过空气或普通固体表面传播的人类和机器呈现的演讲。他们得出结论，imu只对通过高功率固体传播的信号敏感。Ba等人[2]使用内置的加速度计来窃听智能手机的扬声器。在高达500 Hz的采样率下，它们在说话者识别上达到70%的准确率，在语音识别上达到78%的准确率。Anandet等人[3]分别将性能略微提高到79%和81%，但利用加速度计在4 kHz采样。

B. Related work

imu以其灵敏度高、成本低等优点被广泛应用于各种系统中，方便用户使用。除了精确的姿态计算和运动估计[12]外，它们还可以支持手势识别[13]-[17]、手语翻译[18]、隐蔽信道通信[19]-[21]以及基于行为和生物特征的身份验证[22]-[26]。然而，攻击者可以在未经许可的情况下访问ios和Android中的IMU[1]，以收集个人隐私，包括语音[1]-[6]、击键[27]-[32]、本地化[33]-[37]和设备指纹[38]-[41]。

III. THREAT MODEL

我们假设攻击者的目标是受害者智能手机上的扬声器发出的私人言论。它威胁到远程呼叫的安全性，并通过虚拟助理的响应、个性化回答和导航服务暴露了其他隐私(例如，日常日程安排、联系人、习惯和位置)。从音频媒体中可以推断出个人习惯，进行个性化广告。在这里，我们将对手的能力定义如下。

传感器访问。攻击者在受害者的智能手机上安装了一个间谍应用程序，打着任何合法应用程序的幌子。它无法访问麦克风等敏感传感器，但在未经受害者允许的情况下不断捕获IMU读数。

采样率限制。间谍应用程序以最高的可用采样率运行。然而，出于隐私考虑，imu的频率默认限制在200hz以下[8]。

攻击场景。它会不断窃听目标智能手机的顶部和底部扬声器。目标智能手机可以是静止的，也可以是移动的，通常放在桌子上或在用户手中。幸运的是，它可能不熟悉目标智能手机的型号。

IV. MODEL AND ANALYSIS

我们解释了扬声器到imu侧信道的存在，然后分析了噪声和硬件分集。

A. Speaker-to-IMU Side Channel

智能手机内置的IMU观察板扬声器中的加速度计和陀螺仪同时使用三个通道(即轴)，如下: