Do You Hear What I Hear? Fingerprinting Smart Devices Through Embedded Acoustic Components

摘要

  • 本文研究了使用嵌入在智能手机中的麦克风和扬声器来对单个设备进行唯一指纹识别的可行性。
  • 在制造过程中,设备麦克风和扬声器中会出现细微的缺陷,导致产生和接收的声音出现异常。本文利用这一观察结果通过播放和录制音频样本来对智能手机进行指纹识别。

1 介绍

  • 距观察,即使移动设备上的软件得到加强,麦克风和扬声器中的硬件级别特性也可以用来识别物理设备的指纹。在制造过程中,这些组件的模拟电路中会引入缺陷,因此,两个麦克风和扬声器永远不会一样。通过一项观察研究,我们发现这些缺陷足够严重和普遍,以至于我们可以通过被动录制音频流,并对录制的音频流进行简单的频谱分析来可靠地区分不同的设备。

2 概要

  • 本文工作背后的关键观察是,智能设备硬件中的缺陷会在接收和传输的音频流上产生独特的签名,如果识别出这些独特的签名,攻击者可以使用这些独特的签名来识别设备的指纹。
  • 本文考虑三种指纹方案:扬声器、麦克风和扬声器-麦克风联合指纹。在第一种情况下,攻击者在咖啡馆或购物中心等公共环境中录制智能手机扬声器生成的音频,如铃声。然后,攻击者可以使用录制的音频样本来跟踪和识别用户。或者,攻击者可以获取智能手机麦克风录制的音频,并使用该音频识别录制的用户;这可以用于取证应用。跟踪用户的第三种方法是说服他们安装恶意应用程序(例如,一个免费的网络游戏),该应用程序可以使用设备的扬声器和麦克风播放和录制音频剪辑。然后,应用程序可以偷偷地将录制的音频片段上传给攻击者(例如,利用登录信息或游戏状态),然后攻击者可以使用音频样本唯一地区分每个用户。要做到这一点,应用程序需要同时访问扬声器和麦克风以及网络访问,但这样的权限对于应用程序来说并不罕见,不太可能引起警报,特别是考虑到很大一部分用户无法理解智能手机权限的全部后果。
  • 本项任务的一个关键部分涉及确定哪种声学特征和音频分析技术在识别设备硬件的独特签名方面最有效。可以使用大量的音频属性(频谱熵、过零点等),以及可用于总结这些特性的各种分析算法(主成分分析、线性判别分析、特征选择等)。在之后的内容中,本文将描述硬件诱导的听觉异常的替代属性 ,以及将研究有效地对它们进行聚类的算法。

3 相关工作

  • 在这种背景下,克拉克森的工作[26]可能与我们的工作关系最密切,他展示了通过分析扬声器发出的录音样本来区分扬声器是可能的。
  • 本文的工作利用了已有的音频指纹识别工作探索的大量声学特征。然而,本文没有对音频片段的内容进行分类,而是利用声学特征来捕捉嵌入在智能设备中的麦克风和扬声器的制造缺陷。

4 指纹来源

  • 在这一节中,我们将仔细看看当今智能手机上嵌入的麦克风和扬声器。这将有助于理解麦克风和扬声器如何作为独特的指纹的潜在来源。

4.1 麦克风的研究

  • 由于以下原因可能会出现缺陷:一批又一批部件的化学成分略有不同,制造机器磨损或温度和湿度变化。虽然麦克风芯片中的细微缺陷可能不会被人耳注意到,但正如我们稍后所展示的那样,这种计算上的差异可能足以区分它们。

4.2 扬声器的研究

在这里插入图片描述

  • 上图(A)显示了扬声器的基本组件。隔膜通常由纸、塑料或金属制成,其边缘连接到悬架上。悬架是由柔性材料制成的边缘,允许隔膜移动。振膜锥体的窄端连接到音圈。音圈由蜘蛛(阻尼器)固定在篮子上,它将线圈固定在适当的位置,但允许线圈自由来回移动,永久磁铁位于线圈的正下方。
  • 每当电流流过音圈时都会产生声波,音圈起到电磁铁的作用。通过音圈运行变化的电流会在音圈周围感应出不同的磁场,从而改变环绕音圈的金属的磁化成都。当电磁铁的极性方向改变时,排斥和吸引的方向也会改变。这样,音圈和永磁体之间的磁力使音圈振动,进而振动扬声器振膜以产生声波。
  • 上图(B)显示了典型的MEMS微音响芯片,图©显示了微音响内部的组件。这些部件与基本扬声器相似,唯一的区别是尺寸和制造工艺。扬声器振膜产生的声波的振幅和频率分别由音圈移动的距离和速率决定的。每个扬声器组件可以将变化引入所生成的声音中。例如,驱动器的电磁特性的变化可能导致膜片移动的速率和平滑度的不同。因此,由于制造过程中不可避免的变化和不完美,没有两个扬声器是相同的,从而导致产生的声音有细微的差异。在本文中,开发了一些技术来计算定位和评估这些差异。

5 使用的特征和算法

5.1 声学特征

  • 为了了解设备缺陷对各种声学特性的影响,本文总共调查了15个声学特征。

5.2 分类算法

  • k-NN
  • GMM(高斯混合模型)

6 评估

6.1 方法

  • 把智能手机放在研究生办公室的不同位置,为了模仿攻击者,在房间里放了一台宏基笔记本电脑,并使用笔记本电脑的内置麦克风采集音频样本。
  • 设备和工具: 我们在五家不同制造商的设备上测试了我们的设备指纹。下表突出显示了我们实验中使用的不同手机的型号和数量。
    在这里插入图片描述
    我们还调查了不同类型的音频摘录。下表描述了我们的实验中使用的不同类型的音频摘录。音频剪辑的持续时间从3秒到10秒不等。所有音频摘录的默认采样频率为44.1kHz。所有音频片段均采用16位脉冲编码调制(PCM)技术以WAV格式存储。
    在这里插入图片描述
    为了进行分析,本文利用了以下音频工具和分析模块。
  • 评估指标: 我们在评估中使用标准的多类分类指标:precision, recall 和F1-score。

6.2 声学元件指纹识别

6.2.1 Process of Fingerprinting Speaker(扬声器的指纹)

攻击者可以利用本文的技术被动观察公共环境中设备扬声器发出的音频信号(例如铃声)。为了研究这一点,首先看看内置在手机中的指纹识别扬声器。对于指纹扬声器,我们将从智能手机播放的音频片段录制到笔记本电脑上,然后从录制的音频片段中提取声学特征以生成指纹,如下图所示,我们查看由同一供应商和不同供应商制造的设备。
在这里插入图片描述

6.2.2 Process of Fingerprinting Microphone(麦克风的指纹)

攻击者还可能试图通过观察设备麦克风的缺陷来识别设备的指纹,例如,说服用户在他们的手机上安装一个应用程序,该应用程序可以观察设备麦克风的输入。为了调查这种攻击的可行性,本文将从笔记本电脑播放的音频片段录制到智能手机上,如下图所示,再次考虑由同一供应商和不同供应商制造的设备。
在这里插入图片描述

6.2.3 Process of Fingerprinting both Speaker and Mic

攻击者可能试图通过观察设备麦克风和扬声器中的缺陷来提取设备指纹。例如,通过说服用户在其手机上安装需要访问设备扬声器和麦克风才能与游戏交互的游戏。攻击者可能会在游戏开始时播放主题曲,同时录制音频剪辑。为了调查这种攻击的可行性,本文构建了一款Android应用程序,可以同时播放和录制音频片段,并将数据上传到远程服务器。然后,录制的音频片段将使攻击者能够确定嵌入智能手机的麦克风和扬声器的缺陷。
在这里插入图片描述

6.3 特征探测

  • 乍一看,我们似乎应该使用我们可以使用的所有特征来识别设备类型。然而,包含太多特征可能会降低实际性能,因为它们的准确性各不相同,而且特征可能会发生冲突。因此,在本节中,我们将提供一个框架来探索描述的所有15个音频特征,并确定所有特征中占主导地位的子集,即应该使用哪种特征组合。
  • 为此,本文采用了一种众所周知的机器学习策略,称为特征选择。在本文选取了一种贪婪的搜索策略,称为顺序前进选择,从一个空集合开始,然后依次添加特征,最大化目标函数,特征选择算法的伪代码在算法1中进行了描述。
    在这里插入图片描述
  • 该算法的工作原理如下。首先,我们分别计算每个特征可以达到的F1分数。接下来,我们根据获得的F1分数对特征集进行降序排序。然后,我们从最主要的特征开始迭代添加特征,并计算组合特征子集的F1得分。如果添加一个特征增加了目前为止看到的F1分数,我们就转到下一个特征,否则,我们删除被检查的特征。遍历完整的特征集后,我们返回最大化设备分类任务的特征子集。注意,这是一种贪婪的方法,因此,生成的子集可能并不总是提供最优的F1分数。但是,出于我们的目的,我们发现这种方法执行得很好,正如我们在后面几节中所演示的那样,我们对上表3中列出的所有三种类型的音频摘录测试了我们的特征选择算法,并使用k-NN和GMM分类器来评估F1分数。

6.4 不同的制造商和型号设备

  • 本节中,先看看从表2的每一行中选取一款有代表性的智能手机,总共有7款不同的智能手机。首先使用麦克风和扬声器对这些设备进行指纹识别,然后将麦克风和扬声器结合使用。

6.4.1 特征探索

在这里插入图片描述

  • 首先,我们着眼于探索不同的声学特征,目的是获得占主导地位的特征子集。表4突出显示了对三种不同类型的音频摘录,每个声学特征获得的最大F1得分。通过将k从1变化到5(对于k-NN分类器)并且还考虑每类1到5个高斯分布(对于GMM分类器)来获得最大F1得分。每种类型的音频被录制10次,从7个有代表性的手机中总共获得70个样本;其中50%(即每个手机5个样本)用于训练,其余50%用于测试。所有训练样本都用其对应的手持手机标识符进行标记。两个分类器都返回测试集中每个音频片段的类标签,并由此计算F1分数。该表还突出显示了我们的顺序特征选择算法选择的特征子集及其相应的F1分数。我们发现,在大多数情况下,MFCC是所有类别音频摘录的主要特征。
  • 为了更好地理解为什么MFCCs是主要的声学特征,我们在图6中绘制了来自三个不同手机的给定音频摘录的MFCC。这三个手机的所有系数都以相同的顺序。我们可以看到,三部手机的系数的幅值分布情况差别很大,例如,三款手机的系数3和系数5差异很大。因此,MFCC非常适合用于fingerprint智能手机。
    在这里插入图片描述

6.4.2 使用扬声器进行Fingerprinting

我们使用三种不同类型的音频摘录来测试我们的指纹识别方法。每个音频样本录制10次,其中50%用于训练,其余50%用于测试。我们对三种不同类型的音频摘录重复此过程。表5总结了我们的发现(值以百分比报告)。我们只需使用从表4中列出的顺序特征选择算法获得的声学特征。从表5我们可以看到,我们可以成功地(最高F1得分为100%)识别哪个音频片段来自哪个智能手机。因此,只使用很少的声学特征,对不同供应商生产的智能手机进行指纹识别似乎是非常可行的。
在这里插入图片描述

6.4.3 使用麦克风进行Fingerprinting

与扬声器类似,我们发现不同供应商的麦克风属性差别很大。我们利用这个现象通过麦克风对智能手机进行指纹识别。同样的,从表6我们可以看到,我们可以获得97%以上的F1得分,这些结果表明,智能手机也可以通过麦克风成功地提取指纹。
在这里插入图片描述

6.4.4 使用麦克风和扬声器进行Fingerprinting

同上,从表7可以发现,我们可以取得100%的F1分数。因此,只能访问扬声器和麦克风的恶意应用程序可以成功地对智能手机进行指纹识别。
在这里插入图片描述

6.5 制造商和型号相同的设备

  • 在这一节中,我们使用同一家厂商生产的、型号相同的指纹智能手机。我们发现,对同一制造商和型号的智能手机进行指纹识别相对来说是一件更困难的事情。

6.5.1 特征探索

  • 首先,我们确定用于同一型号智能手机指纹识别的主要声学特征子集。表8显示了三种不同类型的录音片段的每个声学特征所达到的最高F1分数,该表还突出了我们的顺序特征选择算法选择的特征的支配子集。我们再次发现,MFCC是所有类别的音频节选的主要特征。
    在这里插入图片描述

6.5.2 扬声器的Fingerprinting

同上的探究,可得到如下表9,通过扬声器对智能手机进行指纹识别似乎也是一个可行的选择。
在这里插入图片描述

6.5.3 麦克风的Fingerprinting

同上的探究,可得到如下表10,通过麦克风对智能手机进行指纹识别似乎也是一个可行的选择。
在这里插入图片描述

6.5.4 麦克风和扬声器的Fingerprinting

同上,并且可看出,结合扬声器和麦克风的特性似乎是区分同一制造商和型号的智能手机的最佳选择。
在这里插入图片描述

6.6 所有设备的组合

  • 在这一部分,我们来看看我们收集的所有设备的指纹识别(包含相同型号和不同型号下的50部手机)。我们把麦克风和扬声器结合起来,生成智能手机的听觉指纹。首先我们进行声学特征探测,以确定主要特征。表12列出了我们的发现,我们再次看到,MFCC是所有类别音频节选的主要特征。
    在这里插入图片描述
    接下来,我们评估50部智能手机的指纹识别效果。表13显示了我们取得的指纹分析结果,我们发现50部智能手机的指纹识别率,都超过了98%。这个结果表明,一个恶意应用程序访问麦克风和扬声器可以很容易地进行智能手机识别。

6.7 敏感度分析

在这一部分中,我们调查不同的因素,如音频采样率、训练集大小、从音频源到录音机的距离、以及背景噪声如何影响我们的指纹识别性能。对于以下一系列实验,我们只关注来自同一供应商的指纹识别相似的智能手机(因为在前面的章节中已经证明了这是一个更困难的问题),并且考虑只使用扬声器进行识别,因为这适用于攻击者在公共场所最总设备的情况。我们也考虑只录制以下实验的手机铃声(即属于表3所定义的[器乐]类别的音频片段)。由于我们录制铃声,我们使用的特征突出表8下的’Instrumental’类别。

6.7.1 采样率的影响

  • 可以看出,随着采样频率的降低,精度/召回率也会降低,这是可以理解的,因为采样频率越高,我们对音频样本的信息就调整得越好。然而,目前大多数手持设备的默认采样频率为44.1kHz,一些最新的型号甚至采用更高的采样率。因此,我们相信采样率不会对我们的指纹识别方法构成障碍,并且在未来我们将能够通过使用更高的采样率来捕捉更多的细粒度变化。
    在这里插入图片描述

6.7.2 调整训练规模

接下来,我们考虑分类器在有限训练数据下的性能。对于这个实验,我们将所有样本的训练集大小从10%变化到50%(即每类1至5个样本)。表14显示了随着训练集大小的增加F1分数的变化情况。我们看到,随着训练集大小的增加,F1分数也增加,这是预期的。然而,我们看到,每类只有三个样本的时候,可以达到F1的评分超过90%,这表明我们不需要太多的训练样本来训练一个良好的预测模型。
在这里插入图片描述

6.7.3 扬声器和录音机之间的距离

表15总结了在智能手机和麦克风之间的距离不同时获得的F1得分,我们可以看到,随着距离的增加F1得分减少。然而,我们看到,即使两米的距离,我们也可以达到93%的F1得分,这表明我们的设备只能在一定距离内使用任何商用麦克风。然而,使用专门的麦克风,可以帮助提高指纹精确度,甚至在更远的距离。
在这里插入图片描述

6.7.4 环境背景噪声的影响

表16列出我们正在考虑的四种不同情况。为了模拟这样的环境,在录音时将外部扬声器(2个)放置在智能手机和麦克风之间。外部扬声器不断重放各自的环境噪音的背景。我们认为从音频源到录音机的距离是2米。表16显示我们的调查结果,可以看到,即使存在各种背景噪声,我们可以达到F1评分超过91%。
在这里插入图片描述

7 讨论和限制

  • 我们用52个不同厂商生产的设备进行了实验,一个较大的目标设备池可能会降低准确性,也就是说,不同设备类型之间的区别更加明显。
  • 音频指纹可以与其他技术结合使用,如加速度指纹识别技术,以更好地区分设备。
  • 大多数实验都是在实验室进行地,然而,我们研究了环境背景噪声的影响,仍然发现我们的方法是适用的。
  • 我们的实验中使用的所有手机都不是完好无损的,个人麦克风和扬声器的一些特性可能是由于每个设备的磨损不均匀造成的,然而,我们相信这也可能发生在现实世界中。

8 结论

本文证明通过板上的声学元件如麦克风和扬声器来识别智能设备是可行的。为了证明这个方法的可行性,我们从52部不同品牌的智能手机上收集指纹,我们的研究表明,通过麦克风和扬声器成功识别智能手机是可能的,不仅在受控环境下,而且在存在环境噪音的情况下,我们相信我们的发现是用过声学通道理解指纹智能设备的全部后果的重要步骤。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值