Voice2Series: Reprogramming Acoustic Models for Time Series Classification-CSDN博客

本文链接：https://blog.csdn.net/weixin_48018951/article/details/128936651

原文地址：https://proceedings.mlr.press/v139/yang21j.html
代码地址：https://github.com/huckiyang/Voice2Series-Reprogramming

摘要

在本文中，我们提出了端到端的方法Voice2Series (V2S)，通过输入转换学习和输出标签映射，对声学模型进行时间序列分类重新编程。利用大规模预训练语音处理模型的表示学习能力，在30个不同的时间序列任务上，我们表明V2S在19个时间序列分类任务上执行有竞争力的结果，研究结果为时间序列分类提供了新的有效手段。

创新点

本文的主要贡献如下。

我们提出了V2S，一种新颖而统一的方法，用于对不同时间序列分类任务的大规模预训练声学模型进行重编程。据我们所知，V2S是第一个支持时间序列任务重编程的框架。
在标准UCR时间序列分类基准上进行测试(Dau等人，2019)，V2S在30个数据集中的19个数据集上表现具有竞争力，这表明V2S是一种潜在的有效时间序列分类方法。
在第4节中，我们开发了一个理论风险分析，通过源风险和表示对齐损失来表征目标任务上重编程的性能。在第5节中，我们还展示了我们的理论结果如何用于评估重编程的性能。此外，我们通过听觉神经显着图和嵌入可视化提供V2S的解释。

模型框架

提出的Voice2Series (V2S)框架的示意图：(1)可训练的重编程层;(2)预训练声学模型(AM);(3)源-目标标签映射函数。
模型框架

方法

文中所用符号描述如下

输入数据重编码

定义在这里插入图片描述表示来自于目标域且具有个时间特征的单变量的时间序列输入。我们的目标是找到一个可学习的输入变换函数，该函数对所有的目标数据输入是通用的，该函数的作用是重编程到源数据空间

其中Pad(xt)是一个零填充函数，输出一个维度为dS的零加时间序列。M∈{0,1}dS是一个二进制掩码，表示xt在其加零的输入Pad(xt)中的位置，其中如果xt存在，则M的第i个条目为0(表示该条目不可重编程)，否则为1(表示该条目未被占用，因此可重编程)。

声模型V2S重编程(AMs)

我们选择一个预先训练好的深层声学分类模型作为源模型(fS)进行模型重编程。我们假设源模型的最后一层为softmax，并为每个源标签输出非负的置信度分数(预测概率)。用转换后的数据输入H(xt;θ)时，可以得到源模型fS在重编程目标数据样本xt上的类预测，表示为
在这里插入图片描述
然后，我们分配一个(多对一)标签映射函数h来将源标签映射到目标标签。对于目标标签yt∈yt，它的类预测将是分配给它的源标签集上的类预测的平均值。我们用P (h(YS)|fS(h(xt;θ)))表示目标任务在相关的ground-truth目标标签yt = h(YS)上的预测概率。最后，我们通过优化以下目标来学习数据输入重编程的最佳参数θ∗:
在这里插入图片描述
在实践中，文中发现与一对一标签映射相比，多对一标签映射可以提高重编程的准确性，文中提供了一个具体的例子来说明V2S重编程是如何使用多对一标签映射的。

考虑一个场景，即为 ECG 分类任务重新编程spoken-term AM模型。选择将源任务中的多个（但不重叠）类（例如，AM 模型中的“是”、“否”、“向上”、“向下”）映射到目标任务中的每个类（例如，“ECG 类中的“正常”或“缺血”），这会产生一个特别的映射函数h 。定义B表示映射到目标标签yt的源标签集合。然后，基于 V2S 重编程方法对yt的预测是对指定源标签的聚合预测，定义为
在这里插入图片描述