【论文阅读】-- Comparing Similarity Perception in Time Series Visualizations（比较时间序列可视化中的相似性感知）

子衿JDD

于 2024-06-21 21:45:05 发布

阅读量1.1k

点赞数 42

分类专栏：时序数据可视化论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_46112690/article/details/139855798

版权

论文阅读同时被 2 个专栏收录

40 篇文章 3 订阅

订阅专栏

时序数据可视化

27 篇文章 0 订阅

订阅专栏

在这里插入图片描述

期刊: IEEE Trans. Vis. Comput. Graph.（发表日期: 2019）
作者: Anna Gogolou; Theophanis Tsandilas; Themis Palpanas; Anastasia Bezerianos

在这里插入图片描述

摘要

许多处理时间序列数据的领域专家面临的一个共同挑战是如何识别和比较相似的模式。此操作是高级任务的基础，例如检测重复出现的现象或创建相似时间序列的集群。虽然存在自动测量来计算时间序列相似性，但通常需要人工干预来直观地检查这些自动生成的结果。可视化文献已经研究了相似性感知及其与折线图自动相似性度量的关系，但尚未考虑替代视觉表示（例如地平线图和色域）是否会改变这种感知。受神经科学家如何评估癫痫样模式的启发，我们进行了两项实验，研究这三种可视化技术如何影响脑电图信号的相似性感知。我们试图了解从自动相似性度量返回的时间序列结果是否以相似的方式感知，而与可视化技术无关；以及人们认为每个可视化的相似之处是否与不同的自动测量及其相似性约束相一致。我们的研究结果表明，地平线图与相似性度量相一致，与其他两种技术相比，它允许时间位置或速度的局部变化（即动态时间扭曲）更多。另一方面，地平线图与对幅度和 y 偏移缩放不敏感的度量（即基于 z 归一化的度量）不一致，但折线图和色域的情况似乎相反。总的来说，我们的工作表明，可视化的选择会影响我们认为相似的时间模式，即时间序列中的相似性概念并不是独立于可视化的。

关键词：时间序列、相似性感知、自动相似性搜索、折线图、地平线图、色域、评估。

1 引言

多个脑电图传感器，查找并比较这些模式。时间序列是数据点的时间序列，源自对一系列自然过程或人类活动的测量和记录。一个城市每小时的气温、一个人每天的血氧饱和度以及脑电图 (EEG) 信号都是时间序列数据的示例。大型时间序列集合变得越来越普遍[46]，它们的分析涉及各种各样的任务，例如搜索模式模板或异常、识别重复出现的波形或将时间序列子序列分类为相似模式的簇，所有这些都涉及时间序列之间相似性的概念。数据挖掘研究已经开发了多种技术来自动化此类任务[23]。然而，在许多情况下，自动化技术无法产生令人满意的结果，因此专家依靠视觉分析工具来执行任务。例如，在脑电图数据中，比较时间序列来识别癫痫样放电是很困难的[35]。这些时间模式有多种不同的形式，对于个体患者来说是非常特定的，而在正常的背景活动中则出现非常相似的模式。尽管有几种技术声称可以自动检测此类模式 [32]，但医学专家仍然目视检查患者的脑电图数据。这个过程特别耗时，因为专家需要目视扫描多个脑电图传感器记录的大量时间信号，找到并比较这些模式。

在这种情况下，使用可视化技术来准确有效地传达时间序列之间的相似模式变得很重要。时间序列通常表示为折线图，但信息可视化领域的大量工作已经研究了替代视觉编码，例如地平线图 [29, 34, 47, 50, 53] 和色域 [2, 15, 45, 53, 59]。该文献重点关注需要估计的基本视觉任务，例如平均值估计或点比较和辨别任务。视觉模式匹配是一项更复杂的任务，需要同时比较大量特征，并且可能包含许多前面提到的任务。因此，之前的结果很少说明人们在使用不同的时间序列可视化时如何访问两个或多个时间序列的相似性。

在本文中，我们研究了线条和颜色编码技术如何影响我们认为相似的时间序列。具体来说，我们展示了两个实验室实验的结果，比较了三种代表性技术：(1) 折线图、(2) 水平图和 (3) 色域。除了任务表现之外，我们还评估参与者答案的可靠性（或主观性），并检查上述技术是否会惩罚或有利于某些应用领域通常需要的相似性不变性 [6,16,21]。例如，两个模式可能被认为是相似的，无论它们的幅度（幅度不变性）或其沿时间维度的拉伸（时间尺度不变性）如何。我们想了解这三种可视化是否夸大或淡化了这种变形。为此，我们根据众所周知对时间序列的某些属性不变的代表性相似性距离度量来评估时间序列之间相似性的感知[6]。我们的第一个实验通过将相似性感知与欧几里德距离（ED）和动态时间扭曲（DTW）进行对比来研究局部尺度（或扭曲）不变性。我们的第二个实验通过对比有和没有 z 归一化的相似性感知来研究幅度和偏移不变性。

与之前使用人类草图 [21, 41] 或人工生成 [16] 查询模式的研究相比，我们实验中的查询是从带注释的脑电图数据中提取的，并表达了真正感兴趣的模式。一个主要挑战是如何导出代表真实数据和任务的模式，但也突出了测试的相似性度量的差异。我们通过选择查询模式来解决这一挑战，其中不同的距离相似性度量会产生明显不同的答案。这使我们能够评估每种视觉编码技术的相似性感知是否对信号中的扭曲以及幅度和偏移变形保持不变。

总而言之，这项工作是第一个研究人类如何通过行编码和颜色编码可视化技术感知时间序列之间的相似性的工作。我们的结果回答了两个主要问题：（1）使用不同的可视化技术在视觉上识别相似的模式有多容易或困难； (2)这些技术的相似性感知是否对于代表性信号变形是不变的。

2 相关工作

我们现在讨论之前关于时间序列可视化、搜索和感知的工作，特别是它们的相似性。

2.1 时间序列可视化

自从 Lambert 和 Playfair 在 18 世纪使用第一个折线图 [63] 以来，针对时间序列引入了几种可视化（有关面向时间的可视化的概述，请参阅 [1, 43]）。这些技术的目标各不相同，例如一些技术传达数据的周期性性质（例如，[8, 66]），其他技术通过聚类聚合多个时间序列（例如，[64]），还有一些技术专注于研究如何交互地探索并比较一组时间序列（例如，[67, 68]）。

受到广泛关注的一方面是时间序列可视化的可扩展性。最古老的可视化方法之一是以小倍数显示折线图 [63] 或迷你图 [42]。最近的方法扩展了折线图表示本身。例如，双色调伪着色和水平图 [50, 53] 将折线图中值的垂直范围分成几个垂直带，然后对这些带进行着色和叠加。这种表示节省了垂直空间，同时保持了整体线条形状。其他人使用基于颜色的表示（通常称为热图或色域）来解决可扩展性。这些可视化不是使用位置来编码随时间变化的值范围（如折线图所示），而是使用垂直色带，其颜色饱和度或亮度对值进行编码。这种方法在许多系统中都可以看到[2,15,45,53]，并且可以很好地扩展多个这样的小高度序列可以堆叠在一起[37,59]。正如 Javed 等人所说。 [34]，为了表示多个时间序列，上述表示分割了空间（主要是垂直的）并尝试优化每个单独时间序列的垂直足迹。

或者，多个可视化可以占据相同的空间[34]。多个折线图（通常具有不同的颜色）可以叠加，也可以被试图优化空间的面积图的变体所取代（例如，堆叠[11]或编织[34]图）。由于混乱，这些空间共享技术中的大多数不能很好地适应大量时间序列。此外，没有共同基线的堆叠变体可能会使确定相似性等比较任务变得复杂。我们专注于分割空间的技术，因为我们相似性搜索的激励场景（参见第 3 节）表明能够同时查看大量时间序列非常重要。

2.2 时间序列感知研究

许多感知研究比较了各种任务下的不同时间序列可视化，特别是使用位置或颜色编码的可视化。

科雷尔等人。 [15] 研究了在估计平均值时使用位置（折线图）或颜色（色域）表示的效率。他们发现，使用色域时，人们更擅长估计高级统计概述任务，例如平均值。阿尔伯斯等人。 [2] 比较了同时使用位置和颜色编码（以及其他变体）的八种不同的时间序列可视化。他们发现位置可视化对于需要点比较（例如最大值）的任务更有效，而颜色对于摘要比较（例如范围、平均值）再次表现更好。

福克斯等人。 [24] 研究了以小倍数呈现的字形。位置/长度和颜色是用于不同字形设计的变体。他们没有测试平均任务，但他们发现对于峰值和趋势检测任务，线字形效果最好。

对于位置编码，Heer 等人。 [29]将折线图与地平线图的变化进行比较，以进行值比较和估计任务。他们主要关注图表大小和分层的影响，发现对于小图表大小，水平图比折线图表现更好。后来，佩林等人。 [47]通过允许交互式调整带基线来提高地平线图的效率。正如所讨论的，Javed 等人。 [34]比较了在峰值、趋势和区分任务下分割或共享同一空间的可视化。他们发现，虽然共享空间（叠加）技术对于少量时间序列效果很好，但分割空间技术对于大量时间序列效果更好，并且水平图在判别任务方面比折线图更快，但在峰值和趋势检测方面速度较慢。

相似性搜索可能涉及点比较（例如寻找最大值）和概述比较（例如比较时间线的整体形状）。因此，尚不清楚基于位置或基于颜色的可视化是否最适合相似性任务。在这项工作中，我们重点关注三种依赖于位置（折线图）、颜色（色域）或两者（水平图）的可视化技术。当呈现为小倍数时，这些技术还可以很好地扩展到多个时间序列。

2.3 时间序列相似度

分析师通常将感兴趣的子序列定义为查询，并使用自动化工具来搜索相似的模式。我们讨论相似性搜索算法的数据挖掘研究，然后讨论如何指定相似查询和评估结果的可视化研究。

相似度算法。数据挖掘研究提出了大量评估两个时间序列之间距离的算法（距离度量）。丁等人。 [18]将它们分为四类。最简单的类型是锁步度量，例如欧几里德距离（ED）[22]，它在两个时间序列之间执行逐点值比较。 ED 可以与数据归一化相结合，通常称为 z 归一化 [26]，它认为振幅和 y 偏移量可能不同的相似模式。另一个常用的组是弹性度量，它允许在搜索相似的时间序列时水平“拉伸”和/或“压缩”时间序列。例如，动态时间扭曲（DTW）[7] 考虑了速度变化或时间偏移（时间扭曲）的相似序列。其他类别不太常见，包括基于阈值的更专业的测量，例如 TQuEST [4]，或基于模式的测量，例如 SpADe [14]。

为了评估相似性度量，Ding 等人。 [18]通过使用九种不同相似性算法的距离执行最近邻分类（1NN），然后将它们的分类精度与预先标记的类别进行比较[13]。根据他们的分析，他们得出的结论是，没有更好的方法，因为它们的分类准确性取决于数据集及其域。他们的发现是，在小型数据集上，DTW 比 ED 更准确，但是，随着数据集大小的增加，它们的准确度会收敛。在我们的工作中，我们关注 DTW、ED 及其变体，因为：（i）它们是可视化和数据挖掘文献中最常用的度量； (ii) 它们是高效的 [16, 18]； (iii) 它们适合我们的激励领域（参见第 3 节）。

交互式查询。人们对时间序列的交互式探索和查询越来越感兴趣。早期的示例通过视觉过滤来表达查询。例如，TimeSearcher [30] 允许用户通过“时间框”选择（矩形区域）来指定他们的查询。在查询线[52]中，用户创建线段来定义查询的过滤器。后来的方法侧重于算法相似性，例如通过自动检测特定的“图案”、简单的形状（例如用户可以组合形成查询的尖峰或水槽）[27]。其他人 [44] 研究如何自动提取语法来近似表达时间序列并简化对草图查询的匹配搜索，或者他们专注于相似性搜索的算法性能和可扩展性 [69, 70]。最近，Qetch [41] 提出了一种基于草图的查询系统和一种与尺度无关的相似性算法。除了少数例外[41]，这些方法尚未通过用户研究进行评估。

另一种方法是使用数据挖掘社区开发的相似性算法。布奥诺等人。 [10] 使用户能够交互式地选择现有时间序列的一部分来形成查询，然后使用 ED 与可能的结果进行匹配。其他人通过草图定义查询模式[16,31,41,54,65]。大多数基于草图的系统使用 ED [10,31]，但最近的工作 [16,41,54] 考虑了额外的措施。所有这些方法都依赖于折线图视觉表示。虽然我们在本文中不研究查询，但这一工作激发了我们的研究，因为我们想了解人们如何评估查询结果的相似性。

相似性感知研究。很少有研究调查用户对相似性结果的主观评价。 TimeSketch [21] 提出了一种众包程序，众包工作者对时间序列进行排序。它们与一小组草拟查询的相似性。目标是产生人工生成的排名，然后将其与相似性算法的排名进行比较。他们发现 DTW 最接近人类排名，ED 表现较差或相似，SpADe 对于小型查询表现不佳。此过程有助于得出人工驱动的相似性度量，并提供有关它们与算法度量有多接近的见解，但尚不清楚它如何应用于非草图查询。 Mannino 和 Abouzied [41] 通过再次使用手工绘制的简化查询模式，将他们自己的匹配算法与 ED 和 DTW 进行比较。他们的研究表明，他们的匹配算法的结果排名高于 DTW（和 ED），但侧重于一小组草图查询，而不是像我们的情况那样关注大量实时序列模式。 Correll 和 Gleicher [16] 反过来检查了相似性感知对于信号变形是否是不变的 [6]。特别是，他们研究了人类如何评估简化模式（查询）与以不同方式转换的原始查询的目标之间的相似性。他们的结果表明，大多数转换并没有降低相似性，并且没有任何一种算法可以与人类的判断相匹配。这项工作再次使用折线图可视化，同时我们考虑不同视觉表示之间的相似性。我们在第 4 节中解释了这项研究的更细微差异。

3 动机

我们的动机源于一组神经科学家向我们提出的一个实际问题，他们是分析脑电图记录以诊断癫痫事件的专家。我们的实验任务的灵感来自于这些专家用来直观分析脑电图数据的用户界面。我们的实验数据池也是他们直接提供的。

在两次 1 小时的会议中，我们分别会见了来自 ICM 大脑和脊柱研究所 MEG/EEG 中心的两名和三名神经科学家。他们正在寻找改进“癫痫样放电”检测的工具。这些异常模式与各种认知障碍和癫痫发作的复发有关[60]。它们通常不是孤立的病例，而是可能表现为周期性模式[36]，其周期性可能因患者而异。

癫痫样放电是一种以 20-70 毫秒 (ms) 的尖峰为特征的事件，通常随后是持续 70200 ms 的尖锐波 [17,56,57]。与对患者脑电图信号产生较大干扰的癫痫发作相反，癫痫样放电特别难以检测。尽管数据挖掘研究已经开发出自动检测其模式的算法[32]，但根据我们的专家的说法，此类算法会导致许多误报，并且在实践中没有用处。这个问题的主要原因是癫痫样放电具有一系列不同的形式，并且由于心脏、眼睛或肌肉的脉搏等规律性伪影而常常类似于正常的背景活动[35]。此外，不同患者的模式差异很大，因此机器学习方法无济于事。

由于这些原因，医学专家不信任自动化技术，仍然使用如图 2 所示的工具以视觉方式扫描数据以识别异常事件。这可能是一项非常繁琐且复杂的任务。专家需要目视检查大约 300 个传感器和每个传感器的数千个数据点（参见第 4.2 节）。即使他们找到候选事件，他们也经常需要咨询额外的资源（例如，放置在头皮上的电极位置的 3D 表示）来做出决定并注释他们的数据。
在这里插入图片描述

为了帮助我们的用户，我们试图了解他们是否有可能首先手动识别少量癫痫样放电，并将它们用作自动检测类似子序列的模式。然后，专家们可以目视验证它们是否相似，并确定它们是否也是潜在的排放物。为此，我们要求提供有关图案中哪些类型的变化或变形可以指示类似信号的信息。

专家们能够口头粗略地描述他们正在寻找的信号。他们解释说，尖峰和波的持续时间可能会有所不同，甚至对于单个患者来说也不一致，因此受压或压缩的信号是令人感兴趣的（对时间扭曲不变）。当被问及时，他们还解释说，图案的高度可能因患者而异（振幅不变）。但他们无法说明尖峰和放电的幅度在多大程度上重要，即如果幅度不同，信号在多大程度上可以被认为是相似的。在某些情况下，我们得到的响应是尖峰可能太小（即，在某些情况下，幅度可能发挥作用），但这只能通过查看背景噪声（尖峰之前和之后的信号部分）来确定。或者说，为了解释峰值，他们需要访问其他传感器的视图。背景对于检测此类放电的重要性已有充分记录[17,56,57]。这些都是非常微妙的属性，需要根据具体情况进行评估，并进一步强调人工干预的必要性。

正如我们的专家所解释的，识别这些类型的放电需要大量的经验，并且他们的一些决定仍然是主观的。过去的工作表明，即使是不同专家之间的一致性也可能特别低[35]。虽然这项任务依赖于丰富的经验并涉及大量的领域知识，但它仍然提出了一个有趣的问题。可视化实际上是否可以帮助观众理解哪些时间模式是相似的，或者感兴趣的不变性的某些方面是否没有得到很好的传达？我们着手研究不同类型的可视化是否以类似的方式传达或弱化不变性，或者是否需要适当地选择可视化。

4 目标和研究策略

鉴于像神经科学家这样的用户依赖可视化工具来做出决策，了解可视化如何影响被认为相似的时间序列非常重要。专家使用的相似性标准可能很复杂且高度不确定，并且信号变形满足此类标准的程度通常取决于可能因情况而异的阈值。因此，我们特别想知道哪些视觉编码对时间序列信号的变形敏感，以及哪些视觉编码对这些变形“不变”。这些知识可以帮助我们设计更好地匹配不同应用领域所需的不变性的工具。它还可以通过提出替代可视化来帮助我们支持用户的任务，因为不同的可视化可能会强调（或弱化）信号中不同变形的感知。

4.1 实验方法

正如第 2 节中所讨论的。 2、之前的工作从算法的角度研究了变形不变性。巴蒂斯塔等人。 [6]列举了几种类型的不变性：时间扭曲、均匀缩放、幅度和偏移、相位、趋势、复杂性等。Correll和Gleicher[16]考虑这些类型的不变性来设计一个足够灵活的基于草图的查询系统以适应具有不同不变性特征的算法。然后，他们展示了一项实验结果，该实验研究了使用折线图时，相似性感知对于不同变形的敏感度或不变性。

虽然受到这项研究的启发，但我们的目标有所不同。我们感兴趣的是不同的可视化如何影响相似性感知，因此我们将可视化技术作为我们的主要实验因素。尽管我们也试图了解不同的技术如何支持不变性，但我们控制不变性的方式是不同的。特别是，我们的方法基于这样的观察：信号变形在真实数据中自然出现，采用无法用人工创建的模式轻松复制的复杂形式。因此，与 Correll 和 Gleicher [16] 相反，我们不直接控制信号变形作为实验因素。在 Correll 和 Gleicher 的实验中，感兴趣的模式采用基本形式（向上和向下的线、正弦波、柏林噪声等），并沿时间维度均匀变换。这种方法可以实现更严格的控制并简化实验设计，但无法捕捉人们比较真实数据模式的方式。例如，当确定两个时间序列是否相似时，用户可能必须评估信号小部分中发生的时间拉伸或垂直移位以及其他变形。在这种情况下，对相似性的感知可能依赖于非常微妙的信号特征的混合。

考虑到这些因素，我们决定根据上一节中描述的应用领域和场景，使用真实数据来生成实验任务。我们还决定关注与这些数据最相关的不变性。

4.2 数据集

我们使用了我们的合作神经科学家提供给我们的真实数据集（参见第 3 节）。该数据集包含来自放置在患者头皮上的 295 个电极和传感器的测量结果：其中 151 个信号来自脑磁图 (MEG)，33 个来自脑电图 (EEG)，39 个来自颅内脑电图 (iEEG) 传感器。测量持续六秒，并以 1250 Hz 的采样率捕获。我们的所有数据均来自同一患者的 154 个此类记录，每个记录包含 295 个长时间序列（每个传感器 1 个），每个序列包含 7500 个数据点（总共约 3.41 亿个数据点）。我们使用该数据集来生成实验试验。

为了理解相似性，我们需要将时间序列与有趣的时间模式进行比较。如何确定有趣的模式是一个难题。合成模式可能会导致看起来不自然的结果，而从真实数据集中随机选择可能会导致空的或有噪声的模式。 Eichmann 和 Zgraggen [21] 通过收集非专家绘制的草图来解决这个问题。然而，这种方法仅适用于可以捕获数据中真实模式的复杂性的简化的人类创建的模式。

我们的数据集提供了更好的解决方案。神经科学家通过在与潜在的发作间期癫痫样放电相对应的时间点添加标记来手动注释该数据集。因此，数据集已经包含真正感兴趣的模式。我们使用这些带注释的事件周围的区域作为我们的相似性搜索算法的潜在查询。该数据集总共包含 205 个注释。

4.3 控制不变性

在考虑与潜在查询进行比较的时间序列时，我们重点关注包含对我们的专家来说很重要的变形的时间序列。他们指出（参见第 3 节），不变的模式，即允许 (i) 时间扭曲和 (ii) 幅度和偏移的变化是令人感兴趣的。时间扭曲不变性很重要，因为 EEG 信号通常在瞬态或节律活动中变化 [40]，例如，它们可能包括频率低于 4 Hz 的慢 δ 波，以及频率大于 13 Hz 的快速 β 波。幅度和偏移不变性很重要，因为专家通常对根据尖峰的形状进行聚类感兴趣，而与垂直高度或偏移无关[51]。其他不变性，例如噪声和趋势，通常是不需要的。医学专家通过应用滤波器来预处理数据，以消除信号中的噪声或长期附加趋势。最后，全局不变性（例如统一缩放）不太有趣，因为它们可以由独立于可视化的全局缩放工具支持。

由于我们不将不变性视为实验因素，因此我们不会直接改变它们的水平。然而，我们通过使用众所周知的支持它们的相似算法来控制它们（见图 3）。为了保证时间扭曲不变性，我们使用动态时间扭曲（DTW）[7]。对于幅度和偏移不变性，我们使用 z 归一化 [26]。这两种算法都很成熟，并在数据挖掘文献中广泛使用[6]。我们不考虑 Hough 变换 [16]，因为它结合了 DTW 和 z 归一化的不变性。我们通过要求参与者在上述算法之间进行选择，将上述算法的结果与简单欧几里德距离（ED）的结果进行对比。我们注意到，在实验中，参与者看到的是原始时间序列及其值（而不是相似性算法使用的变形版本）。

这种方法与 Eichmann 和 Zgraggen [21] 的方法有相似之处，后者比较了人们如何对衡量相似性的多种算法的结果进行排名。然而，对于许多查询，相似性算法可能返回相同或相似的结果。为了解决这个限制，我们开发了一种自动机制来选择算法产生不同结果的查询。这些情况特别有趣，因为（i）它们更好地捕捉算法的差异，（ii）它们代表了最困难的情况，对此仔细的目视检查可能更为关键。这种方法还使我们能够在实验环境中更清楚地观察潜在不变性假设的影响。

与之前的研究相比，我们的方法的另一个区别是我们还衡量不同参与者对其评估的同意程度。衡量一致性对于评估相似性感知非常重要，因为它使我们能够以客观的方式评估参与者答案的主观性和多样性水平。

5 实验

我们进行了两项实验来研究使用不同的时间序列可视化（折线图 (LC)、地平线图 (HG) 和色域 (CF)）是否会改变时间序列是否被视为相似。如果数据的不变性影响了这种看法。 Exp-1 通过要求参与者比较 ED 和 DTW 的结果来研究时间扭曲不变性。 Exp-2 通过要求参与者比较有和没有 z 归一化的 ED 结果来研究振幅和偏移不变性。这两个实验中的设置和程序方面都很常见，因此除非明确说明，否则我们将它们放在一起。

5.1 参与者及设备

共有 36 名志愿者，年龄 23 至 42 岁（M = 29，SD = 5.6）参加了这两个实验，没有金钱补偿。我们从当地大学邮件列表中招募了 Exp-1 的 18 名参与者（七名女性）和 Exp-2 的另外 18 名参与者（三名女性）。我们的参与者来自不同的科学背景，包括计算机科学、电气工程、物理和金融领域的学生和研究人员。由于我们的研究本质上是感性的，因此我们选择了一般参与者而不是专家。

对于这两个实验，我们都使用了 24 英寸 DELL 显示器，分辨率设置为 1920 × 1080。用户界面使用 Javascript 和 D3.js 实现，并设置为全屏。

5.2 可视化技术

相似性搜索可能涉及点比较（例如寻找最大值）和概述比较。因此，尚不清楚基于位置或基于颜色的可视化将如何影响它（参见第 2.2 节）。因此，我们重点关注三种依赖于位置（LineCharts - LC）、颜色（Colorfields - CF）或两者（HorizonGraphs - HG）的可视化技术。当以小倍数排列时，这些可视化也可以缩放 [37,50,53]，例如，为了支持上下文（参见第 3 节）。我们解释了如何用这些可视化来表示时间序列。

折线图 (LC ) 将时间映射到水平轴，将值映射到垂直轴。在我们的实现中，y 轴不可见，以防止参与者尝试读取精确值。尽管如此，所有时间序列都有一个共同的尺度来帮助参与者比较时间序列。零值位于分配给每个时间序列的区域的中间。我们选择了线变化而不是填充面积图，因为它是脑电图可视化工具 [35] 和我们自己的专家常用的。它也被用于之前关于时间序列相似性的研究 [21, 41]，因此可以作为基线。

地平线图 (HG ) 地平线图通过特定于每个时间序列的基线最有效地利用空间，例如，当基线是时间序列值范围的平均值时。然而，不同的基线会使相似性比较变得具有挑战性，这就是为什么我们在实验中对所有时间序列使用公共基线，设置为零。当增加带的数量时，这些图的性能似乎会恶化[29]，因此我们使用了两个正带和两个负带的变体，与之前的研究类似[34]。我们还遵循使用红色变体（#ff9999、#b30000）表示负值、蓝色变体（#bdd7e7、#08519c）表示正值的惯例 [29, 50]，并为最远形式的带分配较暗的色调基线（最消极和最积极）。

色域 (CF) 先前的工作考虑两种 [3, 45] 或更多颜色 [53] 的色阶。我们在实验中选择了简单的两种色标。我们再次选择红色调 (#ff0000 ) 表示最消极的值，选择蓝色 (#0000ff ) 表示最积极的值。使用纯色调来最大化两种极端颜色 2 之间的距离。

这三种可视化以不同的方式利用空间。在我们的实验中，我们为所有技术的每个时间序列分配了相同数量的垂直空间，这与之前的研究一致[34]。在考虑其他因素（例如垂直空间）之前，首先了解实际视觉编码如何影响人类的相似性感知非常重要。

我们选择了相当大的垂直尺寸（60 像素），以确保时间序列在所有可视化中清晰可见。对于 LC ，我们将时间轴的位置固定在其可用空间的中间，因为我们的数据包括正值和负值。由于它们的编码，HG 可以更有效地利用垂直空间，因为它们在同一空间中叠加负值和正值。 CF 不一定需要那么多的垂直空间 [37]，但这个尺寸可以确保颜色足够大以便清晰可见 [58]。

我们将时间序列的水平尺寸固定为 501 个像素，每个像素编码一个时间点。在实践中，用户（例如医学专家）通过保持垂直空间固定并压缩或解压时间轴来探索不同粒度的数据。尽管如此，我们决定避免过度绘制和聚合等可能影响相似性感知的因素。

5.3 测量相似度的算法

参与者必须评估从数据集中提取的时间序列的相似性（第 4.2 节）。对于每次试验，我们确定一个时间序列作为查询，并确定另外四个时间序列作为可能的匹配。这些匹配是使用自动相似性算法从数据中提取的。这两个实验都使用简单的欧几里德距离 (ED) 作为对照，但每个实验都研究了不同的不变性：

Exp-1（时间扭曲）：我们通过对比 ED 与 DTW 来检查时间扭曲不变性。 DTW 的一个主要参数是扭曲大小，即算法搜索最佳匹配点的 x 偏移窗口大小。据丁等人介绍。 [18]，限制扭曲大小通过降低计算成本并实现有效的修剪来提高算法的速度。我们将扭曲窗口大小设置为时间序列长度的 10%，因为这是文献中最常用的大小，较大的大小可能会损害准确性结果 [49]。

Exp-2（Z 归一化）：我们通过对比没有 (ED) 或结合 z 归一化 (NormED) 的欧几里德距离结果来检查幅度和 y 偏移不变性 [26]。对于第二种情况，时间序列被 z 归一化以获得相似的幅度和 y 偏移，同时保持其模式的形状。然后，ED 计算两个归一化时间序列之间的距离。

查询及其结果匹配都被可视化，没有任何变形，例如算法为访问相似性而执行的变形。

5.4 任务

在这两个实验中，参与者必须使用三种可视化之一来做出主观相似性判断。他们看到了五个时间序列，其中一个被标记为“查询”。他们的任务是选择其他四个时间序列中哪一个与查询最相似（图 4）。这四种可能的选择是从上面提出的相似性算法返回的结果。在 Exp-1 中，两个选择来自 ED，两个选择来自 DTW。在 Exp-2 中，两个选择来自 ED，两个选择来自 NormED。有关试验生成的详细信息在 c 中进行了描述。参与者通过单击他们选择的时间序列（该时间序列突出显示）给出了答案，并按 5 分制（“非常低”到“非常高”）对自己的置信度进行了评分。尽管任务没有时间限制，但我们指导参与者尽可能快速、准确。
在这里插入图片描述

参与者在所有可视化中执行相同的任务，但我们随机化了五个时间序列的垂直顺序，以免通过呈现始终更接近查询的结果来支持一种度量。我们还确保时间序列不会直接位于另一个之下，以确保某些相似性算法（特别是 DTW）不会受到惩罚。这样参与者就无法对水平对齐的数据系列进行低水平的逐点比较。相反，他们对时间序列是否相似做出了更高层次的主观判断。序列既不垂直也不水平对齐的事实与我们领域专家的做法一致，他们经常比较不同垂直位置出现的传感器或试验的模式，以及不同患者在不同时间和不同频率出现的模式（水平位置）。

请注意，该任务是对相似性的主观评估，因此没有正确或错误的答案。我们的目标是了解某些可视化是否支持某些自动相似性度量及其在感知相似性方面的不变性。

5.5 试验生成

所有试验都是根据第 2 节中描述的带注释的数据集生成的。 4.2.对于每次试验，我们必须提取一个时间序列作为查询，并提取四个附加序列作为可能的匹配。其中两个序列是每个实验研究的两种不同算法的最佳答案：ED 与 DTW (Exp-1) 以及 ED 与 NormED (Exp-2)。另外两个序列是局外人，由相同的两个算法产生，但排名较低。

正如所讨论的（第 4.3 节），一个挑战是如何区分相似性搜索算法，因为它们可能返回相似的结果。因此，我们选择了查询提取过程，以确保算法返回不同的最佳答案。

第 1 步：创建候选查询。我们从手动注释的标记开始提取可能的查询。癫痫样放电持续时间不到 250 毫秒 [56]，但我们在每个标记周围提取了 401 毫秒的更大窗口（左右各 200 毫秒）。这确保了查询中包含完整的感兴趣模式，并且序列包含背景活动（上下文），这对于评估相似性非常重要。我们从 205 个注释中提取了 202 个候选查询。我们排除了三个非常接近录音开头或结尾的内容（因此尺寸较小）。

第 2 步：查找相似子序列。对于每个候选查询，我们使用两种感兴趣的搜索算法运行相似性搜索：Exp-1 中的 ED 与 DTW，以及 Exp-2 中的 ED 与 NormED。我们收集了每种算法的前 100 个最近邻 (NN) 答案。我们将搜索重点放在与查询相同的 iEEG 传感器上，但答案可能是不同记录的一部分。我们扩展了早期子序列修剪的优化算法[48]以支持 k-NN 而不是 1-NN 搜索。对于所有距离测量，比较两个相同长度（n 个点）的序列的平均时间复杂度小于 O(n)，是文献中已知的最快算法。

步骤 3：选择最终查询。然后我们检查每个算法返回的最佳结果是否唯一。我们每次比较的两个衡量标准中，都会考虑前五个答案。这些通常并不常见：在 Exp-1 中，两种衡量标准的前 5 个答案中平均有 62% 是不同的，而在 Exp-2 中这一比例为 55%。我们希望选择能够清楚突出两种衡量标准差异的答案。此外，我们必须避免在为一项指标选择最佳答案时可能出现的偏差，而该答案对于另一项指标也排名很高（因此更有可能被选中）。因此，我们研究了其中一项措施的前五个答案未出现在另一项措施的前十名中的查询。这导致了 Exp-1 的一组 30 个查询和 Exp-2 的另一组 31 个查询，我们从中随机挑选了 30 个查询。

第 4 步：选择每个查询的答案。实验性试验由这 30 个查询组成。向参与者提供的四个可能答案中的两个是步骤 3 中每种算法排名最高的答案（每种算法分别称为 Top-ED、Top-DTW 和 Top-NormED）。另外两个答案的生成方式与步骤 3 类似，但查看每个算法的较低 20-30 之间的答案（我们将它们称为 Out-ED、Out-DTW 和 Out-NormED）。局外人被认为不如最佳答案相似，但仍然是查询的有效答案。他们提供了一种控制来评估参与者的答案相对于底层算法的准确性。考虑到分析师可能会搜索许多子序列来找到匹配项，并充当干扰因素，使任务更加现实。

5.6 实验设计

我们遵循参与者内部的设计——所有参与者都接触到了所有三种可视化技术。三种技巧的出现顺序完全平衡。对于每种技术，参与者完成了 5 次练习和 20 次主要试验。

对于每个实验，我们生成了一组不同的 30 个不同的试验（参见第 4.2 节）。为了利用全套试验，我们将试验分为 3 个容器，每组 10 个，每个参与者在训练期间看到一个容器，在实验期间看到另外两个容器（在参与者之间进行平衡）。总体而言，每项试验均由 12 名参与者进行测试。每个参与者对所有三个可视化都执行相同的 20 次试验，但我们随机化了五个时间序列（包括查询）的垂直顺序。这确保了参与者无法识别查询或他们在条件之间的选择。

总之，每个实验包括：18 名参与者 × 3 个可视化（LC、HG、CF）× 20 个查询-答案试验 = 每个实验 1080 个试验

5.7 程序

在开始之前，参与者使用 Isihara 板完成了简短的色盲测试。然后，他们签署了一份同意书，并继续进行有关如何阅读相应可视化技术的培训课程。在主要实验之前，参与者必须通过三项可读性测试，比较时间序列中不同点的值。

由于我们对参与者对可视化相似性的直观感知感兴趣，因此我们没有给出有关如何解释相似性的说明，没有提及不变性，也没有提供任何关于如何评估每种技术的相似性的指南。 Correll 和 Gleicher [16] 使用了类似的方法。此外，我们没有解释数据代表什么或者查询及其候选答案是如何生成的。

实验结束后，参与者完成了一份调查问卷，以提供背景信息并评估三种可视化技术。实验持续了45至80分钟。

5.8 措施

我们使用多种措施来评估参与者给出的答案类型、他们相对于我们测试的相似性算法的准确性以及参与者之间的一致性。此外，我们还衡量参与者对其答案的信心、时间表现以及他们对三种可视化的主观评估。

答案类型：我们计算每种答案类型出现的次数。对于 Exp-1，我们计算 Top-ED、Top-DTW、Out-ED 和 Out-DTW。对于 Exp-2，我们计算 Top-ED、Top-NormED、Out-ED 和 Out-NormED。计数提供有关参与者选择的原始信息，并用于构建我们的比率度量（下）。

DTW 与 ED 以及 NormED 与 ED：我们通过计算参与者的计数比率来评估参与者选择一种相似性算法而不是另一种相似性算法的最佳答案的倾向。对于 Exp-1，我们采用 Top-DTW 计数与 Top-ED 计数的比率。比率大于 1 表示优先选择 DTW 的最佳答案。对于 Exp-2，我们采用 Top-NormED 计数与 Top-ED 计数的比率。这里，比率大于 1 表示偏好 NormED 的最佳答案。我们比较技术之间这些比率的差异，大于或小于零的差异提供了技术不同的证据。

局外人与热门答案：我们通过计算局外人的计数与热门答案的计数之比来评估参与者答案相对于相似性算法答案的准确性。比例越大，表明参与者的选择中局外人的数量相对较多。

一致性：我们使用一致性系数评估参与者选择的一致性程度，该系数通常用于评估者间的可靠性研究[28]。高度一致表明参与者选择的主观性较低。相反，一致性低表明决策时的不确定性高。这也可能意味着相似性感知是高度主观的。

我们选择Brennan 和Prediger 的κq 系数[9]。该系数假设所有 q 个类别都是以相同的概率 pe = 1/q 偶然选择的。这个假设在我们的案例中是有效的，因为 q = 4 个替代答案以随机顺序呈现给参与者，这避免了偏见问题 [62]。除了总体一致性之外，我们还评估特定类别的一致性[55]。这使我们能够评估不同类型答案之间的一致性如何划分。

时间表现：我们测量了参与者完成任务所需的时间，从时间序列显示在屏幕上的那一刻到参与者选择最终答案的那一刻。尽管评估时间表现不是我们实验的主要目标，但这种测量使我们能够比较使用每种可视化技术执行相似任务的容易程度或困难程度。

主观测量：我们记录了参与者自我报告的对每个问题的答案的信心程度。我们将这种信心衡量标准与协议衡量标准结合使用。

5.9 预期成果

LC 在实践中被广泛使用，因此可以预期它是确定时间序列相似性的最合适的技术。 HG 和 CF 之前尚未在感知相似性任务的背景下进行过研究，因此关于它们与 LC 相比如何表现的现有证据是有限的。之前的研究表明，对于判别任务，HG 比折线图更快，但对于峰值和趋势检测任务，HG 速度较慢 [34]。而 CF 已被证明是概述任务的一种有前途的表示形式 [15]。相似性搜索可能需要低级（即检测选择）和概述任务。

就相似性算法而言，动态时间规整（DTW）被广泛认为比欧几里得距离（ED）能提供更好的结果。对于 LC，Eichmann 和 Zgraggen [21] 发现 DTW 通常产生的排名更接近人类注释的排名，因此我们期望找到类似的结果。 Z 归一化是所有相似性度量的推荐做法[18]，因此可以预测它会产生更多相似的答案。然而，我们还预计颜色编码可能对 y 偏移和幅度变换敏感，即非不变。

6 结果

我们展示了两个实验的结果。我们的统计分析主要基于区间估计[19]，因为这种方法可以更好地支持未来的复制工作。报告的所有分析都是在收集数据之前计划的。

6.1 不变性：时间扭曲和 Z 归一化

我们首先研究三种视觉编码技术如何影响参与者对两种感兴趣的不变性的支持或反对的选择。我们的分析依赖于计数比率，其中计数不是独立的。此类指标的抽样分布可能很复杂，并且难以用分析方法进行近似。因此，我们使用 bootstrapping 方法来构建平均值的 95% 置信区间 (CI)。我们应用 Efron 的 [20] 偏差校正和加速 (BCa) 引导方法，由 R 的引导包 [12] 实现。对于我们的分析，我们通过 10000 次引导迭代构建置信区间。
在这里插入图片描述

Exp-1（DTW 与 ED）：图 5a 显示了各个平均值（左）及其差异（右）的区间估计。对于所有这三种技术，我们观察到参与者认为与 Top-DTW 相似的答案更多。然而，这种趋势在不同的可视化技术中是不同的。对于 HG 尤其明显，其中 Top-DTW 答案的频率平均比 Top-ED 答案高 2.64 (SD = 1.49) 倍。对于 LC ，Top-DTW 与 Top-ED 答案的平均比率降至 1.87 (SD = 0.80)，对于 CF 则降至 1.23 (SD = 0.48)。

Exp-2（NormED 与 ED）：图 5b 显示了均值（左）及其差值（右）的区间估计。我们观察到 HG 中参与者找不到类似的 Top-NormED 答案的强烈趋势，其中他们与 Top-ED 答案的平均比率等于 0.56 (SD = 0.36)。相比之下，对于其他可视化，它们倾向于 z 归一化答案，LC 的平均比率等于 1.33 (SD = 1.18)，CF 的平均比率等于 1.55 (SD = 2.41)。然而，由于差异较大，这种趋势没有得到统计证据的明确支持。我们看到 HG 比其他技术更喜欢 Top-ED 答案，但我们观察到 LC 和 CF 之间没有明显差异。

6.2 局外人与热门查询答案

我们使用类似的分析程序进一步分析局外人与热门查询答案的比率。

Exp-1：图 6 显示了 Exp-1 的区间估计。显然，两种算法的最佳答案主导了参与者的选择。然而，在许多情况下，参与者认为局外人比最佳答案更相似。 HG 的比率为 0.39 (SD = .20)，LC 的比率为 0.49 (SD = .22)，CF 的比率为 0.63 (SD = .36)。 HG 和 CF 之间的区别更加明显。后者导致了相对较多的外来者。

Exp-2：图 7 显示了 Exp-2 的区间估计。我们现在观察到相反的趋势，但技术之间的差异不太明显。 HG 的局外人与最佳答案的比率为 0.40 (SD = .27)， LC 为 0.31 (SD = .21)， CF 为 0.27 (SD = .16)。 CF 现在的比率低于 HG 。
在这里插入图片描述

结合第 6.1 节的结果，这些结果似乎表明 CF 不太适合 DTW，而 HG 不太适合 z 归一化答案。

6.3 协议

为了构建我们的一致性估计的置信区间，我们使用折刀技术 [28, 62]，假设评估者（即参与者）是从较大群体中随机抽样的，而查询集是固定的。

Exp-1：表 1 总结了 Exp-1 的结果。总体而言，所有三种技术的一致性都高于零。这证实了相似性感知并不完全是主观的，参与者的选择也不是随机的。然而，HG 和 CF 的一致性值通常较低，这意味着参与者对这些技术的选择具有更高的主观性。总体而言，我们观察到 Top-DTW 答案的选择具有较高的一致性。对于 HG 来说尤其如此 - 这进一步表明了该技术倾向于 DTW，因为选择的 Top-ED 答案在参与者之间没有一致性。我们观察到一致性值与参与者报告的每项任务的平均置信水平之间存在正线性相关性（皮尔逊矩相关性为 r = .45，95% CI = [.27, .60]）。这个结果并不令人意外——同意或不同意很大程度上是由于参与者做出选择的信心或不确定性。

在这里插入图片描述

Exp-2：表 2 总结了 Exp-2 的结果。同样，所有技术的总体一致性都高于零。现在，不同技术之间的协议值更加平衡。我们注意到 HG 导致 z 归一化答案的一致性值较低。这进一步表明该技术对于 z 归一化可能不是不变的。对于本实验，参与者自我报告的置信水平和一致性之间的 Pearson 矩相关性为 r = .59，95% CI = [.43, .71]。

6.4 时间表现

众所周知，时间度量遵循对数正态分布 [5,39]，因此我们对时间值进行对数变换，并使用假设正态分布的标准参数方法对其进行分析。根据这种方法，技术之间的比较是基于它们的中位时间的比率而不是它们的平均时间差[19]。

在这里插入图片描述

Exp-1：LC 的平均完成时间为 20.5 秒（SD = 13.9 秒），HG 的平均完成时间为 23.7 秒（SD = 9.1 秒），CF 的平均完成时间为 15.6 秒（SD = 7.5 秒）。图 8a 显示了中位数时间的区间估计（左）及其中位数比率（右）。我们观察到 CF 是最快的技术。我们有一些证据表明 HG 平均比 LC 慢 33.6%。

Exp-2：现在 LC 的平均任务完成时间为 21.1 秒（SD = 12.6 秒），HG 为 28.8 秒（SD = 15.8 秒），CF 为 21.5 秒（SD = 13.2 秒）。图 8b 显示了中值时间的区间估计（左）及其中值比率（右）。我们没有发现 LC 和 CF 之间存在差异的证据。 HG 再次是最慢的，平均比其他两种技术慢 40%。
在这里插入图片描述

7 讨论和设计意义

两项实验的结果表明，根据可视化的不同，人类可能会以不同的方式感知相似性，并且不同的视觉编码对于特定的信号参数是不变的。

在 Exp-1 中，参与者更喜欢动态时间扭曲 (DTW) 返回的结果，即可以在 x 轴上移动并局部拉伸或压缩的子序列。这一发现证实了之前的证据 [18, 21]，即 DTW 优于欧几里得距离 (ED)。然而，这种效果因可视化技术而异。它对于地平线图来说更强，可能是由于该技术的双重编码。颜色变化通常传达高级模式（尖峰/谷值、正/负范围），而形状和位置则揭示细节。参与者可能专注于颜色的高级模式来确定相似性，将形状和位置（编码扭曲和 x 轴移动）视为次要因素。折线图有利于 DTW，但程度较小，而且色域的趋势更弱。色域有助于检测相似颜色的范围 [2]，因此参与者很可能同时考虑了尖峰的颜色和尖峰周围形成的颜色范围的宽度。因此，他们可能会避开那些过于紧张或过于紧张的候选人。图 9 左中的示例演示了这个问题。

在 Exp-2 中，我们观察到地平线图和其他两种可视化之间存在明显差异。地平线图强烈支持没有 z 归一化的 ED 答案。对于折线图和色域观察到相反的趋势。在水平图中，小幅度和 y 偏移变化可能落在带的不同侧并具有不同的颜色。因此，如果参与者尝试匹配颜色而不是形状，他们可能会忽略其显着特征落在不同条带上的子序列（见图 9：右）。对于折线图和色域，确切的幅度和偏移值可能不太重要，因为人们似乎关注相对值和整体形状。

总体而言，地平线图中的一致性分数较低，时间性能较慢，这表明这种编码在使用时很难直观地识别模式并做出决策。

在这两个实验中，无论可视化技术如何，参与者都倾向于选择算法的最佳答案，而不是局外人。这证实了这些算法的排名捕获了感知相似性的真正差异。

设计含义：总的来说，我们的工作表明可视化的选择会影响人们认为相似的时间模式，即时间序列中的相似性概念并不是独立于可视化的。可视化设计者需要考虑数据领域中哪些不变性是重要的[18]，并适当地建议可视化。同样，如果设计者使用算法距离测量，他们应该考虑与这些测量的不变性相匹配的可视化效果，否则观看者可能会对他们的结果失去信心。

我们的结果表明，色域不太适合需要时间扭曲不变性的域，因为它们对时间扭曲和移位敏感。在这里，水平图是折线图的可行替代方案，因为它们对扭曲不太敏感。尽管如此，设计者应该考虑时间序列可视化的视觉复杂性。地平线图的一致性较低，时间表现也较慢，而参与者报告说，他们发现在使用它时更难以直观地识别模式并做出决策。

反过来，当幅度和 y 偏移不变性很重要时，水平图不太合适，因为由于其频带的明确限制，它们对沿 y 轴的值变换敏感。最后，与之前使用折线图的工作一样 [18, 21]，我们的结果支持 DTW（一种对时间扭曲不变的算法）可能更接近我们认为的时间模式相似的内容，因此 DTW 可以被视为除非数据域[18]另有说明，否则这是一个很好的默认值。

8 局限性和未来的工作

我们的工作有几个限制。首先，我们关注少量的相似性度量。数据挖掘文献研究了其他类型不变性的度量[6]。未来的工作需要确定哪些可视化最适合这些措施。此外，我们的数据集由具有特定模式特征的脑电图数据组成，例如尖峰后快速放电。尽管我们相信我们的高水平结果也适用于其他类型的信号，但视觉感知对某些信号变形的敏感性可能更不明显或更明显。需要进一步的研究来验证我们在其他领域的更广泛的模式和数据集中的发现。

我们的色域实现使用了简单的线性 RGB 插值。这种方法导致颜色空间在感知上不均匀，即，对于两种颜色极端之一来说，区分变化可能更困难。另一方面，它可能会扩大色彩空间中心范围附近的差异，即人类对洋红色调更敏感的[38]。这个中心范围是低幅度变化和尖峰（这对于脑电图信号可能很重要）所在的位置。我们进行了一项后续实验（N = 18 名参与者），将线性 RGB 插值与感知均匀的 CIE Lab 颜色空间进行比较 [25]。两种技术的准确性和一致性分数非常相似，而大多数参与者（10 比 6）发现使用线性 RGB 插值更容易识别模式。 CIE Lab 导致相似性度量之间的差异不太明显，但我们发现两种插值技术之间没有统计学上的显着差异。我们报告该实验的详细结果作为补充材料。然而，这些颜色映射的差异可能存在于其他类型的时间模式中。此外，在相似性比较是唯一感兴趣的任务的领域中，还可以考虑动态映射变化（例如，差异颜色图，或基于时间序列值的等深度或等宽度分箱的映射变化，以提供更宽的颜色范围）最常见的值），但仍然会扭曲原始信号。颜色对时间序列相似度的影响是一个新兴的未来研究方向。

我们专注于少量时间序列进行比较，并具有宽敞的垂直绘图区域。虽然我们假设我们的结果适用于更多数量的时间序列，但它们的大小可能会影响这些结果。例如，我们期望色域能够很好地缩放，但众所周知，长宽比的选择会影响折线图的可读性[61]。因此，对于折线图以及较小程度的水平图，垂直空间的减少可能会导致小模式的丢失并强化大结构（峰、谷），从而改变相似性感知。

最后，我们计划比较本文研究的其他视觉编码或变体，例如超越地平线图的复合可视化[33]，以及具有替代设计的面积图，例如基于单一或双重填充颜色的设计，和镜像。

9 结论

我们提出了两个实验室实验，比较了三种可视化（折线图、色域和地平线图）如何影响我们感知时间序列相似性的方式。具体来说，我们研究了通过自动相似性度量q检测到的数据中的某些变形是否会根据可视化以不同的方式被感知。我们的研究结果表明，所有三种可视化都支持算法测量的相似性结果，这些算法测量允许时间位置或速度的局部变形（即动态时间扭曲）具有灵活性。对于水平图来说，这种情况最为明显。另一方面，这种可视化并不能提升对 y 偏移位移和幅度重新缩放（即 z 归一化）不变的算法的结果。

我们的工作提供的证据表明，时间序列相似性的概念依赖于可视化，并且在选择视觉表示时，我们应该考虑底层数据域认为哪些变形是相似的。这应该与每个域中使用的相似性度量一致。未来，我们计划研究选择适当的可视化来传达相似性如何影响领域专家之间对相似内容的一致性，以及这是否会增加对相似性搜索算法结果的信任。

致谢

我们感谢 Petra Isenberg 对本文的反馈，感谢 Katia Lehongre 和 Denis Schwartz 访问 MUSE 工具和数据。

参考文献

在这里插入图片描述

子衿JDD

关注

42
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】-- Comparing Similarity Perception in Time Series Visualizations（比较时间序列可视化中的相似性感知）

许多处理时间序列数据的领域专家面临的一个共同挑战是如何识别和比较相似的模式。此操作是高级任务的基础，例如检测重复出现的现象或创建相似时间序列的集群。虽然存在自动测量来计算时间序列相似性，但通常需要人工干预来直观地检查这些自动生成的结果。可视化文献已经研究了相似性感知及其与折线图自动相似性度量的关系，但尚未考虑替代视觉表示（例如地平线图和色域）是否会改变这种感知。受神经科学家如何评估癫痫样模式的启发，我们进行了两项实验，研究这三种可视化技术如何影响脑电图信号的相似性感知。
复制链接

扫一扫

专栏目录