【论文阅读】-- 评估叠加时间序列和时间事件序列可视化中的对齐方法

在这里插入图片描述


期刊: IEEE VIS (发表日期: 2019
作者: Yixuan Zhang; Sara Di Bartolomeo; Fangfang Sheng; Holly B. Jimison; Cody Dunne

在这里插入图片描述

摘要

复合时间事件序列可视化包括哨兵事件对齐技术来应对数据量和多样性。先前的工作已经证明了使用单一事件对齐来理解哨兵事件周围的前兆、同时发生和后果事件的实用性。然而,单事件对齐的有用性在复合可视化中尚未得到充分评估。此外,最近提出的双事件对齐技术尚未经过实证评估。在这项工作中,我们围绕时间事件序列和时序分析设计了任务,并在 Amazon Mechanical Turk 上进行了受控实验,以检查四种哨兵事件对齐方法:无哨兵事件对齐(NoAlign)、单事件对齐(SingleAlign)、双事件对齐左对齐 (DualLeft) 对齐,以及拉伸对齐 (DualStretch) 双事件对齐。数据行越多,方法之间的差异最为明显。为了理解两个哨兵事件之间的中间事件,双事件对齐在正确性方面明显胜出 — NoAlign 和 SingleAlign 分别为 71% 和 18%。为了了解两个哨兵事件之间的持续时间,NoAlign 明显胜出:正确性 — DualStretch 为 88% vs. 36%;完成时间 — 55 秒 vs. DualLeft 101 秒 — 错误 — 1.5% vs. DualStretch 8.4%。对于理解前兆和后遗事件,方法之间没有显着差异。本文的免费副本、评估刺激和数据以及源代码可在 osf.io/78fs5 获取。

关键词
Human-centered computing—Visualization Empirical studies in visualization

1 引言

时间序列数据可视化因其能够显示变量如何随时间变化而被广泛应用于各个领域,包括医疗保健、商业、工程和社交媒体。近年来,在时间轴上可视化离散事件(时间事件序列可视化)也越来越受欢迎,因为这种方法可以揭示随时间变化的事件模式。最近的研究已经开始通过将事件序列叠加在时间序列数据可视化之上来组合这两种类型的可视化。由于叠加视图突出了事件和时间序列数据之间的关系,因此叠加显示了促进理解数据过程的巨大潜力[8]。

在应对不断增长的数据量和复杂性的各种策略中,对齐是一种常用的方法。通过对齐,可视化工具可以将同一类型事件的多个实例放在相同的垂直或水平位置,以便用户可以轻松地看到对齐的事件与其他事件之间的交互。在叠加的时间序列和事件序列可视化中,对齐可以帮助在同一视觉空间中发现事件的前兆(触发事件的因素)和后效(事件触发的因素)。适当使用叠加将有助于轻松比较事件序列可视化中显示的时间序列数据和相关属性。然而,在叠加视图中应用对齐技术也可能会增加更多的视觉混乱和认知负担。 Wang 等人探索了通过一个哨兵事件进行对齐的有用性。 [13]。然而,以前的评估主要集中在时间事件序列可视化上,而叠加可视化中的对齐技术尚未得到充分研究。

此外,可视化社区不再满足于单事件对齐(例如[13]),并且提出了双事件对齐[15]来探索更复杂的时间数据交互。 IDMVis [15] 利用三种不同类型的双事件对齐来可视化多个事件与基础值的交互;该工具已收到领域专家的积极反馈。然而,领域专家的评估不能轻易一概而论。在叠加时间序列和事件序列可视化中广泛接受单事件对齐和双事件对齐之前,需要进行正式研究来比较单事件和双事件对齐的有效性。因此,我们设计了一系列针对叠加时间序列和时间事件序列可视化而定制的任务,以及一个受控实验来评估不同的时间事件对齐技术,包括无对齐、单事件对齐和双事件对齐。

2 相关工作

2.1 时间事件序列可视化

可视化研究人员提出了多种处理时间事件序列的技术,例如时间折叠和对齐。时间事件对齐是一种通过“根据选定对齐的出现来对齐所有记录”来降低模式复杂性的策略[4]。应用对齐技术的目的是帮助识别先兆事件、同时发生的事件和后果事件[13]。对齐技术已广泛应用于不同领域,例如医疗保健 [6, 13]、应用程序日志分析 [3] 和体育 [11]。例如,LifeLines2 [13] 允许用户对齐、排名和过滤医疗事件,例如首次心脏病发作。在应用程序日志分析案例研究 [3] 中,对齐使分析人员能够在错误消息出现时识别对齐事件的前因。对齐还可用于支持因果关系分析。分析 Twitter 用户活动日志的类似情况允许用户选择感兴趣的自定义对齐点(默认为事件的开始),以识别对齐点之前和之后的序列 [14]。在这些先前的工作中,事件对齐可以使用单个视图进行交互。

其他研究人员探索了在复合视图中应用对齐的设计空间。使用对齐技术,CareCruiser [6] 支持比较不同患者所选治疗计划的效果,以及评估单个患者的替代治疗计划。在Zhang等人之前的工作中,我们在IDMVis [15]中引入了双事件对齐,以帮助临床医生为1型糖尿病患者做出治疗决策。尽管我们与领域专家的评估是积极的,并给了我们充足的反馈,但对使用双事件对齐与单事件对齐的有用性缺乏全面的评估。在这项工作中,我们的目标是了解不同事件对齐方法在叠加时间序列和时间事件序列可视化中的有效性。

2.2 理解时间事件序列的任务

时间事件序列可视化可用于支持各种序列和时序分析任务。随着事件序列分析的哨兵事件对齐思想的普及,Lifelines2 [13] 的作者描述了一组六个低级特定领域任务。在这里,我们将这些重新定义为三个一般任务,并展示他们的对照实验的结果。任务 1:给定感兴趣的事件和后续时间窗口,计算该窗口内给定事件类型的后果事件。在本例中,查看 5 条记录的参与者在未对齐和对齐条件下的表现类似。然而,当查看 20 条记录时,参与者的速度平均提高了 65%,准确度更高,错误也更少。任务 2:给定感兴趣的事件和随后的时间窗口,探索该窗口内最常见的后果或同时发生的事件。在一种情况下,参与者的平均速度提高了 62%,但准确性或错误没有差异。在其他方面,结果好坏参半。任务 3:给定两个感兴趣的事件,计算与给定事件类型匹配的中间事件的数量。在这种情况下,参与者可能更准确,但时间或错误没有差异。

DecisionFlow [5] 的作者描述了 12 个高级任务,重点关注三个维度:解释时间流、理解中间事件的属性以及推理事件序列的变化。在这 12 项任务中,与序列和时序分析最相关的任务是 (1) 理解时间流关系(例如,A 在 B 之前)和 (2) 哨兵事件(里程碑)时间比较。 Plaisant 和 Shneiderman [12] 进一步开发了三个高级类别的事件分析的八个高级任务:提高意识、识别数据以供进一步研究以及了解事件模式的影响。最后一类包括与序列和时序分析特别相关的任务,可以追溯到 Lifelines2 [13] 任务:给定感兴趣的事件和可选的周围时间窗口,描述前兆(前因)或后效(后遗症)事件的特征。然而,先前研究人员考虑的大多数任务都太高级、特定领域或与序列和时序分析无关,无法用作开发评估任务的指导。因此,我们首先必须为时间事件序列和时序可视化构建与领域无关的任务抽象。

3个假设

本研究的目的是了解事件对齐在叠加时间序列和时间事件序列可视化中的有效性。我们提出如下假设:

H1:在识别前兆和后效事件以及事件组方面,使用单个事件对齐的好处将大于不对齐的好处。理由:该假设基于先前的工作(例如,Lifelines2 [13]),该工作表明通过哨兵事件进行对齐可以提高完成时间和准确性。我们需要检查之前的结果是否仍然适用于叠加的可视化。

H2:使用单事件与双事件对齐来识别先兆事件和后效应事件没有任何好处。理由:由于双事件对齐建立在单事件对齐的基础上,并且对于单个哨兵事件来说是相似的,因此我们假设它们的性能相似。

H3:对于理解中间事件,双事件对齐比单事件对齐或无对齐更有用。理由:该假设基于领域专家的 IDMVis 定性评估,该评估表明使用双事件对齐将提高性能 [15]。

4 对比评价

我们在 Amazon Mechanical Turk (MTurk) 上进行了一项对照实验,以评估哨兵事件对齐方法对参与者任务绩效的影响。

4.1 刺激和任务

我们使用开源工具 IDMVis [15] 使用其去识别化的 1 型糖尿病治疗数据选择刺激。图 1 显示了四种对齐方法的示例刺激。主要视觉编码如图 2 所示,包括标记为蓝色三角形的点事件(例如午餐);连续血糖监测仪的时间序列数据显示为颜色编码点;以及时间轴和价值轴。我们根据我们的假设选择了任务(如图 3 所示),这是对第 1 节中讨论的时间事件序列的先前工作的综合。 2.2 以及 1 型糖尿病管理的任务法 [1, 15]。考虑到临床环境中用于意义建构的高级任务的不足,我们设计了一组用于评估的低级任务。在慢性病管理中,意义建构需要在正式假设制定和评估之前进行迭代数据探索和特征选择[10]。

在这里插入图片描述
在这里插入图片描述

为了检查事件的共现,我们将事件的共现分为不连续的事件共现和连续的事件共现。事件的连续共现是指彼此相邻的事件。此类事件可以包括“间隔事件”(例如,记录持续时间的运动事件),但也可以包括时间序列数据(例如,连续血糖水平),因为数据点是连续的。断开连接的事件同时发生是指没有邻接约束的事件。它们类似于“点事件”(例如胰岛素注射)的概念。我们设计了一些问题来理解事件的断开(任务 6)和连续同时发生(任务 1、2、3、5、6)。

我们还对评估参与者在各种可视化尺度上的任务表现感兴趣。我们的可视化刺激由一行代表每天的数据组成。我们使用小规模的三天(如图1所示)以及较大的规模14天。我们要求每位参与者回答 12 个问题:6 个复合任务×2 个量表。问题 1-6 使用 3 天的数据可视化,问题 7-12 使用 14 天的数据可视化。总的来说,我们为每个问题选择了时间事件序列的不相交子集,并创建了 48 个可视化刺激:6 个复合任务×2 个尺度×4 个条件。为了避免排序效应,我们随机化了向每个参与者呈现任务的顺序。

4.2 程序

在本研究中,我们使用受试者间方法在四种实验条件之间随机但均等地分离参与者(如图 1 所示):无哨兵事件对齐 (NoAlign)、单事件对齐 (SingleAlign)、左双事件对齐对齐 (DualLeft) 和带拉伸对齐的双事件对齐 (DualStretch)。我们没有测试右对齐的双事件对齐,因为我们认为参与者的表现将反映左对齐的双事件对齐。

经我们机构机构审查委员会批准,我们从 MTurk 招募了参与者。他们在接受 HIT 之前已获得知情同意。参与者被要求阅读领域背景(1 型糖尿病)的简要介绍和包含示例问题的教程,回答有关对齐可视化的 12 个问题,并回答有关他们使用对齐方法和人口统计数据的经验的调查问卷。参与者平均用时 12 分 59 秒完成研究。他们的基本工资为 4 美元,平均每小时工资为 18.48 美元,第六次答对后每答对一次,即可获得 0.60 美元的奖金。如果参与者在 12 分钟和 10 分钟内完成研究,则分别获得 10% 和 20% 的奖金。我们提供奖金奖励以鼓励快速和正确的表现,如第 6 节所述。为了确保诚实参与和对研究和任务的充分理解,根据试点结果,我们将拒绝标准设置为参与者 (1) 少于或等于一个正确答案并且总共花费少于八分钟,或者 (2) 学习教程少于一分钟,或者 (3) 解答问题少于四分钟。

4.3 参与者

根据试点研究的均值和方差估计,我们进行了功效分析(I 类错误率 α = 0.05,功效 1 − β = 0.8),据此我们确定需要 108 名参与者。我们总共招募了 123 名美国参与者,并接受了 108 名。对所有接受的参与者的问题花费时间和正确答案数量进行 k 均值聚类后,我们发现存在明显的聚类效应,并将 46 名参与者确定为“超速”的限制为 12 个问题中的 4 个答案,并且做题时间至少为 8 分钟。因此,我们过滤掉了 46 名参与者,留下 62 名(NoAlign 16 名、SingleAlign 18 名、DualLeft 14 名、DualRight 14 名)进行分析。 62 名参与者中,中位年龄为 34 岁(IQR = 15.5)。

4.4 测量与分析

由于我们问题的复杂性,我们分别分析了每个问题的参与者表现。对于每个问题,我们测量了完成时间、正确性和错误率。完成时间是参与者完成问题所花费的时间(以分钟为单位)。正确性是一个二元衡量标准,通过参与者是否得到正确答案来衡量。如果参与者正确回答了问题,则正确性记为 1,否则记为 0。我们使用 ER =| 报告错误率 (ER)。 Op-Ot| /Ot ,其中 Op 和 Ot 分别代表参与者选择的选项和正确答案。为了选择合适的统计分析计划,我们首先分别使用 Q-Q 图和 Shapiro-Wilk 检验,用两种方法定性和定量地检验正态性。我们的结果表明我们的数据不服从正态分布。因此,我们使用卡方独立性检验来分析正确性,并使用 Kruskal-Wallis H 检验作为单向方差分析的非参数替代方法来分析时间和错误率。我们使用 Bonferroni 调整进行事后测试。

5 结果与讨论

我们使用过滤后的数据(n = 62)呈现结果,该数据消除了可能的“超速”行为者,如第 1 节中所述。 4.3.图 4 显示了每种规模、任务和方法组合的正确性和完成时间。出于空间考虑,未经过滤的数据和错误图表的结果被归为补充材料。
在这里插入图片描述

5.1 前兆和后果事件

任务 1-3:我们没有观察到组间在正确性和错误率方面存在任何显着差异 (p < 0.05)。在 3 天量表中,参与者使用 SingleAlign(45 秒)的速度明显慢于 NoAlign(31 秒)(p = 0.02),但在 14 天量表中则不然。与我们的假设相反,我们的结果表明,在识别前兆和后效事件方面,NoAlign 等于或优于 SingleAlign。这些结果似乎与 Lifelines2 [13] 评估相矛盾,后者显示完成时间有所改善。

然而,我们必须指出一些差异。 Lifelines2 [13] 研究探索了点事件,而我们则研究了多个数据源的更复杂的叠加可视化。叠加的可视化允许在相同的视觉空间中进行直接比较,但也可能导致高度的视觉混乱,从而牺牲可读性[8]。我们对事件类型的可视化也与 LifeLines2 不同。我们类似地使用三角形来显示点事件(例如早餐)。然而,血糖水平也被视为点事件,由使用颜色和位置编码定量值的点显示。复杂的 1 型糖尿病数据和相关领域任务 [15] 也可能导致了任务难度。涉及理解连续共现事件的任务很复杂,但与用于评估 LifeLines2 的任务有相似之处。

5.2 中间事件

任务 4:对于 3 天的量表,我们没有观察到完成时间、正确性和错误率方面有任何显着差异。然而,对于 14 天量表,参与者使用 NoAlign (88%) 的正确率高于 DualStretch (36%) (χ2 = 6.54,p = .01),使用 NoAlign (55s) 的速度比使用 DualLeft (101s) 的速度更快 (p = .02),并且使用 NoAlign (2%) 的误差小于 DualStretch (8%) (p = .00)。这表明双事件对齐不是识别间隔持续时间的合适解决方案。

任务 5:对于 3 天量表,参与者使用 NoAlign (47 秒) 的速度比使用 SingleAlign (94 秒) 的速度更快 (p = .05),使用 DualStretch (100%) 的正确率比使用 NoAlign (62%) 的正确率更高 (χ2 = 4.43,p = .04),并且使用 DualStretch (0%) 的误差小于 NoAlign (14%) (p = .01)。对于 14 天的规模,我们没有观察到完成时间有任何显着差异。然而,参与者使用 DualStretch (71%) 和 DualLeft (71%) 的正确率高于 NoAlign (25%) (χ2 = 4.74, p = .03) 或 SingleAlign (11%) (χ2 = 9.79, p = .00) 。这些结果支持我们的假设,即双事件对齐将有利于理解中间事件,只要它们不基于间隔持续时间(任务 4)。

任务 6:我们没有观察到完成时间、正确性和错误率方面有任何显着差异。参与者的一种可能解释是任务 6 的措辞不清楚。例如,一位参与者评论说,“措辞令人困惑,因为我认为这意味着这两件事都发生在两顿饭之间,而不是同时发生,所以不幸的是我错了。”然而,我们在试点研究中没有发现解释任务有任何困难。这项研究的一个重要收获是,用户研究任务的设计需要大量的设计和可用性迭代。

6 反思和设计意义

在 MTurk 上的这个对照实验中,我们测量了任务完成时间、正确性和错误率,以评估不同哨兵事件对齐技术在叠加时间序列和时间事件序列可视化中的效果。我们强调了使用对齐技术的几个设计含义,以及设计相关评估任务时的设计注意事项。

首先,考虑使用双事件对齐来探索中间事件,无论可视化规模(例如天数)如何。在大多数情况下,DualStretch 的表现略好于 DualLeft。然而,双事件对齐可能不太适合识别两个事件之间的持续时间。

其次,在应用对齐技术时,应考虑复合可视化的性质。叠加的时间序列和事件序列可视化的复杂性可能会增加用户的认知负担。我们需要进一步评估叠加时间序列和时间事件序列可视化的设计空间,例如仅通过对齐、使用分类形状、颜色和位置来显示分类标签或事件类型。此外,我们认为有必要对复合可视化中的时间事件序列进行更系统的评估,除了叠加可视化之外,还包括并置、集成、重载和嵌套视图[8]。

第三,我们建议呼吁采取行动设计低级任务。我们注意到,与叠加可视化相关的低级任务的复杂性可能会影响用户的表现。在众包平台上为非专家设计任务时,工作量、任务易用性和领域知识之间的适当平衡仍不清楚,因此需要进一步研究。

第四,参与者的报酬需要深思熟虑。金钱奖励是许多工人 [2] 的主要动机,由于优化了金钱/时间 [9],他们的响应时间可能比实验室研究更快。基于绩效的付款,例如正确性奖励可能会提高工作质量,但也会增加工人花费的时间[7]。为了将时间作为我们的衡量标准之一,我们使用速度奖励来帮助抵消所花费时间的增加。单独的奖金可能会导致参与者更倾向于优化其中一个而不是另一个。我们没有发现我们的奖金设置有任何负面影响,但值得进一步研究。

7 结论

我们设计了用于叠加时间序列和事件序列可视化的低级任务,并在 MTurk 上进行了比较评估,以了解不同哨兵事件对齐方法的效果。我们发现,除了识别持续时间之外,双事件对齐可以让用户更准确、更快速地执行中间事件的任务。与不对齐相比,使用单事件对齐的好处并不显着。使用单事件对齐与双事件对齐来识别先兆事件和后效应事件在任务完成时间、正确性和错误率方面没有显着差异。我们鼓励可视化研究人员进行进一步的研究,以评估对齐技术在复合可视化中的效果。

致谢

我们感谢美国国家科学基金会对 CRII 奖项的支持。 1755901 以及我们的审稿人和同事的建议。特别感谢 Jane Kokernak 的编辑和校对。

参考文献

在这里插入图片描述

  • 18
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值