【2021】A Survey of Visual Analytics Techniques for Machine Learning【论文阅读】【持续更新中!】

面向机器学习的可视分析技术综述

J u n Y u a n 1 , Jun Yuan^1, JunYuan1, C h a n g j i a n C h e n 1 , Changjian Chen^1, ChangjianChen1, W e i k a i Y a n g 1 , Weikai Yang^1, WeikaiYang1, M e n g c h e n L i u 2 , Mengchen Liu^2, MengchenLiu2, J i a z h i X i a 3 , Jiazhi Xia^3, JiazhiXia3, S h i x i a L i u 1 Shixia Liu^1 ShixiaLiu1✉️

  • 本文是清华大学的刘世霞老师团队对于面向机器学习的可视分析技术的一篇综述论文,人工智能和可视化结合(AI with VIS)的这个研究方向目前已经成为整个可视化领域的最热门方向之一。本人也对这个方向非常感兴趣,因此准备认真调研阅读这篇综述。
  • 作者主要从2010-2020年的各类相关领域的顶刊顶会【InfoVis, VAST, Vis (later SciVis),
    EuroVis, PacificVis, IEEE TVCG, CGF, CG&A】中选取了259篇有关机器学习和可视分析的相关论文,调研范围广、内容精,非常适合用于构建此方向的知识体系。
  • 由于本文引用的论文非常多,我准备以这篇综述为入口,调研综述内提到的全部论文,并按照逻辑结构嵌入本文中,我将会持续更新博客,直至把整篇综述内容覆盖完全。但是由于整个工作量较大,而本人正值本科二年级,课业压力繁重,故完全整理完毕用时可能会比较长,敬请谅解。

Abstract

面向机器学习的可是分析最近已经发展成为可视化领域最令人兴奋的方向之一,为了更好地确定哪些研究课题是有前景的,同时为了学习如何在可视分析中应用相关技术,我们系统地回顾了过去十年发表的259篇论文以及2010年之前的代表性作品。我们构建了一个分类法,它包括三个一级类别:模型构建前的技术、模型构建中的技术和模型构建后的技术。 每个类别进一步以具有代表性的分析任务为特征,每个任务都以一组近期有影响力的作品为例。 我们还讨论并强调了对视觉分析研究人员有用的研究挑战和潜在的未来研究机会。

Keywords

  • 可视分析 — visual analytics;
  • 机器学习 — machine learning;
  • 数据质量 — data quality;
  • 特征选择 — feature selection;
  • 模型理解 — model understanding;
  • 内容分析 — content analysis

1. Introduction

过去的十年里,一大批研究人员提出了一些列可视分析方法,这些方法使得机器学习更加可释、可信、可靠。
这些研究工作充分结合了交互式可视化和机器学习技术的优势,以促进对学习过程中主要组成部分的分析和理解,以提高性能。
例如,最近受到很大关注的一项进展,用于解释深度卷积神经网络内部工作原理的视觉分析研究增加了深度学习模型的透明度。
但是,现有的调查综述要么专注于机器学习的特定领域(比如文本挖掘、预测模型、模型的理解),要么试图只通过一类技术来刻画整个知识结构。
在本文中,作者旨在对面向机器学习的可视分析技术进行全面调查,重点关注机器学习管道的各个阶段。作者系统收集了相关领域的顶级期刊会议的259篇论文。根据机器学习的流程,作者将文献提出的技术按主要侧重点划分为三类:构建模型之前、构建模型时和构建模型之后。

2. Survey Landscape

2.1 Paper Selection

2010-2020相关领域的顶级期刊会议论文,文章来源主要包括:

  • InfoVis
  • VAST
  • Vis (later SciVis)
  • EuroVis
  • PacificVis
  • IEEE TVCG
  • CGF
  • CG&A

2.2 Taxonomy

由于机器学习技术的pipline包含以下三个层面

  1. data pre-processing before model building
  2. machine learning model building
  3. deployment after the model is built

作者也因此将收集到的文章按如下方式分为3类:

  1. techniques before model building
  2. techniques in model building
  3. techniques after model building在这里插入图片描述
2.2.1 Techniques before Model Building

模型构建前可视化分析技术的主要目标是帮助模型开发人员更好地为模型构建准备数据。 数据的质量主要取决于数据本身和我们使用的特征。 因此,有两个研究方向,通过可视化手段改善数据质量(data quality improvement)以及进行特征工程(feature engineering)

  • data quality
    可以从多方面进行改善,比如补全缺失的数据属性、纠正错误的数据标签等。在这前这些数据质量的改进工作主要是通过手动改善或者全自动改善(the learning-from-crowds algorithms)的方法,由于自动方法的效果不可能完美,所以往往经过算法自动改善之后还需要通过专家的深入工作,而可视化的工作主要是为了减轻这个过程中专家的工作量。
  • feature engineering
    用于选择最佳的特征来训练模型。比如在CV中,我们可以使用HOGHistogram of Gradient)特征取代原始图像像素raw image pixels)来训练模型。在可视分析领域构建交互式特征选择方法旨在形成可交互和可迭代的特征选择范式。不过由于近年来在深度学习时代,特征选择和构建主要通过神经网络来进行,与这一趋势相呼应,近年(2016-2020)在这个方向的可视化研究较少。
2.2.2 Techniques in Model Building

模型构建是构建成功的机器学习应用程序的核心阶段。
在本文中,作者根据可视化分析目标对当前方法进行分类:

  1. Model Understanding
    旨在直观地解释机器学习模型的工作机制,例如参数变化将如何影响模型,以及模型为什么会对特定的输入产生特定的输出。
  2. Model Diagnosis
    相比模型理解,模型的诊断更加侧重于模型训练的过程。它主要针对通过对训练过程的交互式探索来诊断训练中的错误。
  3. Model Steering
    主要为了能够交互地提升模型的性能,比如在细化主题模型方面,Utopian使得用户能够交互地对某几个主题进行合并、拆分操作,并相应地自动修改其他主题。
2.2.3 Techniques after Model Building

在构建和部署机器学习模型后,帮助模型用户(例如领域专家)以直观的方式理解模型输出,同时进一步提升模型输出的可信度是至关重要的。
与模型构建中的模型理解方法相比,这些方法通常针对模型用户而不是模型开发人员。 因此,此类工作的重点是模型输出的直观呈现和探索,而不是说明模型的内部工作原理( 这个点是Techniques in Model Building方向的主要工作 )。
同时,由于这类方法通常都是数据驱动【data-driven】或者应用驱动【data-driven】,所以本文将这类方法按照待分析的数据类型分为静态数据分析时序数据分析

  • 综述论文收集的分类情况和趋势如下表所示:
    在这里插入图片描述

3. Techniques before Model Building(正文待补充)

3.1 Improving Data Quality

(1) Instance-Level Improvement
在这里插入图片描述
在这里插入图片描述

(2) Label-Level Improvement

在这里插入图片描述

3.2 Improving Feature Quality

4. Techniques in Model Building(正文待补充)

4.1 Model Understanding

(1) Understanding the effect of parameters
(2) Understanding the model behaviours

4.2 Model Diagnosing

(1) Analyzing the training results
在这里插入图片描述

(2) Analyzing the training dynamics

4.3 Model Steering

(1) Refining the model with human knowledge
在这里插入图片描述

(2)Selecting the best model from a model
ensemble

5. Techniques after Model Building(正文待补充)

5.1 Understanding Static Data Analysis Results

(1) Textual data analysis
在这里插入图片描述

(2)Other types of data analysis

5.2 Understanding Dynamic Data Analysis Results

(1) Offline analysis
在这里插入图片描述

(2) Online analysis
在这里插入图片描述

6. Research Opportunities

尽管机器学习的视觉分析研究在学术研究和实际应用中都取得了可喜的成果,但仍然存在一些长期的研究挑战。
文章按照之前的分类方式从各个角度给出了研究的机遇与挑战。

6.1 Opportunities before Model Building

(1)Improving data quality for weakly supervised learning

  • 弱监督学习构建模型时所用的数据往往存在质量问题(包括inaccurate的标签、incomplete的标签和inexact 的标签)。提高数据质量可以显著提高弱监督学习模型的性能。
  • 现有的方法大多数仅仅侧重于数据inaccurate的质量问题,以及与incomplete问题相关的交互式标记
  • 然而很多未标记的数据与incomplete、inexact的数据质量问题相关,目前只有很少的研究正致力于更好地利用这类未标记数据,主要可以从以下两个角度来考虑:
    1. 首先,视觉分析技术解决数据incomplete问题的潜力没有得到充分利用。 一个典型的例子是基于图的半监督学习,它取决于标记和未标记数据之间的关系。自动构建的图关系数据有时质量较差,导致模型性能下降。图质量差的一个主要原因是自动图构建方法通常依赖于全局参数(例如,kNN图构建方法的全局 k 值),故这个方法可能不适用于局部区域。因此,有必要利用可视化方式来说明标签如何沿边传播,从而有助于理解局部图结构是如何影响模型性能的,这样一来专家就可以适应性地修改图数据,从而逐步创建出更高质量的图。
    2. 再者,虽然数据inexact的质量问题在实际应用中很常见,但它在可视化分析领域受到的关注较少。 inexact的数据质量问题是指标签不精确的情况,例如,粗粒度标签。不精确数据质量问题的一个典型例子是计算机断层扫描 (CT) 扫描的粗粒度标签。 CT 扫描的标签通常来自相应的诊断报告,描述患者是否患有某些疾病(比如肿瘤)。 对于带有肿瘤的 CT 扫描,我们只知道该扫描中的一个或多个切片包含肿瘤。 然而,我们不知道哪些切片包含肿瘤以及这些切片上的确切位置。 尽管已经提出了各种机器学习方法来从这种粗粒度标签中学习,但由于缺乏准确的信息,这类机器学习方法很可能性能不佳 ,仍然需要细粒度的验证来提高数据质量。 为此,可以考虑将交互式可视化与学习算法相结合,通过检查整体数据分布以及错误预测的数据,从而更好地说明性能不佳的根本原因,同时还可以开发交互式验证程序以提供更细粒度的标签,以减少专家的工作量。

(2)Explainable feature engineering
大多数提高特征质量的工作都聚焦于传统分析模型的表格或文本数据上。这些数据的特征很容易进行解释,这使得特征工程过程非常轻松。
然而,通过深度神经网络进行的特征提取的表现效果要比人为提取的更好。但由于深度神经网络的“黑匣子”特性,这些深度特征很难以被解释,而这些特征的不可解释性给特征工程的进行带来了许多挑战:

  1. 首先,提取的特征是基于数据驱动的,这意味着当数据集有偏差时,所提取的特征就可能无法很好地并表示原始图像或视频。比如如果给定一个只有深色北京的狗和浅色背景的猫的数据集,所提取到的特征就很可能只强调颜色而忽略其他用于区分的核心部分,如脸和耳朵等。如果没有清楚地了解这些有偏向的特征,就很难全面地纠正他们,因此,未来工作的一个有趣主题是利用交互式可视化方法来解释特征有偏差的原因。在这个方面的关键挑战是如何权衡已提取的特征所需要保留或放弃的信息,同时如何以全面的方式将它们进行可视化。
  2. 此外,通过深度神经网络提取的深度特征中存在冗余,删除冗余特性可以带来非常多的好处,比如减少存储需求以及提高模型的泛化能力。但是如果没有清楚地了解特征的确切含义,就很难判断一个特征是否冗余。 因此,未来一项有趣的工作是开发一种可视化分析渠道,整体全面地传达特征冗余,通过专家对它们的探索来删除冗余,提升特征的质量。

6.2 Opportunities in Model Building

(1)Online training diagnosis
现有的用于模型诊断的可视化分析工具大多采用离线方式,即在训练过程完成后收集用于诊断的数据。 然而,随着现代机器学习模型变得越来越复杂,训练过程可能会持续几天甚至几周。 这种离线方式严重限制了视觉分析辅助模型诊断的效率。 鉴于此,我们非常需要一款可视化分析工具来在线同步诊断训练过程,以便模型开发人员能够识别异常训练过程并及时对潜在问题进行相应调整。 这可以在试错模型构建过程中节省大量时间。 在线诊断的关键挑战是及时检测训练过程中的异常情况。 与离线诊断不同,训练过程的数据会不断地输入在线分析工具中。 因此,还需要渐进式可视化技术来产生部分流数据的可视化结果。

(2)Interactive model refinement
最近的工作探索了利用不确定性来促进交互式模型的改进。但其实,改进交互式模型细化的空间仍然很大:

  1. 一个可能的方向是,由于细化过程通常需要多次迭代,因此可以从用户之前的交互中进行学习,并以此指导后期的迭代。 例如,在聚类应用中,用户可能会在某些实例对上定义一些“必须链接”或“不能链接”的约束,这些约束可用于指示模型在中间结果中拆分或合并一些聚类。
  2. 此外,可以考虑根据一些先验知识预测需要改进的地方。 例如,如果模型输出与某些公共或领域知识冲突,则可能存在一些缺陷,尤其是在一些无监督模型中。 因此,这种基于知识的策略侧重于揭示模型产生的不合理结果,然后用户可以通过向模型添加约束来细化模型

6.3 Opportunities after Model Building

(1)Understanding multi-modal data
现有的内容分析工作在理解文本、图像和视频等单模态数据方面取得了巨大成功。 然而,现实世界的应用程序往往包含多模态数据,它是几种不同内容形式的组合,如文本、音频和图像。例如,在医疗场景中, 医生综合分析病历(文本)、化验报告(表格)、CT扫描(图像)等多种数据,对患者进行诊断。 在分析这些多模态数据时,不能通过简单地结合从单模态模型中学到的知识来很好地捕捉不同模态之间的深入关系。采用多模态机器学习技术并利用其能力来揭示不同形式数据的见解更有希望。更强大的视觉分析系统对于理解这些多模态学习模型的输出至关重要。因此,可以考虑如何以一种一体化的方式有效地可视化多模态中学习到的联合表示。 有效的可视化将有助于理解多模态数据及其关系。 一些经典的多模态任务也可以用来增强视觉分析领域的自然交互。
(2)Analyzing concept drift for better performance
在实际应用中,通常假设从输入数据到输出值的模型映射函数是静态不变的。 然而,随着流式数据的不断加入,输入数据和输出值之间的映射可能会以意想不到的方式发生变化。 在这种情况下,在历史数据上训练的模型可能不再能在新数据上正常工作。 对于与训练数据不匹配的应用程序数据,这通常会导致明显的性能下降。 这种随时间推移的非平稳学习问题在文献中被称为“概念漂移”(concept drift)。
随着越来越多的机器学习应用程序直接使用流式数据,检测和分析“概念漂移”并最大程度地减少由此引起的性能下降非常重要。 在机器学习领域,发展了漂移检测、漂移理解和漂移适应三个主要研究课题来分析流数据中的概念漂移。 机器学习研究人员提出了许多自动算法来检测和适应概念漂移。 虽然这些算法可以提高学习模型在不确定环境下的适应性,但它​​们只提供一个数值来衡量每次的漂移程度。 这使得很难理解漂移发生的原因和位置。因此,模型开发人员需要有工具来直观地说明数据分布如何随时间变化、哪些样本会导致漂移,以及如何调整训练样本和模型以克服这种漂移。 这个部方向的主要挑战是:

  1. 如何直观地表示流数据随时间的演变模式,并有效地比较时间点之间/之间的数据分布。
  2. 将这种流数据可视化与漂移检测和自适应算法紧密结合,形成一个人在循环的交互式渐进式分析环境。

7 Conclusions

本文全面回顾了机器学习视觉分析技术的最新进展和发展。并且将这些技术按相应的分析阶段分为三组:模型建立前的技术、模型建立中的技术和模型建立后的技术。 每个类别都有典型的分析任务,每个任务都有一组代表性的作品。 通过综合分析现有的机器学习视觉分析研究,作者还提出了未来与机器学习相关的视觉分析研究的六个方向,促进研究者对该领域最先进知识的理解,并为未来的研究提供启示,极具理论指导意义!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
收款日期 租期起始日期 租期终止日期 租期单价 租期(月数) 租金 2022-12-25 2023-01-15 2023-04-14 20 3 600 深度学习在OCR和文档理解方面的应用综述 OCR(光学字符识别)和文2023-03-25 2023-04-15 2023-07-14 20 3 636 2023档理解是深度学习的重要应用之一。已经提出了许多深度学习方法来-06-25 2023-07-15 2023-10-14 20 3 673 2023-09应对OCR和文档理解的问题。其一些最流行的方法包括卷积神经网络(CNN)、-25 2023-10-15 2024-01-14 20 3 711 2023-12-25循环神经网络(RNN)和注意力机制。 CNN被用于OCR从文本图像提取 2024-01-15 2024-04-14 20.12 3 605.12 2024-03特征。这些特征被送入分类器以识别字符。CNN也被用于文档理解,例如-25 2024-04-15 2024-07-14 20.12 3 643.66 2024在文档图像检测和识别物体。 RNN被用于OCR识别手写文本。R-06-25 2024-07-15 2024-10-14 20.12 3 682.81 NN可以处理可变长度的输入序列,这使它们适用于识别手写文本。RNN也被2024-09-25 2024-10-15 2025-01-14 20.12 3 722.用于文档理解,例如识别文档的结构并从提取信息。 注意力机制已被用58 2024-12-25 2025-01-15 2025-04-14 20.34 3 610.22 2025-03-25 2025-04-15 2025-07-14 20.34 于OCR和文档理解,以聚焦于图像或文档的重要区域。注意力机制允3 649.28 2025-06-25 2025-07-15 2025-10-14 20.许模型有选择性地聚焦于输入的某些部分,这可以提高性能。 总的来说,深度学习已经在OCR和文档理解方面展示了巨大的潜力。然而,仍然34 3 689.01 2025-09-25 2025-10-15 2026-01-14 20.34 3 729.41 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值