4.2 数据可视化

本文详细介绍了数据可视化的基本概念、作用以及各种方法和技术,包括网络可视化、多维数据可视化、文本可视化和交互可视化。重点讨论了网络图、相邻矩阵、GMap、平行坐标系、散点图矩阵、径向轴、降维技术如PCA和LDA,以及文本内容和语义结构的可视化。同时,提到了数据可视化工具如Tableau和D3,并强调了交互在可视化分析中的重要性。
一、 数据可视化介绍
1. 概念

数据可视化:是指以 图形、图像、地图、动画 等更为生动、易于理解的方式展现具体数据,诠释数据之间的关系和发展的趋势,以期更好地理解和使用数据。

大数据可视化分析利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。

二、数据可视化作用

在大数据时代,可视化技术可以支持实现多种不同的目标:

  • 记录、观测、跟踪数据
  • 分析数据
  • 辅助理解数据
  • 分析推理
    分析推理
  • 增强数据吸引力
三、数据可视化方法和技术
1. 网络(图)可视化技术

1.1 结点链接图
优:比较直观的反映网络关系;能够表现图的总体结构、簇、路径。
问题1:对于密集(尤其是关系密集)的图不是很适用。
关系密集图示

  • 问题1-解决1:图的简化-聚类可视化
    通过 聚类 减少 的数目。
    在这里插入图片描述
  • 问题1-解决2:图的简化-边绑定
    通过 边绑定 减少 的数目。
    在这里插入图片描述
    1.2 相邻矩阵
    矩阵内的位置 (i,j) 表达了第i个节点和第j个节点之间的关系。
    优:视觉伸缩性强,适用于密集的图。
    缺:可视化结果比较抽象,难以跟踪出路径。
    相邻矩阵
    1.3 GMap
    用平面代表实体,平面的连通代表实体关系的一种“地图”。
    GMap
2. 多维数据可视化技术

回顾 一、二、三维数据:
一、二、三维数据
多维数据定义:具有 多个维度属性 的数据变量。

2.1 平行坐标系
以 N 条平行的线为背景,每条线代表一个属性,一个在高维空间的点被表示为一条在 N 条平行坐标轴的折线,在第 K 个坐标轴上的位置就表示这个点在第 K 维的值。
平行坐标系

2.2 散点图矩阵

  • 散点图矩阵是散点图的高维扩展,它在一定程度上克服了在平面上展示高维数据的困难,在 展示多维数据的两两关系 时有着不可替代的作用。
  • 如果数据具有 N 维特征,需要一个 N * N 的散点图矩阵对它进行可视化。
  • 散点图矩阵会构建两种基本图形: 直方图散点图 。位于对角线位置的直方图让我们看到了每一个变量的分布,而对角线上下的散点图则展示了变量两两之间的关系。
    散点图矩阵
    优:直观显示两个维度间的相关性。
    缺:散点图数目与数据维度平方成正比。

2.3 径向轴
平行坐标的径向排列版本,如雷达图、星状图等。
雷达图和星状图的区别:

  • 雷达图是一体多维的数据,即可视化的对象是一个主体,只是这个主体具有多个维度上的数据特征;对比的是,同一个主体,在不同维度上的数值,可以看出主体在不同维度上的偏向。
  • 星状图是多体多维的数据,即可视化的对象是多个主体,且多个主体维度相同,单个主体具有多个维度上的数据特征;对比的是,多个主体在同一维度上的数值,可以看出不同主体之间的差异和侧重点。

简单理解就是,雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
雷达图 VS. 星状图
2.4 高维数据的降维
降维:使用线性或非线性变换把高维数据投影到低维空间。在这里插入图片描述
常用的降维方法:

  • 主成分分析 ( Principal Component Analysis,PCA )
    在这里插入图片描述

  • 线性判别分析 ( Latent Dirichlet Allocation,LDA )
    在这里插入图片描述

  • 多维定标 ( Multidimensional Scaling ,MDS )

  • 因子分析 ( Factor Analvsis ,FA )

3. 文本可视化技术

文本可视化将文本中蕴含的语义特征 ( 词频、逻辑结构、主题聚类、动态演化规律等 ) 直观的展示出来。

3.1 文本内容可视化
标签云 ( 最常用的可视化方法 )

  • 普通版本 ( 主要是使用一些主题词,然后根据这些主题词出现的频率,或者其它的一些排序规则,用字体、字体的大小、形状和颜色的来表达文本的内容 )
    在这里插入图片描述

  • SparkClouds ( 在传统标签云的基础之上呢,增加了一个时间的信息 )
    在这里插入图片描述
    3.2 语义结构可视化

  • DocuBurst、Phrase Nets
    在这里插入图片描述

  • Word Tree ( 最常用 )
    对文本中的每一个句子都用一个树形结构去表达。
    在这里插入图片描述
    3.3 文本动态可视化

  • 添加时间序列的折线图
    在这里插入图片描述

  • 河流图
    在这里插入图片描述

4. 交互可视化技术
  • 可视分析 是一种 通过交互式可视化界面 来辅助用户对大规模复杂数据集进行分析推理的科学与技术。
  • 表征交互 是数据可视化的两个主要成分。
    • 表征 ( representation ) 是用户的关注对象。
    • 交互 ( interaction ) 提供用户可操作的手段。
  • 交互的类型
    • 选择 ( Select ) : mark something as interesting
    • 探索 ( Explore ) : show me something else
    • 再布局 ( Reconfigure ) : show meadifferent arrangement
    • 视觉编码 ( Encode ) : show meadifferent representation
    • 抽象化 / 具体化 ( Abstract / Elaborate ) : show me moreor less
      detail
    • 过滤 ( Filter ) : show me something conditionallv
    • 链接 ( Connect ) : show me related items
  • 展示在可视化分析中的交互技术
    在这里插入图片描述
    • 向前映射
      在这里插入图片描述
    • 向后映射
      在这里插入图片描述
四、 数据可视化工具
  • 底层程序框架:OpenGL、Java2D
  • 第三方库:D3、Echart、Google chart、Highcharts
  • 软件工具:Tableau 、Infogram、Datawrapper、Gephi
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dataer__

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值