文章目录
前言
这次阅读的论文是2014年浙江大学陈为教授带领的可视化分析小组在IEEE上发表的论文《Visual Abstraction and Exploration of Multi-class Scatterplots》,提出了一个新的视觉探索系统,支持从不同角度进行视觉检查和定量分析
一、简介
我们来结合上图引出本文,散点图在处理可视化离散数据集时被广泛应用,来探索异常值、聚类、局部趋势和相关性,但是,如a图所示,传统散点图在面对海量多源多类别数据时会产生的严重的重叠现象,从而使得数据分析率下降;本文收到艺术性地图设计的启发(见下图),提出了一个新的视觉抽象方案,优化颜色,如d图所示,采用分层的多采样技术来在简化的同时保留特征,可以看到圆圈圈出的部分处理前和处理后的点数差异(右侧),数据点大幅度减少,但是相对密度得以保留,同时增强了区域中的感知对比度。
本文提出了一种常规散点图可视化技术的补充手段,主要贡献为以下两点:
- 分层的多累采样方案。可以减少重叠并且保留点分布来进行定量分析。
- 用于多累点点交互式检查和分析点可视化探索系统
b、c图表示Splatterolots可能会合成一个新的颜色,并且系数地方但不孤单数据点被突出明显的表示出来,这种绘制轮廓的方式可能会产生误导性的表示,同时相对密度结束不能很好的保留(可以看到区域内的点数都变得和其他地方一样稀疏了);
二、主要技术介绍
上图左下角为传统填充色可视化数据集的方式,但是会丢失人口的过渡信息,如箭头所指的区域。所以Bill Rankin提出了点阵图技术,用彩色点直接表示,利用颜色和密度来区分种族和种族的大小。
2.1 散点图常用技术
2D图显示大量点点一个关键问题时透支问题,常规的解决方法的有三类:
- 更改视觉通道:高密度区域使用小点,低密度区域使用大点或者在三维上进行堆叠
- 密度估计:将绘图区域分为多个区域,并且按照落入其中的点数计算密度,但是却忽略了离群值(一个数据与其他数据差异较大);同时,对于多类散点图而言,同时编码和可视化多个密度长是非常困难的。本文的方法使用密度信息作为约束条件来对输入数据点进行重新采样,不会产生新的颜色
- 空间变形
2.2 点密度估计
密度估计是处理大型数据集时常用的方法,从给定的数据点创建一个连续的密度标量场。这里用的是KDE方法,详情
给定第I个数据类的数据点
X
i
=
{
x
i
1
,
x
i
2
,
x
i
3
.
.
.
.
,
x
i
m
}
X_i=\{x_i^1,x_i^2,x_i^3....,x_i^m\}
Xi={xi1,xi2,xi3....,xim}位置x处的密度可以通过以下公式计算:
f
i
(
x
)
=
∑
j
=
1
m
K
h
(
x
−
x
i
j
)
f_i(x)=\sum_{j=1}^mK_h(x-x_i^j)
fi(x)=j=1∑mKh(x−xij)K是一个核函数(非负、积分为1,符合概率密度性质,并且均值为0),确定重构密度场的平滑度。
2.3 保留特征的点重采样
点采样是减少数据点数量的一种基本工具,在这里使用dart throwing进行采样:我的理解,就是遍历。先随机从那堆点中选择一个点,然后以这个点为圆心以那个特定的距离值为半径画圆。如果下一个点落在这个圆中就换一个点,再进行尝试。直到找到一个不落在这个圆中的点,把它选出来。下次再进行尝试时要使得选出的点不落在以之前选出的所有点为圆心形成的任何一个圆中。如此遍历所有点,选出符合条件的点,然后结束。
在样品生成的过程中,将建立一个n*n的矩阵
R
x
R^x
Rx来进行冲突检查,n是数据类别
R
i
,
j
x
R^x_{i,j}
Ri,jx如下图所示,表示在x位置,各个类别距离约束,我们使用估算的密度来计算这个元素。
对于对角线上的元素,我们使用公式
ω
f
i
(
x
)
\omega f_i(x)
ωfi(x)来计算,其中w是用户可以调节的参数,1/w可以视为采样频率。
默认情况下,我们通过启发规则来计算w,对于2D散点图,采用正交投影方案来渲染数据点,令psi为渲染点的缩放比例,而r为点半径。采样频率参数近似为:
ω
=
r
ψ
f
‾
\omega = \frac{r}{\psi}\overline{f}
ω=ψrf
而f表示区域中所有数据类别的平均密度
一种简单的重采样方法是对由KDE技术生成的重建的连续密度场进行采样,但是可能会产生新的数据点,详情可以看4b中由橙色椭圆指示区域中的绿色点,这不太行。在本文的方法中,重采样的过程是由所有输入的多类数据点组成的离散采样空间中执行的,为了确保每个类别都采样良好,总是从当前填充不足程度最高的类别中随机选择新的一个实验样本,如果通过了冲突检查,那么他将被插入到数据点列别中。
a是输入散点图,b是在连续密度场中进行采样,c是指在离散空间中采样
2.4 保留一致性的分层抽样
缩放操作如果按照缩放比例直接重新采样,则可能回失去一致性,某些低级别的点被舍弃了,如下图第一行所示。为了实现平滑缩放,我们采用了分层采样的方法,psi从小到大,对应的采样从粗糙到精细,对于每一个后续级别,我们将预先计算的样本用作下一次采样运行的部分样本,算法一给出了为代码。
2.5 抽象可视化
我们擦用了两种技术来提高抽象点集合的感知质量,用来消除由高空间密度引起的视觉混乱。
2.5.1 点颜色
为了清楚的识别不同的类别,我们需要将重叠区域的颜色尽可能高的提高其可分辨性。
我们为用户提供了两种选择颜色的方法
- 基于友好的色相轮的选择界面:自由选择一组颜色来标记各个数据类别
- 自动颜色选择方法:我们提供了一种考虑了密度信息的颜色优化算法
假设散点图绘制在屏幕的矩形区域上,该区域进一步划分为M个局部区域,我们的自动颜色选择方法试图在CIELAB颜色空间中找到颜色集C = {C1,C2,…,Cn},以便可视化具有最大的颜色差异性。 Ci表示第i个数据类的颜色。 我们最大化以下目标函数以获得最佳颜色集:
E
c
o
s
t
=
∑
m
=
1
M
β
m
∑
i
,
j
<
n
,
i
<
j
α
m
,
i
,
j
∣
C
i
,
C
j
∣
E_{cost}=\sum_{m=1}^M\beta_m\sum_{i,j<n,i<j}\alpha_{m,i,j}|C_i,C_j|
Ecost=m=1∑Mβmi,j<n,i<j∑αm,i,j∣Ci,Cj∣
α
i
,
j
=
e
−
∣
f
‾
i
−
f
‾
j
∣
,
β
=
∑
i
=
0
n
f
‾
i
\alpha_{i,j}=e^{-|\overline{f}_i-\overline{f}_j| },\beta=\sum_{i=0}^n\overline{f}_i
αi,j=e−∣fi−fj∣,β=i=0∑nfi
其中,αm,i,j表示类别间权重,它衡量第m个局部区域中第i和第j类之间的颜色区分性的权重。 同时,βm表示类内权重,它衡量整个屏幕区域中第m个局部区域的权重。 | Ci − C j | 表示Ci和Cj之间的颜色可分辨性。 它由CIELAB颜色空间中的欧几里得距离计算得出,该距离在感觉上是一致的。
为了防止优化效果不理想,添加了一个约束条件:颜色在感知均匀的颜色空间中彼此之间的距离至少为d,距离越大,惩罚项就越大,也就是说距离越远,其影响越低。
在执行软约束后,它会产生一个最小化问题:
m
i
n
−
E
c
o
s
t
+
k
∑
i
,
j
<
n
,
i
<
j
E
p
e
n
a
l
t
y
(
C
i
,
C
j
)
min-E_{cost}+k \sum_{i,j<n,i<j}E_{penalty}(C_i,C_j)
min−Ecost+ki,j<n,i<j∑Epenalty(Ci,Cj)
E
p
e
n
a
l
t
y
(
C
i
,
C
j
)
=
m
a
x
(
0
,
1
−
C
i
−
C
j
d
)
E_{penalty}(C_i,C_j)=max(0,1-\frac{C_i-C_j}{d})
Epenalty(Ci,Cj)=max(0,1−dCi−Cj)
我们选择CIELAB颜色模型,由于下坡单纯形法迭代地工作并且易于收敛到局部极小值,因此我们使用随机初始化多次运行优化方法,并最终保留最佳解决方案。
2.5.2 点的形状
采样的数据点可以简单地呈现为屏幕空间中的圆点。 为了帮助进行局部相关性探索和分析,可以使用其他可视表示形式(请参见下图):
为了获得视觉上令人满意的结果,我们根据经验将椭圆的长半径和短半径之比限制为1.618。
三、视觉探索系统一览
如下图所示, 所有小部件和视图均设计为可折叠的,以便可以为主视图保留更多屏幕空间。
数据类列表视图汇总了所有数据类(图8(a))。用户可以将感兴趣的数据类拖到主视图中(图8(b))进行联合探索。图8©提供了一组可视化方法和交互工具。 位于左侧的是配置面板(图8(d))
接下来详细介绍每一部分:
- 数据类列表部分(a):这一部分在横纵坐标上放置统计不同类别数量的直方图,同时显示数据点的名字和数量。可以选中感兴趣的颜色
- 主视图的可视化效果:显示了所选数据类的全局图,从不同的角度进行交互探索数据
五、实例介绍
5.1 NBA球队的投篮热图
该数据集记录了2012-2013赛季几支NBA球队(包括迈阿密热火,金州勇士,孟菲斯灰熊等等)的投篮位置(老詹迷库迷狂喜)。 为了研究不同团队的投篮风格,我们将它们放在同一视图中以进行比较分析。
传统的散点图显示出严重的视觉混乱(参见下图(a))
下图(b)显示了splatterplot的结果,其中稀疏区域中的数据点是随机选择进行突出显示的。 我们可以在篮筐附近看到明显的棕色区域,因为当球员靠近篮筐时更容易得分。合成颜色可能会引起误解。 彩色编织方法可以帮助用户识别重叠区域中的不同团队(请参见下图©)但是这两种方法都不能回答以下两种需要定量分析的问题:
- 哪支球队在特定区域(例如,绿色矩形所示的区域)投篮更多?
- 球员更喜欢在哪里投篮?
图9(d)显示了我们的结果。 这表明灰熊队在绿色矩形区域(蓝色点占主导)中的投篮次数更多。 此外,迈阿密热火更喜欢在底角投三分(请参见每个结果右侧显示的突出显示区域),因为在这些区域中显示了更多的红点。 由于在这些稀疏区域中采用了随机采样模式,因此Splatterplots无法捕获此属性。 选择工具允许用户指定区域并检查准确的拍摄数量。、
5.2 移动用户数据集
该数据集记录了一个月中382,779名移动用户的详细使用情况和账单。 每个用户都有17个属性,包括加密的电话号码,套餐类型,总通话费用,总通话时间等。 在快速浏览总通话时间和总通话费用后,可以发现它们之间有很强的线性关系(请参见下图(a))我们使用套餐包类型来标记每个用户。 派生散点图是多类散点图。
我们首先使用Splatterplots [33]通过颜色混合和构造重构的密度场来研究密度分布。 亮度通道用于编码密度。 下图(b)中的结果清楚地显示了密集区域以及稀疏区域中的点。
在重叠的密集区域中,合成了新的颜色。 彩色编织方法可以避免此问题,并可以帮助用户识别重叠的密集区域中的类别(请参见下图©)。 两种方法的局限性在于缺少了不同类别之间的相对密度顺序。
图10(d)使用圆点表示法展示了我们方法的结果。 局部区域中的相对密度阶数可以通过可见点的数量来感知。 例如,具有“包装类型3”的用户在此视图的左下方占主导地位。 我们还可以发现,套餐2和套餐4的用户是突出显示的矩形中的主要类(请参见下图(d)),因为在此区域中显示了更多的青色和橙色点。 另外,在我们的结果中以点线表示清楚地显示了不同类型的相关性(请参见下图(e))套餐3和5中每个点的局部趋势大致遵循45度对角线,这可能表明类型3和5的包装不包含对最低费用的限制。 相反,套餐套餐2和封装类型4不具有这种特性,并且局部趋势几乎与总通话时间量平行。 这可能意味着每种套餐类型(1、2和4)对最低费用都有不同的限制。
总结
本文采用了一种用于多类散布数据可视化的替代方法。 在减轻重叠的同时,生成了输入点分布的可视化抽象。 为了帮助用户识别不同的数据类别,采用了颜色优化技术。以上就是今天要讲的内容。
论文链接:https://zjuvag.org/publications/visual-abstraction/