论文阅读-VAET:电子交易时间序列的可视化分析方法


前言

本文阅读的论文是由陈为教授带领的浙江大学可视分析小组在2014年发表的一篇非常优秀的IEEE TVCG顶会论文VAET: A Visual Analytics Approach for E-transactions Time-Series,2014年是中国电商快速发展的一年,随着行业整合以及资本的强势入侵,整个网络零售市场格局也日趋明朗,从之前的混乱局面逐渐走向清晰,每秒都会产生并存储大量的网络交易数据。
在这样的时代背景下,本文提出了一个电子时间序列的可视化分析系统VAET,利用决策树计算技术,创新性的提出了TOS Map以及KNOTLINES这两种数据表达方式,同时提出了利用显著性分析计算来过滤数据,旨在展示交易时间序列,分析多个用户的交易模式,帮助研究人员将多元的复杂数据筛选、处理整合成为便于接受的视觉形式,从而帮助人们挖掘其中的有效信息。


一、VAET系统是什么?

可视化:即程序生成的图形图像,这个程序可以被应用到不同的数据,数据可视化的研究方向实质是两个方面:理解可视化如何传递到观者以及开发能有效创造可视化的原理和技术,我们从第一个方面入手,对本篇论文的最终实现的系统界面一览
在这里插入图片描述

  • a)TOS Map详情请看3.4
  • b)KontLines 视图显示了交易的详细信息,如商品类型、售卖时间、地点等信息,线条揭示了交易与时间趋势之间的联系,可以将上下文呈现给分析人员,详情请看3.5
  • c) and d) 代表了所选交易的项目量
  • e) 展示了详细的交易信息
  • f)辅助视图的统计信息

本文面向大型电子交易时间序列,提出了VAET系统,有以下几个优点:

  • 可以使分析人员交互式的探索大型交易数据集,帮助研究人员提取以交易行为时间趋势为主要研究方向的传统研究中往往忽视的有效信息,获取关键见解
  • VAET采用了概率决策树学习器,可以自动的在大型时间序列估算眉笔交易的显著性
  • 兴趣交易还使用了KnotLines进行了编码,Knot是一种紧凑的可视化表示形式,可以帮助分析人员探索选择调查感兴趣的节点

本文采用了2600万条记录来证明VAET的有效性

二、VAET系统简介

2.1 现状的不足:

海量数据的每一条都蕴含着详细的信息:包括时间戳、买卖方的ID等等,掌握了用户偏好对与电商交易极其重要,而时间序列对于学习用户偏好又至关重要。但是目前电子交易时间序列模型存在以下痛点:

  • 挖掘不到买卖方的多个交易和时间上下文联系,而这些联系往往蕴涵着一些买卖方的特殊关系,如批发商和供货商
  • 不方便挖掘一些典型的交易模式,如圣诞节卖方常常进行促销活动来频繁的交易大量的商品
  • 难以挖掘大量交易数据中的感兴趣的模式,比如说电商刷单这种恶劣行为
  • 难以在交易上下文中检查单个交易,比如付款金额少但是商品交易数量大的虚假交易,传统手段很难观察,而借助可视化就可以非常方便的找到这种行为

于此同时,在2014年,自动挖掘数据过程不足以灵活并且精准的解决上述问题,因为电商交易产生的数据实时性强、变化复杂,所以需要分析人员的感知能力以及领域知识,通常,分析师需要迭代查询数据集并且检查属性值和检索到的交易之间的关系来手动识别重要交易,可视化系统可以简化过程并且提高整体运营效率,但是当时并没有可供使用的可视化分析系统。

2.2 VAET如何解决:

针对以上问题,VAET通过两个主要的可视化分析组件来解决:
(1)Overview:可以帮助分析人员从大型数据集中有效判别重要交易,重要性是由某个事务和某个分析任务的相关性来衡量的,我们通过概率决策树来计算,从而帮助挖掘一些宏观交易模式,如买卖房关系、圣诞节促销
(2)Detail view:可以选中感兴趣的时间进行详细观察,我们可以使用KnotLines来进行观察,来解决电商刷单、虚假交易等行为。

2.3 VAET的主要贡献:

  • 提出了一个可视化分析系统,可以使分析人员灵活有效的分析大型电子交易时间系列
  • 提出了一种从大型数据集中检测和可视化重要交易的方法
  • 提出了一种新颖的视觉隐喻,用于紧凑放置编码多用户事务的区别属性以及时间上下文的相关性

3 VAET采用的主要技术:

3.1 处理的数据形式:

电子交易记录包括:

  • User information:年龄、性别、位置
  • Transaction information:时间戳和有关商品的其他信息,例如支付金额、数量和销售类别

3.2 显著性分析:

VAET将分析师常常感兴趣的行为分为四个类别,并通过“显著性”(saliency)计算交易模式和这些行为的相似度,从而将其分离出来,步骤如下:

Step 1 利用决策树进行显著性计算
这个过程需要研究人员手动标注数据来构建

Step 2 使用TOS映射浏览和选择
将显著性值映射到紧凑的TOS映射中,颜色和显著性值相对应,从而帮助研究人员发现他们

Step 3 使用KontLines进行详细分析
可以研究多个属性的上下文关联,并且研究人员可以标记他们,反馈到步骤中,从而继续迭代
在这里插入图片描述

3.3 决策树计算

通过定义和计算一组交易特征来计算每一条记录的显著性值,决策树可以处理连续属性和分类属性,决策树对每一个记录可以产生一个0到1的概率。用作显著值,也方便训练。
特征提取:
VAET为每个交易计算一组分析师制定的时间和上下文特征作为一组特征,通常定义了三种类型的特征:

  • 基本特征:属性的值,如付款金额,还可以定义新特征如下图所示的重要客户
  • 文本特征:文本信息如商品的评论,如敏感词“退钱!”,分析师可以构建敏感词词典
  • 时间序列特征:使用单位时间间隔中买方的交易频率来作为时间趋势的度量,可以反应买家的声望
    下图可以看到特征的一个具体实例:
    在这里插入图片描述

使用概率决策树估计显著性
算法基于特征将训练机递归地分为子集,叶子代表一个类显著(salient)还是非显著(non-salient),内部节点对应着一个判别要素,每个内部节点,产生最大归一化信息收益并且将特征分配给该节点的特征,并且将样本划分为子集(这里采用的是C4.5算法,学机器学习的时候学过,所以不再非常详细的介绍,不懂的同学可以查看这里) 构造的决策树通过特征将每个未标记的事物分为显著的和非显著的
在这里插入图片描述

3.4 Time-Of-Saliency Map

为了探究大量事务的显著性,我们使用TOS来以可视方式显示他们(图5(a))TOS地图基于2D密度显示:横轴为时间,纵轴为商品的类别。
TOS地图均匀的映射在几行,5(a)右侧的彩色框为可视索引,每个交易根据其时间戳和销售类别投影到相应的单元格中。
将显著性求和,可以得到单元格的颜色,灰色区域代表了一组潜在的兴趣交易模式,特别说明,连续的黑带表示一段时间内对应销售类别中的重要交易,分析师可以选择自己感兴趣的时间窗口(图5(b))、商品类别、区域信息
在这里插入图片描述

3.5 KNOTLINES:详细分析交易的方法

KnotLines可以可视地呈现两种类型的交易:属性和交易的时间趋势

数据组织和视觉布局
为了研究交易之间的属性相似性和时间相关性,交易集具有三级层次结构树,如上图Fig6所示,三级表示的每一层为:

  • 第一层,根据不同的卖方,整个选定的交易集为n组,每一列为一组
  • 第二层,根据时间戳,每个正方形为一组
  • 第三层,根据销售类别分组,小方格内颜色相同的的为一组(截面)
    在这里插入图片描述

视觉布局的紧凑表示

由于交易是有时间聚积性的,并且组数很大,因此矩阵的交易密度会很稀疏,所以我们将矩阵状态重新布局:

  • 删除第一个非空子组之前和最后一个非空子组之后的空子组(掐头去尾)
  • 采用迭代布局策略优化组的放置,迭代布局满足:
    • 整洁(组不应该重叠);
    • 紧凑(空间利用率高);
    • 具有代表性:重要的具有优先展示的权利:基于显著性和相似度
      如果两组的时间跨度具有一个或者多个公共的时间间隔,那么应该将他们放在不同的航中,并且可以将不重叠的组放在同一行中如图7(b)中的Seller1和Seller3组。

在这里插入图片描述

KnotLines使用上图的贪婪算法进行布局计算,上图7b使用的散点图在数据多时十分混乱;难以识别同一卖方的交易;视图中没有重要信息如交易的金额、交易是否缺少价值、是否经常发生相同的交易。

提出KnotLines
作为一个改进的散点图,收到音乐符号的启发(秒啊!!常年学钢琴的我直接拍手叫绝),在时间轴上放置了不同类型的点,同一部分的所有交易量都汇总到一个相对大的点中,如果具有属性的缺失值,那么点中有空心,如果交易频率非常高,则使用标签标识。
子图中所有节点的结都放在标签的左侧。
由于付款金额是最重要的属性,我们将它设为标签的长度,水平位置由时间间隔决定。
为了强调同一卖方的交易,我们将他们的标签段连接,可以看到支付金额的波动。
在这里插入图片描述

我们可以设定显著性的阈值,如0和0.8(下图)我们选择一个节点的时候,他会突出显示,分析师可以看到详细的信息
在这里插入图片描述

4 实例分析

2600万在线电子交易,涉及930万买方和卖方,希望检测虚假交易来确定卖方的信用额度:异常大量的商品、付款金额的巨大差异、特定买卖方的频繁交易以及价值超过正常范围的属性。
在这里插入图片描述

首先,分析师开始在TOS地图中进行勘测,注意到一个区域有很高的显著性(颜色比较密集)。
随后指定了时间窗口,并且放大到了所需的区域,发现很多交易在9月19日上午10点杯归类为书籍。分析人员在下图b区域节点上有连续的红色节点,表示在卖方在特定的时间内进行频繁的交易,发现这些交易属于充值卡,并且评论说是促销活动,没有异常。
接下来他将显著性的值提升到了0.8,发现了多个没有填充的节点,一看,哦,原来是没有地址,并且在一段时间内急剧增加,所以这些交易可能与积分有关系,一查果然是。
在这里插入图片描述

在这个例子中,电子配件类别的商品总数比其他销售类别大得多,也许是一个促销活动,但是随着进一步的发现,他没有发现较高的标签长度,所以说明商品数量很大,但是付款却很低,并且卖方在一段时间内交易的数量很少,所以是在刷货。
在这里插入图片描述

总结

文章的最后有介绍了一些用户的使用体验,到这里相信大家已经对这篇论文有了一定的了解。这篇14年的论文如今读起来依旧是非常的有意思,其中提出的音符散点图实在是让我感到惊喜,希望大家可以爱上可视化这个充满魅力的方向!@[TOC](这里写自定义目录标题)

论文链接:https://zjuvag.org/publications/vaet/

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值