全球顶级的5个数据可视化案例
摘要:
当数据进行可视化后,就有了参考点,可以用各种合适的方法重新处理数据或进行测试,这能使企业能够更快、更平稳、更有效地发展。这也可以让它们在利益和名声受损之前排除一些问题。
美国Kimberly-Clark公司的全球总监Robert Abate说道:“每个人都认为其他所有人都在研究,所以都说自己也在研究。”
一语中的。
一些人知道大数据的真正含义,然而其他人声称自己懂大数据,只是为了让他们看起来并不低人一等。尽管大数据是一个热门话题,但是对许多企业和数据专业人员来说,它仍然很难理解。不清楚其价值所在,就更谈不上该如何利用了。
大数据对企业那么有用是因为它可以给企业的许多问题提供答案,而这些问题他们先前甚至都不知道。换句话说就是它提供了参考点。有了这样大的信息量,公司可以用各种它们认为合适的方法重新处理数据或进行测试。这样,就能用一种更容易理解的方式查明问题。收集大量数据,并在数据中发现趋势,使企业能够更快、更平稳、更有效地发展。这也可以让它们在利益和名声受损之前排除一些问题。
尤其是跟信息图表和可视元素用在一起时,能够更快地得到问题的答案。
举个销售类的例子,Abate的团队帮助他们的客户整理数据。他们从数据集中删除了任何不相关的或离群的数据,从而缩小到一个关键问题或用户信息统计。这样,他们就能分辨出哪一类产品出售的多,哪一类产品没有出售,因此可能要被淘汰。他们关注4个主要的数据:收入、频率、价值、年期。Abate先生强调,同一时间,在任何给予的可视化范围内,超过4个数据就会让人更难跟踪。通过淘汰没有出售的产品,他们正在减少浪费来增加未来的收入。但是没有数据可视化,他们不可能完成这项工作。
接下来,我们就看一下,全球顶级的5个数据可视化案例。
一、航线星云
关于洞察
截止到2012年1月,开源网站OPENFLIGHTS.ORG上记载了大约6万条直飞航班信息,这些航班穿梭在3000多个机场间,覆盖了500多条航线。
通过高级分析技术,我们可以看到世界上各家不同的航空公司看起来就像是一个美丽的星云(国际星云的组成部分)。同种颜色的圆点和粗线提供了见解,它们代表提供相同航线的航空公司,显示出它们之间的竞争以及在不同区域间的潜在合作。
这张基于数据可视化的Sigma图表显示了服务城市相似的不同航空公司。图中的圆点或圆圈代表航空公司,连线的粗细和远近则反映两个航空公司之间的相似性;连线越粗或越短则代表两家航司服务的城市越相似。图表中有几组航空公司,直观地表现了它们所服务的地理区域。
这张图表中的关键洞察当然地是航空公司之间的相似性甚至是重叠,它们是中国的南航和东航、阿联酋航空和卡塔尔航空、英航和汉莎航空、美航和达美航空;我们可以从中看出这些公司之间的竞争关系。瑞安航空则通过服务与汉莎航空和英航存在潜在协力的城市占据了一个利基市场;比起意大利或汉莎等其他的欧洲航司,法国航空则与美国联航等美国航空公司更为相似,这也许可以解释为联合品牌效应。本质上说,这是一张多维的韦恩图,用一种简明扼要的方式揭示了不同主体间的复杂关系。
总的来说,这张图表揭示了不同航司之间的相似性和竞争情况,有利于发掘潜在的合作关系、增加市场份额和市场覆盖面。这项技术可以通过不同参与者之间的相同变量,用于分析任何生态系统。
分析技术
这张可视化图表通过Aster App中心生成,运用到了关联挖掘的分析技术,研究上下文中各条目的共现关系。其中关联挖掘的算法是协同过滤,它作用于航线和城市数据,并将数据当做零售篮子数据。也就是说,篮子代表城市,而航空公司则是条目。两个航司之间的相似性由相似性得分确定,计分的原则是比较各个航司独有的航线以及同时运营的航线。之后再将这些成对的相似性得分当做连线的权重,再把各个航司当做节点,共同输入可视化仪器当中,运用具有模块上色技术的force-atlas算法,最终生成出这张美丽的图表。
二、Calling Circles
关于洞察
我们无论何时何地都在使用手机并且产生出非常大量的资料,这些资料代表了我们每天的行为及活动。我们与其他人的每通电话及简讯都对应到我们的社会关系、商业活动以及更广泛的社群互动并且形成了许多复杂互相联结的通话圈。
这个资料视觉化图表是从行动电话使用者的通话模式资料所制作的。每个点都代表一个使用者拨出的手机号码,愈大的点就代表这个号码被拨打愈多次。每条两点之间的线都代表着从一个号码拨打到另一个号码。
每个行动电话使用者都会有一种独特的通话模式,这种模式可以用来发展适合的话费方案并且可以用来定义或预测他/她的行为。举例来说,当一个使用者正要从现在的行动电话服务商转换到另一个服务商时,我们可以从网内及网外发现两个类似的通话模式。
这张特别的图表是在前期由一连串的分析产生用来过滤第一层的通话模式。这里使用到的资料只从在几秒钟的时间取得。从图表的左上角可以看到许多大回圈,这些回圈表示短时间内这些号码被拨打了许多次。可以推测这些号码有可能是机器,像是自动答录机、互动式语音应答(IVR) 系统、安全系统或警报。人类不可能在短时间拨出这么多电话。这些电话会先放置在一个分开的群组,后续的分析就可以集中在个人使用者的通话模式上。
分析技术
我们利用图表来达成资料视觉化,虽然在调整版面格式的参数与传统展示图表不同。有一个常见的问题就是这些互连的图表通常在短时间就会变成非常巨大且因为庞大的互动次数导致几乎不可能被视觉化。从一个高度连结的图表里选出一段范例是一个困难的问题,因为我们需要决定忽略哪些连结。在这个例子里,我们取用来自非常短的时间的资料来达到一个可以呈现的资料范围。
资料格式就相对简单,拨话号码、收话号码、拨话时间、通话时间。我们先利用机器学习(machine-learning) 来对资料作分群然后再利用Aster Lens 来展示图表。
三、互联网络
关于洞察
这一匿名可视化报告用于支持一家Telco运营商分析住宅Telco线路。该项目旨在确定线路与网络硬件性能之间的关联,此类关联可能影响到客户体验。
点(节点)代表Telco网络上的DSLAM(数字用户线接入复用器)。DSLAM提供了一项重要服务,能够影响客户呼叫体验;它们可将客户线路连接到主网络。
DSLAM服务级别有多项测量指标,例如衰减、比特率、噪声容限和输出功率,并可针对每条线路整合至三个性能类别。紫色节点显示具备卓越性能的DSLAM,橙色显示具备出色性能的DSLAM,白色显示性能较差的DSLAM。
在图表中,仅少数DSLAM体验到了高质量服务(紫色)。这些 DSLAM 在同一建筑中与主网络基础设施共置,由于靠近中央网络中枢,从而带来了优质服务。大多数客户实现了出色体验(橙色),同时我们发现城市郊区存在服务较差(白色)的DSLAM。
当客户获得可变网络质量时,客户体验和满意度会受到很大影响。Telco的主要目标是确保客户获得一致的体验,即使是那些身处主城市外部的用户也不例外。此图表确定了每个提供可变服务级别的 DSALM;以出色(橙色)和较差(白色)簇之间共享的节点表示。借助这一数据,Telco现在能够调查和优化可变DSLAM。
分析方法
这一西格玛可视化报告使用内建分析和在Teradata Aster平台内发现的可视化创建而成。
收到的数据来自整个城市的住宅线路,其属性包括衰减、比特率等。我们对这些属性进行了整合,以确定表明客户网络体验的性能等级。
这些簇构成了相关性和回归分析的基础,以确定在不同因素下网络性能的变化,这些因素包括:线路技术和长度、调制解调器类型和配置、DSLAM、卡技术、地理位置等。
该西格马可视化图表仅显示了整体分析的一部分,即DSLAM与网络性能间的联系。
四、综合数据库(IDW)淘金热
关于洞察
欢迎来到“中介大数据”的世界。在这个世界里,讽刺地是,大数据将被用于降低成本和优化大数据本身。
如果你可以看到一个大型的综合数据库(IDW)里面,你会发现那是一个由数百万相互关联的数据元素和对象交织成的巨大网络。在一个综合数据库每天加载数据时,成百上千的对象将在一个微小却精心设计的处理链上相互作用,并将越加相互关联紧密。在此过程中,数据被转化、整合,并生成出最终的用户视图和报告。
那很棒,但是,如果你想要缩减数据库加载时间,优化分析生态系统中的数据存储,或者想转到一个双活性系统时,那该怎么办呢?
首创“元数据科学家”保罗.丹瑟提出了这一无名的可视化方法。在Teradata 数据库一个很大的产品持续近20年的发展历史中,这个可视化第一次显示出数据对象网络的完全复杂性。金点(节点)显示数据库对象,灰线(边缘)显示他们相互的依赖性,因此我们可以看见那些微小而相互关联的过程链。大块密集群体是核心的、整合的数据结构,外侧疏散的岛屿则是集市。
可视化让我们能够看到,所有微小的过程链都是相互依赖,且按顺序排列的。因此,它就是优化IDW最好的工具。其图表可以被用来决定双活性选择,并能在没有依赖风险下,针对数据库对象顺序进行细节设计和部署。该可视化还可以揭露出大量各种各样的非正式遗产“提取转换与加载”模式(ETL),这些模式对优化新的加载和转换程序十分的异常与危险。
分析方法
预定的Java应用曾通过获取图形进行可视化,递归式地从每个对象中提取“数据定义语言”(DDL)。其对象均起始于Teradata数据库层次结构中的一个根。每个定义作为候补参考对象被搜索,并匹配一个模式,然后在内存中依据一个完整的数据库对象进行验证。一旦确定有效,“顶点”或者“节点”与“边缘”关系将会被加入“有向非循环图”对象中。
另外,一个对象列表也会输出指定一个有效的顺序部署。顺序是通过“拓补排序法”在图上决定的。有效的顺序部署有很多种。
Teradata系统配置的加载最小化,利用Java应用在客户端进行文本模型匹配和图形处理。
五、Branch社区之树
关于洞察
这张可视化图表被用于帮助开发和分析Qlik的开源程序员社区Branch,这个社区被设计成为一个互动性开放式的探索导航平台,而这个新的应用使得访客得以发现关于网站中用户、项目和它们之间关系的新含义。这张图表可以用来理解这个网络社区的社会动态,也能了解每个个体用户的行为。为了加深理解、获取洞察,关于相似性、类目、浏览量、评论和公司的元数据都被反映在这张图表中。
图中的圆点代表不同的项目,其大小代表浏览量的多少,这使得我们可以方便快速地发现那些最受欢迎的项目。节点还反映了项目的参与者及评论的多少,使我们能够直观地看到不同项目中合作程度的高低。图中的圆点按照产品类目进行聚合并着色;圆点之间的连线则代表项目之间就相似程度和用户群的联系。
图中最大的两个点集标识了Qlik社区对于可视化拓展的关注;此外还有七个中等大小、五个小型的点集,向我们展示了这个社区的发展空间。浅蓝色的线条连接着每个类目中的相似项目以及Qlik的两个主要可视化类目;绿色的连线给出了一个令人惊讶的信息:大多数贡献者倾向于跨越整个产品谱系开发项目,这也印证了Qlik分析平台的威力。
分析方法
这张网络可视图利用Qlik Sense生成。图中数据利用Kimono APIs从Qlik Branch网站中收集,并被存到Sense的储存器中。图中的分析主要关注哪些是已经公开的信息,之后也许会整合其他的网络分析技术。
这张可视化图表利用到了HTML, Java, CSS和高人气的D3.js数据驱动可视化库。最初的图层基于把相似项目拉到一起的力导向图;为了按类目进行项目分类,之后又增强了聚合力图层;最后再利用Danny Holten的分层边缘捆绑算法画出连线。我们将来计划开始利用Teradata Aster的K最近邻聚类、朴素贝叶斯分类器等功能,创造更多关于这个数据集的洞察。这张图表依然保持着与新用户活动的互动,并每天进行更新。