深入浅出数据分析 - 数据图形化

4 数据图形化 – 图形让你更精明

开篇讲述了图形可以让你摆脱“一叶障目,不见泰山”的烦恼。

本文主要通过一个案例,引出了一个知识点“散点图”,讲述了数据图形的根本在于正确比较。

4.1 案例描述

一家在线服装零售商希望测试分析三个主页设计的优劣(条件一:加载速度  条件二:主页色调),选出能让销量最大化的主页

4.2 知识点

4.2.1 体现数据

创建优秀数据图形的第一要务是促使客户谨慎思考并制定正确决策;优秀的数据分析师由始至终都离不开“用数据思考”

针对数据太多的问题文中指出:不管数据有多庞杂,都要切记,记住目标,目光停留在和目标有关的数据上,无视其他。

针对图形美观的问题文中指出:让数据美观不是数据分析师要解决的问题,应该让数据图形解决客户的问题。数据图形的根本在于正确比较。

4.2.2 散点图

散点图是探索性数据分析的工具,用于让所有的一组数据中寻找一些假设条件进行测试的活动。

通过散点图发现因果关系,即一个变量影响另一个变量的关系;通常用散点图X轴代表自变量(假想为原因的变量),用Y轴代表应变量(假想为结果的变量)。

4.2.2.1 散点图的定义

散点图Scatter Graph, PointGraph, X-Y Plot, Scatter Chart或者Scattergram是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。通常用于显示和比较数值。

用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。

4.2.2.2 散点图提供的关键信息

1、变量之间是否存在数量关联趋势

2、如果存在关联趋势,是线性还是非线性的

3、观察是否有存在离群值(如果有某一个点或者某几个点偏离大多数点,也就是离群值),从而分析这些离群值对建模分析的影响。

4.2.2.3 数据的相关关系

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如右图所示。那些离点集群较远的点我们称为离群点或者异常点(Outliers)

4.2.3 多元图形

如果一个图形能对三个以上变量进行比较,这张张图形就是多元图形;变通方式:同时展示多张图形,体现变量变更。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值