part1.数据可视化之美
思考:地铁线路的表示方式?
为什么地铁线路这样表示,几乎只用直线和斜线?
为什么地铁线路的绘制几乎和距离无关?
人们乘坐地铁,更关心的是什么? 乘坐的站数。
数据可视化的目的
1.让数据更高效
2.让读者更高效阅读,而不单是自己使用
3.突出数据背后的规律
4.突出重要的因素
5.最后是美观
案例:
这张图突出了地铁线路哪条忙碌,哪条空闲。
将图云图和树形图相结合,可以直接看出演讲的中心词。优点是直观;缺点是有些数字是歪的,是竖向排列的,不是人横向排列的使用习惯,阅读性比较差。
part2.常见的初级图表
基础概念:维度(Dimension)与度量(Measure)
比如绘制柱形图,y轴就是度量,x轴是维度
数据示例与分析方法(Excel、SQL、Python)
常见的初级图表
1.散点图:
1.散点图:展示数据间规律
身高、体重都是度量;加入性别维度,用颜色区分。
2.气泡图:引入第三个度量作为气泡大小
GDP和寿命都是度量,引入第三个度量各国的人数用气泡的大小表示;维度是年度用颜色表示。
3.单轴散点图:侧重不同类别下的数据规律
散点图适用于:
客户消费维度
消费金额和消费次数的关系
消费金额和最后一次距今消费天数的关系
消费次数和最后一次距今消费天数的关系
客户其他消费维度
消费金额和消费折扣的关系
消费金额和会员积分的关系
消费次数和会员距离的关系
垂直领域消费维度
投资金额和投资次数的关系(金融)
最近一次距今消费和使用次数(SaaS)
2.折线图:
1.折线图:
观察数据随时间变化的趋势
折线最好不要超过10条,7、8条比较适合。
2.面积图:
关注数据类别间随时间的变化关系
3.柱形图:
1.柱状图:
展示类别之间的关系
2.直方图
柱形图的统计型变种;柱形图有宽距,直方图的宽距为0
3.柱形图的其他变形图
图1:正负比例图
图3:堆积柱形图
图:百分比堆积柱形图
图4:瀑布图(应用于正负关系比较敏感的数据)
4.饼图:
环状柱形图,展示类别比例,面向PPT
5.漏斗图:
转化过程的直观展示
6.雷达图:
个体数据和属性的可视化,常见于游戏中
part3.常见的高级图表
高级图表在excel里不常见,是通过编程来绘制。
1.树形图:
适用于数据量大且类别多的情况。会和多维分析结合,用矩形来表示。
2.桑基图:
揭示数据复杂变化趋势。最开始是展示能量变动。例如在谷歌的分析中常见到,比如分析一个网站的流量,揭示数据的变化趋势,比如说用户进入到首页之后会干些什么,可能会去目录a、目录b或其他子站点等,这种行为用漏斗图是画不出来的,漏斗图是单一线性的分析不出来复杂的图。例如用户的状态的变化,新、老、流失用户等,状态的转化。
3.热力图:
展示数据在空间上的变化规律
下图是地理空间的热力图,表示路线的拥挤度。
热力图不一定是地理空间,可以看周期性(一周、一月或一年)的规律。于折线图区分。
下图把每天分为24小时,来看规律。
4.关系图:
展现不同类别间的数据关系。
例如媒体的传播、用户帖子的传播、用户的关注等都可以用关系图展现。下图为一本书上的各个人物的对应关系。
5.箱线图:(区别直方图)
研究和观察数据分布,箱线图更多的是揭示数据的分布规律,直方图是单一维度分析,箱线图则比较复杂。
6.标靶图:
衡量业务销售完成情况
下图中红色的小竖线是KPI的基准,黑色的横粗线是销售的进度,灰色是百分比的占比(监控KPI达成的如何),这张图基本是给部门或老板看的,能分析的价值不大。
7.词云图:
文本分析工具
8.地理图:
展示数据与空间的关系。用经纬度来体现。
part4.图表绘制
基础图表使用Excel绘图,高级图使用BI和python绘图。
数据可视化分为两部分:1.信息图;2.数据图表。
1.信息图
下图是一张信息图,是在一张图上面拼凑许多图表来将一些信息和数据直观的展现出来,在加上设计感和艺术的装饰。
2.分析型图表(散点图、柱形图等,目的就是帮助分析)
下图是经济学人的分析图,用excel也能做出来
下图为环形图,用excel也能做出来
3.用excel制作一个Dashboard
part5.可视化BI(商业智能)
BI的重要性和应用
单一图表的局限性
报表和模型的结
仪表盘(Dashboard)的构建
使用场景分析
核心指标与二级指标
指标体系
part6.商业智能BI和大数据相关工具与技术
Hadoop Hive
Cognos
SQL Server
BIEE
BI、商业智能
数据分析
Python R语言
机器学习
大数据
QlikView
Tableau
数据挖掘
ETL
MySql
文档最后提供了一个网址www.hellobi.com,可能是用来获取更多关于商业智能BI和大数据的资源和信息。