文章目录
1 可视化
- 数据可视化
利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。 - 应用领域
最早运用于计算机科学中,并形成了可视化技术的一个重要分支——科学计算可视化
科学计算可视化能够把科学数据,包括测量获得的数据、图像或是计算中涉及、产生的数字信息变为直观的、以图像图形信息表示的、随时间和空间变化的物理现象或物理量呈现在研究者面前,使他们能够观察、模拟和计算。 - 用图表讲故事
通过数据可视化,寻找三个方面:模式、关系和异常
1.模式:数据中的某种规律
2.关系:各影响因素之间的相关性,也指各个图形之间的关系
3.异常:问题数据
2 Tableau
2.1 Tableau家族产品
- Tableau desktop
桌面端分析工具,客户端本地进行安装,支持windows和Mac,可连接到各类数据源,通过拖放的方式快速地创建出交互、美观、智能的视图和仪表盘。
-
Tableau server
服务器端应用程序,用于发布和管理tableau desktop制作的仪表盘,发布和管理数据源,管理用户以及权限,通过web方式访问,支持浏览器进行分析。 -
Tableau online
是tableau的云商务智能平台,是tableau server的托管版本,通过发布为云服务,随时随地基于web浏览器或者是移动端进行实时交互的数据查询及分析。 -
Tableau reader
是一款免费的桌面应用程序,用来打开tableau desktop软件创建的视图文件,开发人员基于tableau desktop创建可视化的仪表盘,其他人通过tableau reader阅读分析内容。 -
Tableau public
是一款免费的服务产品,用户将创建的视图发布在tableau public上,可以分享到网页、博客或者是其他社交网站上。
2.2 Tableau产品优势
-
可以连接任何数据源
目前市面上的数据库,都可以连接。不能直连的,可以通过odbc连接。 -
学习门槛低
-
轻量级
Tableau 通过Tableau desktop,一旦与数据源建立了连接,就能通过简单的拖拽功能来创建一个报表,如果是其它工具从搭建环境到开发一张报表所用的时间是一天,那么Tableau是一个小时。但是要发布的话,还要搭建一个Tableau server。 -
更智能
1.自动识别唯独和度量、着色、自动求和等
2.推荐展示的方式
3.自动识别关联关系 -
亲切感
-
丰富的图表展示
heatmap、maps、treemap等,非常直观能够迅速帮助数据分析人员发现数据问题。
2.3 Tableau页面
2.4 Tableau数据与文件类型
2.4.1 数据类型
String、number、boolean、datetime是tableau的数据类型。从源加载数据后,tableau会自动分配数据类型,但如果满足数据转换规则,也可以更改某些数据类型。另外,用户必须指定计算字段的数据类型。
2.4.2 文件类型
.twb、.twbx、.tds、.tdsx、.tde、.tbm、.tps是tableau的文件类型。
2.5 Tableau数据源
Tableau可以连接到广泛使用的所有常用数据源。Tableau的本机连接器可以使用以下类型的数据源:
- 文件系统:csv、excel
- 关系系统:oracle、sqlserver、db2
- 云系统:windows Azure、Google BigQuery
- 其他源:odbc
2.5.1 数据源特征
-
实时连接
连接实时特性用于实时数据分析。在这种情况下,Tableau连接到实时数据源并继续读取数据。所以分析的结果是第二次,最新的变化反映在结果中。但在不利方面它负担源系统,因为它必须继续发送数据到tableau -
数据缓存
Tableau还可以通过将数据缓存在内存中的数据,并在分析数据时不再连接到源。当然,根据内存的可用性,缓存的数据量将有限制。 -
组合数据源
Tableau还可以通过将内存缓存在内存中来处理内存中的数据,并在分析数据时不再连接到源,当然,数据内存的可用性,缓存的数据量将有限制。
2.5.2 数据源连接
1.打开tableau,选择数据源,可以是文件或数据库或服务器
2.选中文件作为数据源后,会有一个预览界面,对数据源进行修改和编辑
3.确定好数据源及数据表之后,就可以在工作薄里面编辑和创建个性化的报表
2.6 Tableau基本操作
- 第一步:连结到数据源
创建任何tableau数据分析报告涉及3个步骤
1.连接到数据源:它涉及定位数据并使用适当类型的连接来读取数据
2.选择维度和度量:这包括从源数据中选择所需的列进行分析
3.应用可视化技术:这涉及将所需的可视化方法(特定图表或图形类型)应用于正在分析的数据。
- 第二步:选择维度和度量
通过决定维度和度量来选择要分析的数据
维度数描述性数据,而度量数数字数据。当放在一起时,他们帮助我们可视化关于作为度量的数据的维度数据的性能。选择类别和区域作为维度和销售额作为度量。拖放他们,如图所示,结果显示每个区域的每个类别的总销售额。
- 第三步:应用可视化技术
在上一步中,我们看到数据仅作为数字可用。我们必须读取和计算每个值来判断性能。但我们可以将它们看作是具有不同颜色的图表,一遍更快地做出判断。
我们将总和(销售额)列从“标记”标签拖到“列”货架。然后,显示销售额数值的表格会自动变为条形图。
2.7 Tableau连结方式
- 数据提取连结
数据提取是把数据从数据源加载到本地,可以实现离线分析 - 实时连结
数据是实时的,即与数据源同步,保存tableau文件时不会把数据存取到本地。如果选择的是“数据实时连结”,则可以选择“立即更新”或“后续自动更新”
2.8 Tableau多表连接
- 创建连结:
Tableau通过使用“数据”菜单中“编辑数据源”下可用的数据窗格提供了连接表的功能,让我们考虑数据源[示例-超市]在“订单”和“退货”表之间创建一个连接
- 编辑连结类型:
Tableau自动创建的连接类型可以手动更改,为此我们点击显示连接的两个圆圈的中间。将在其下显示一个弹出窗口,其中显示可用的四种类型的连接。此外,Tableau自动灰化某些类型的连接,它们根据数据源中存在的数据发现不相关。我们也可以尝试更改左连结,右连结与完全连结