一、行级别合并:并集、连接与Desktop方法
- 数据合并:把来自不同数据源的数据结合在一起
- 在Tableau中,根据不同的合并方式和数据处理阶段,使用了不同的用词:数据并集(用于相同数据结构的上下相续),数据连接(基于关联字段把数据左右相连),数据混合(在视图层面把聚合数据做匹配)
1. 数据并集
- 结构完全相同指字段标题名称及其数据类型一致,任何一个的不匹配都会导致并集错误
- 创建并集的方法:
- (1) 打开Desktop,从左侧的数据连接面板连接本地的数据文件。
- (2) 三种方法任选其一,特定(手动)创建并集。
a. 双击左侧数据底部的“新建并集”
b. 在已有单表连接处点击右侧小三角图形,在弹出的菜单中选择“转化为并集”
c. 直接把另一个需要并集的文件拖曳到之前的图例下方,同时会有“将表拖至并集”的提醒。- (3) 使用“通配符(自动)”合并多个文件(可选)
- (4) 异常处理(可选)
- 注意:
- 数据整理主要用于Excel等本地数据环境中,极少用于数据库环境
- 虽然使用Prep Builder做数据并集会更直观、更简单,但初非必要,不要把数据整理和可视化分析分开,使用Desktop同步完成数据并集和可视化有助于保持思维的连贯性
2. 数据连接
(1)建立连接
(2)修改连接
3. 并集与连接的异同点
- 共同点
- 二者都是行级别的合并,并集是把多个文件的所有行都前后相续,了解是在每一行上匹配字段,行级别意味着没有任何的聚合计算参与其中
- 并集和连接的结果都是产生新的数据源,而不再是存在一个单独的数据表
- 既然是行级别合并,并且产生了新的数据源,因此一旦开始可视化分析的过程,数据源就保持不变,不能在分析过程中修改?具有这种特征的数据表,称之为“物理表”
- 差异
并集是相同数据结构的前后相续,连接是不同数据的左右相连(并集一定会增加行数,但不会增加新字段(除了Tableau自动生成的辅助字段)。连接必然增加字段的数量,但不一定增加行数,是否增加行数取决于连接方式和是否有重复内容)
并集比连接更优先
连接可以跨数据源连接,而并集限于同一数据源