1.概述
造数据在一些奇怪的场合会被用到。一般我们是先有数据才有基于数据的应用场合,但是反过来如果应用拿到另外一个场景,没有数据功能是没有方法演示的。
一般较为真实的数据,脱敏后就可以应用在功能测试和演示的场合。但是数据脱敏其实也满复杂(脱敏过重数据就用不了了,过低数据又泄漏了),所以自己模拟一些数据,似乎更安全。
我个人一般遇到的造数据场景有两个。第一,是有合作伙伴或者同事咨询一个SQL处理数据的方法,没有数据。第二,就是有时候会有POC的一些场景,没有提供真实模拟数据,需要自己模拟。
2.分类
如果是单一的业务场景的数据模拟,很多时候单表就可以满足了。但是要是模拟某个业务场景,或者POC测试场景则要模拟一个业务系统中的相互关联的多张表。
造数据,一般会都会有些用户需求,会有明确的业务场景的描述。也会有一些其他要求,例如:表的记录数、行的存储、字段的生成规则、字段的值域、字段的枚举值,还可能会给少量真实的数据。
2.1. 一个表
单独造一张表的数据可能非常简单,比如我们日常测试一个函数,测试一段SQL的JOIN逻辑。也可能非常复杂,构造一个表,也就相当于构造一个业务系统。
2.2. 一个业务系统
业务系统相对于单表来说只是表的数量增加了。而且,因为业务系统的表间是存在主外键关系的,所以,需要先造代码表(维度表),然后再造业务表(事实表)。
3.方法
造模拟数据的方法分为两个阶段,第一阶段是构造一个小表,产生代码表(维度表),然后第二阶段利用笛卡尔积快速乘出需要的数据量。在这其中,列的数据值填充可以使用随机函数生成。
3.1. 构造一个常量小表
Maxcompute最简单的造数据的方法是insert into values语句,这一般也是我最常用的。在不支持这个语句之前的更早的版本,使用的是union all的方法。如果不想实际写入数据到,则可以使用from values 和 with 表达式。
示例1:通过insert … values操作向特定分区内插入数据。
命令示例如下:
--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);
--向分区表srcp添加分区。
alter table srcp add if not exists partition (p='abc');
--向表srcp的指定分区abc中插入数据。
insert into table srcp partition (p='abc') values ('a',1),('b',2),('c',3);
--查询表srcp。
select * from srcp where p='abc';
--返回结果。
+------------+------------+------------+
| key | value | p |
+------------+------------+------------+
| a | 1 | abc |
| b | 2 | abc |
| c | 3 | abc |
+------------+------------+------------+
示例2:通过values table操作插入数据。
命令示例如下:
--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);
--向表srcp中插入数据。
insert into table srcp partition (p) select concat(a,b), length(a)+length(b),'20170102' from values ('d',4),('e'