Maxcompute 造数据 - 方法详解

1.概述

造数据在一些奇怪的场合会被用到。一般我们是先有数据才有基于数据的应用场合,但是反过来如果应用拿到另外一个场景,没有数据功能是没有方法演示的。
一般较为真实的数据,脱敏后就可以应用在功能测试和演示的场合。但是数据脱敏其实也满复杂(脱敏过重数据就用不了了,过低数据又泄漏了),所以自己模拟一些数据,似乎更安全。
我个人一般遇到的造数据场景有两个。第一,是有合作伙伴或者同事咨询一个SQL处理数据的方法,没有数据。第二,就是有时候会有POC的一些场景,没有提供真实模拟数据,需要自己模拟。

2.分类

如果是单一的业务场景的数据模拟,很多时候单表就可以满足了。但是要是模拟某个业务场景,或者POC测试场景则要模拟一个业务系统中的相互关联的多张表。
造数据,一般会都会有些用户需求,会有明确的业务场景的描述。也会有一些其他要求,例如:表的记录数、行的存储、字段的生成规则、字段的值域、字段的枚举值,还可能会给少量真实的数据。

2.1. 一个表

单独造一张表的数据可能非常简单,比如我们日常测试一个函数,测试一段SQL的JOIN逻辑。也可能非常复杂,构造一个表,也就相当于构造一个业务系统。

2.2. 一个业务系统

业务系统相对于单表来说只是表的数量增加了。而且,因为业务系统的表间是存在主外键关系的,所以,需要先造代码表(维度表),然后再造业务表(事实表)。

3.方法

造模拟数据的方法分为两个阶段,第一阶段是构造一个小表,产生代码表(维度表),然后第二阶段利用笛卡尔积快速乘出需要的数据量。在这其中,列的数据值填充可以使用随机函数生成。

3.1. 构造一个常量小表

Maxcompute最简单的造数据的方法是insert into values语句,这一般也是我最常用的。在不支持这个语句之前的更早的版本,使用的是union all的方法。如果不想实际写入数据到,则可以使用from values 和 with 表达式。

示例1:通过insert … values操作向特定分区内插入数据。
命令示例如下:

--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向分区表srcp添加分区。
alter table srcp add if not exists partition (p='abc');

--向表srcp的指定分区abc中插入数据。
insert into table srcp partition (p='abc') values ('a',1),('b',2),('c',3);

--查询表srcp。
select * from srcp where p='abc';

--返回结果。
+------------+------------+------------+
| key        | value      | p          |
+------------+------------+------------+
| a          | 1          | abc        |
| b          | 2          | abc        |
| c          | 3          | abc        |
+------------+------------+------------+

示例2:通过values table操作插入数据。

命令示例如下:
--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向表srcp中插入数据。
insert into table srcp partition (p) select concat(a,b), length(a)+length(b),'20170102' from values ('d',4),('e'
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值