MaxCompute 挑战使用SQL进行序列数据处理

阿里云云栖号

于 2021-07-06 10:41:36 发布

阅读量810

点赞数

分类专栏：云栖号技术分享

本文链接：https://blog.csdn.net/yunqiinsight/article/details/118514208

版权

本文介绍如何使用MaxCompute的SQL处理序列数据，通过案例展示了在不能使用MR和自定义函数的情况下，如何利用窗口函数LAG和LEAD解决序列值计算问题，包括状态结束时间的确定和状态合并，强调了SQL在数据处理中的高效性和可维护性。

摘要由CSDN通过智能技术生成

简介： MaxCompute 挑战使用SQL进行序列数据处理 --而不是用MR和函数

日常编写数据加工任务，主要的方法就是使用SQL。第一是因为自己对SQL掌握的比较好（十多年数据开发经验，就这几个关键字，也不敢跟别人说自己不行），所以，MR和函数涉及不多。在接触MaxCompute这些年，写过的函数应该不超过10个，主要还是因为自己JAVA水平挫。记得早些年写过一个身份证号码校验函数，当时有个项目反馈一段SQL原来2分钟，使用我的函数就变成12分钟了。当时这个项目组还找到MaxCompute的研发，研发负责人又找到我，让我把我的代码调优下。我很惶恐啊，我是什么渣，我自己心里知道啊。最后还是厚着脸皮求研发帮我优化了下，性能终于改进了。这以后，我更不敢随机作函数了，毕竟MaxCompute官方建议尽可能使用SQL，SQL是优化过的方法，自己用MR和自定义函数性能是很难保障的。这也导致我至今在这方面也是渣渣，当然我认为错不在我，我只是听了“妈妈”的话而已。

最近很奇妙，接连有两个项目遇到了序列值计算的问题，还都是要求不能使用函数和MR。同事把问题送给我，我发现光读懂题都要半天（题目有点绕），不在一线搞开发太久了，有点生疏了。同样的问题，第一次搞了一天，第二次还搞了半天，没说很快能搞出来的，未免有点丢范。所以，总结出来跟大家分享下。

先说下什么是序列值的处理。表中的记录本身是无序的，但是业务上数据都是有序的，一般来说时间就是一个自然的序列。比如利用我一天的作息的时点记录，计算我一天吃了几次饭，吃了多久。乍一看，好像要写个函数。

问题模拟如下：

问题：吃了几次饭，都吃了多久？

条件：1-两个“吃饭”状态间隔在1小时内，算作一顿饭

2-最后一个“吃饭”状态后的下一个其他状态的开始时间，是“吃饭</