自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 一个url的组成部分-简版

本文为您提供MaxCompute SQL支持的字符串函数的命令格式、参数说明及示例,指导您使用字符串函数完成开发。本文为您提供MaxCompute SQL支持的字符串函数的命令格式、参数说明及示例,指导您使用字符串函数完成开发。MaxComputeSQL支持的字符串函数的命令格式,参数及示例_云原生大数据计算服务 MaxCompute-阿里云帮助中心。MaxComputeSQL支持的字符串函数的命令格式,参数及示例_云原生大数据计算服务 MaxCompute-阿里云帮助中心。

2023-08-18 16:12:02 756 1

原创 为什么在doris/starrocks中建表必须指定分桶键

Range+Hash 数据分布方式:一张表拆分成多个分区,每个分区按照分桶键和分桶数量进一步进行数据划分。Hash 数据分布方式:一张表为一个分区,分区按照分桶键和分桶数量进一步进行数据划分。这些Tablet又会在多个BE中存多个副本,来保证数据的高可靠。tablet是starrocks中是数据均衡和恢复的最⼩单位。数据导入和查询最终都下沉到所涉及的 Tablet 副本上。是按文件存,不分区,就存储整个文件,而。中仍是分区比分桶范围更大,只不过对比。

2023-08-07 17:44:42 439 1

原创 大数据中常见英文单词及缩写(持续更新)

因为本人不是计算机专业出身,有些专业名词及缩写并不知道啥意思,在工作时有些表及字段的命名会有这些名词缩写,故总结了以下表格,可以快速熟悉相关内容。大数据中,cube是对数据进行与计算,基于原始数据进行多维度聚合运算,存在多维数组和矩阵中,再次查询数据时无需遍历全部数据。

2023-08-02 16:30:44 689

转载 超级好文:元数据管理、指标管理、数据模型评价

上一篇文章主要介绍了数据中台的原理知识,现在开始介绍数据中台的实现篇章,主要从3个方面来说明,第一个是元数据的管理,第二个是指标的规范的管理,第三个是数据模型的建立。那么如果你面临这些问题,该如何规范化定义指标呢?我提供给你一些经验,希望你能从中学习到如何高效、规范化的管理指标。为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标(业务线是顶级目录)。电商、游戏、音乐、传媒、教育都是不同的业务线。

2023-08-02 16:23:41 948

原创 MapReduce中的mapper个数决定(很全)

即上面两个的较小值,即满足各种参数设置下的最小map数。

2023-08-02 16:21:07 1056

原创 按分隔符分割字符串(DB2/mysql/hive/Oracle)

数据开发常用:SQL按分隔符分割字段

2023-05-29 16:20:43 3464

原创 DB2上的寄存器,虚拟表

select ‘其他’ from sysibm.dual。

2023-05-19 18:13:06 479 1

原创 DB2中insert 一张五千万的数据表的解决办法

在生产中,需要将一张表的有五千多万条数据量的表从Oracle中跑到DB2中,但发现insert 2个小时也出不来。等着一直跑,因为是insert,肯定会跑出来,但是ETL的时候会非常慢。注:在使用时,注意要插入的select查询的sql中用可能要用单引号转义。

2023-05-19 18:11:01 505 1

原创 一次弄懂sql中的join——快速简单

join全总结

2023-05-19 18:05:38 143 1

原创 尚硅谷SQL题 思考5分钟被卡住的(持续更新)

期望结果:其中我一看到登入登出时间,就想到了那个打标签的sql题,就一直陷入到那个思维定式里面了,但其实这道题很简单,不要根据最后那个“新增”来理解,而是看前面的条件:“一个用户某天登陆了,且之前没有登陆过”,就是说这一天是这个用户登录的第一天,算的就是作为用户登录的第一天的日期有几个所以就很简单:先row_number计算出用户登录的第一天,然后count(user_id)group by 日期就可以了。

2023-05-19 17:53:26 225

原创 sql经典案例3:求中位数

想一想:如果知道了行数,有一列字段是关于行数的标记,那么我可以直接用where条件来确定中间那一行来取中位数了而用row_number刚好可以创造出一列“行数”

2023-05-19 17:41:30 421 1

原创 字符串连接函数party:||、listagg、concat、group_concat、string_agg()、collect_list、collect_set

第一:不分组连接:listagg、concat || 第二:分组连接:collect_list、collect_set、group_concat、listagg()within group(order by )

2023-05-19 17:18:01 1125

原创 快速认识sql窗口函数

row_number遇到重复值排序是不固定的,这次查,是这个顺序,下次差,是下个顺序,唯一的方法是在order by后再加一个字段。dense_rank() over (order by 成绩 desc) as dese_rank,row_number() over (order by 成绩 desc) as row_num。若有partition by,每一组就是大窗口,聚合与排序,是在这一组里的聚合与排序。,就是分组和排序后,这一个组是一个窗口,对着一个组里的每条记录来算最大值。

2023-05-19 16:59:59 90 1

原创 SQL经典案例2:窗口函数增量与全量并存

窗口函数增量与全量并存:需求:将下面日金额结果集新增一个字段为截止当天的本月累计M_value及本年累计Y_value。

2023-05-19 16:47:27 91 1

原创 SQL经典案例1:窗口函数用于连续几天

窗口函数用于连续几天

2023-05-19 16:37:34 886

原创 终极行列转换party(hive、DB2、mysql)

终极行列转换party(hive、DB2、mysql)两种形式:不涉及分组拆开的(union all + sum、case when);涉及分组拆开的(collect_list、lateral view+explode)

2023-05-19 15:56:23 413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除