![](https://img-blog.csdnimg.cn/ea5b772379da46309dc5a2324608d661.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
开发随笔
文章平均质量分 74
在日常工作开发中,对开发经验(包括但不限于大数据、用户画像、推荐系统等模块)的一些文章汇总
电光闪烁
一个大数据开发工程师的学习之路
展开
-
开发随笔文章汇总
开发随笔文章汇总hive中多表full join主键重复问题FlinkSQL+HDFS+Hive+SparkSQL实现业务数据增量进入数据仓库业务数据准实时增量进入数据仓库并保留历史所有变更记录基于Hikari连接池的对数据库进行增删查改的通用工具类使用ntpd配置集群时间同步Hive中选出最新一个分区中新增和变化的数据Hive中使用sort_array函数解决collet_list列表排序混乱问题...原创 2022-05-08 10:08:06 · 744 阅读 · 0 评论 -
HiveSQL & SparkSQL中常用知识点记录
这时如果在应用上需要这个数值进行统计的话,会发现数据错误,所以我们此时,就需要使用特定的方法,将统计出来的文本数据也展示成正常的数据显示(这样在应用上进行切分并获取对应的数据时就能获取到正确的数据);我们在SQL中,会碰到使用collect_list和concat_ws将该列的数值统计成一个字段的情况,这时候我们会发现当小数位数太多的时候,有些转换成文本的时候,就会使用科学计数了。原创 2023-07-24 16:56:18 · 361 阅读 · 0 评论 -
业务数据准实时增量进入数据仓库并保留历史所有变更记录
架构图如下:定时创建视图(在dwd的视图中不用指定时间,永远都是最新的数据,并只有1天的小文件)定时将昨天的old表数据和昨天的binlog表数据合并,并导入今天的old表中当数据不对或者失败时,可以通过重跑从业务库中拉取全量数据(提高抗风险性)将历史所有的binlog进行保存,可以获取所有的历史修改记录该调度任务时间为凌晨 0点 30分在start节点中会添加binlog的分区,并针对其他表执行msck操作(下述会详细说明)...原创 2022-08-17 10:39:19 · 884 阅读 · 0 评论 -
Hive中使用sort_array函数解决collet_list列表排序混乱问题
目录0. 相关文章链接1. 数据准备2. 使用collect_list和concat_ws进行行转列3. 使用sort_array函数解决collet_list列表排序混乱问题0. 相关文章链接开发随笔文章汇总1. 数据准备建表语句:create table temp( province string, city string, score bigint);插入数据:INSERT OVERWRITE table ..原创 2022-05-25 16:38:19 · 7481 阅读 · 2 评论 -
Hive中选出最新一个分区中新增和变化的数据
0. 相关文章链接开发随笔文章汇总1. 为什么要获取最新的数据当为应用后台提供数据协助时(比如通过近段时间的数据用了计算用户特征时),在大数据是计算所有的有行为的用户,但是这些用户的特征不是都有变化,这时传送给应用后台的数据只需要传输有变化和新增的即可,并使用根据主键更新的模式传输数据,这样能减少数据的传输。2. 怎么获取最新的数据一般这种情况下,在大数据数仓中这样的表必须要设置成分区表,然后今天的数据和昨天的数据存储在不同分区中,再添加一个脚本对比这2个分区的...原创 2022-05-12 11:27:07 · 1475 阅读 · 0 评论 -
使用ntpd配置集群时间同步
0. 相关文章链接大数据基础知识点 文章汇总1. 为什么需要集群时间同步如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。这时候就需要找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果,采用1分钟同步一次。...原创 2022-04-17 01:15:00 · 930 阅读 · 0 评论 -
FlinkSQL+HDFS+Hive+SparkSQL实现业务数据增量进入数据仓库
目录0. 相关文章链接1. 为什么要实现将业务数据实时写入到数据仓库中2.架构设计3.FlinkSQL将binlog写入到HDFS中4.创建增量外部表(binlog表)5.创建全量历史表6.创建Spoop任务同步商品表数据7.历史数据和增量数据合并8.Java的nanoTime()9.创建视图完成按分钟级别更新数仓中的业务表10.创建定时调度作业11.总结0. 相关文章链接开发随笔文章汇总1. 为什么要实现将业务数据实...原创 2022-04-08 17:35:49 · 3364 阅读 · 2 评论 -
基于Hikari连接池的对数据库进行增删查改的通用工具类
目录0. 相关文章链接1. 开发目的2. 导入依赖3. 代码0. 相关文章链接开发随笔文章汇总1. 开发目的在使用SpringBoot后端开发中,我们如果需要对数据库(比如MySQL)进行增删查改,可以很方便的使用Mybatis进行操作。但是在大数据中,如果想要对数据库进行操作,就没有那么方便,虽然大数据组件中有各种连接源和写入源,比如Spark读取MySQL数据库,flink写入MySQL数据库等。但是也有很多需要操作其他数据库,或者在中途读取维度数据的情况,比如Flink原创 2022-04-21 15:13:04 · 3842 阅读 · 0 评论 -
hive中多表full join主键重复问题
目录0. 其他1. 问题描述2. 问题复现2.1. 建表语句2.2. 插入数据2.3. 查询SQL以及问题3. 问题原因4. 问题解决0. 相关文章链接开发随笔文章汇总1. 问题描述在Hive中(其他类似SQL,比如PostgreSQL可能也存在此问题),当对多张表(3张及以上)进行full join时,会存在每张表的主键都是唯一,但当full join后,会发现主键可能有重复。2. 问题复现2.1. 建表语句create t...原创 2022-01-24 16:12:30 · 5881 阅读 · 7 评论