数据仓库
文章平均质量分 93
大数据00
好记性不如烂笔头
展开
-
Hive-Sql复杂面试题
3、rollup是卷起的意思,俗称层级聚合,相对于grouping sets能指定多少种聚合,而with rollup则表示从左 往右的逐级递减聚合,如:group by a,b,c with rollup 等价于 group by a, b, c grouping sets( (a, b, c), (a, b), (a), ( )).直到逐级递减为()为止,多适用于有级联关系的组合查询,如国家、省、市级联组合查 询。with cube 是group by后列的所有的维度的任意组合查询。原创 2024-04-16 16:18:57 · 1170 阅读 · 2 评论 -
数据仓库系列总结
一、数据仓库架构二、数据采集三、离线开发四、实时开发五、数据建模六、维度建模七、事实表设计八、数据管理九、数据治理十、数据服务。原创 2024-03-19 21:09:19 · 630 阅读 · 0 评论 -
数据治理体系
数据治理方案需要建立一套完整的体系,包括组织架构、政策和规范、资产清单和元数据管理、数据质量管理、数据安全管理、培训和教育以及工具和技术。这些方面相互配合,共同构成一个完整的数据治理方案。数据治理是一个涵盖多个方面的综合性管理活动,它的目标是确保数据的质量、一致性、安全性、可靠性和合规性。原创 2023-04-19 13:13:24 · 485 阅读 · 0 评论 -
Maxcompute 小记1
1、关于NULL值排序①HIVE时间类型:SELECT idFROM ( SELECT GETDATE() id UNION SELECT NULL id UNION SELECT TO_DATE('20211101','yyyymmdd') id ) tORDER BY id ASC;结果:+------------+| id原创 2021-12-03 16:43:52 · 1741 阅读 · 0 评论 -
Flink+MapState+Ontimer+Enum+Flink去重综合应用
Flink+MapState+Ontimer+Enum+Flink去重综合应用原创 2023-02-24 09:55:42 · 312 阅读 · 0 评论 -
Kafka面试
图中有两个topic,topic 0有两个partition,topic 1有一个partition,三副本备份。所以如果在消息已经被写入 Leader 分片,但是还未同步到 Follower 节点,此时Leader 分片所在服务器宕机了,那么这条消息也就丢失了,无法被消费到。follower再次同步leader,leader的RemoteLEO更新为1,更新HW=Math.max(0, min(1))=1, follower收到leader的HW=1,更新HW = Math.min(1, 1) = 1。原创 2023-02-10 09:43:02 · 425 阅读 · 0 评论 -
JAVA面试
ReadWriteLock 是 一 个 读 写 锁 接 口 , ReentrantReadWriteLock 是ReadWriteLock 接口的一个具体实现,实现了读写的分离,读锁是共享的,写锁是独占的, 读和读之间不会互斥,读和写、写和读、写和写之间才会互斥,提升了读写的性能。主要用于将私有线程和该线程存放的副本对象做一个映射,各个线程之间的变量互不干扰,在高并发场景下,可以实现无状态的调用, 特别适用于各个线程依赖不通的变量值完成操作的场景。cas 是一种基于锁的操作,而且是乐观锁。原创 2023-02-10 09:18:30 · 127 阅读 · 0 评论 -
Spark面试
这一切对使用者都是透明的。(2)Spark容错性高,它通过弹性分布式数据集RDD来实现高效容错,RDD是一组分布式的存储在 节点内存中的只读性的数据集,这些集合石弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建,mapreduce的容错只能重新计算。父RDD的每一个partition中的数据,都可能会传输一部分到下一个子RDD的每一个partition中,此时会出现父RDD和子RDD的partition之间具有交互错综复杂的关系,这种情况就叫做两个RDD之间是宽依赖。原创 2023-02-07 11:39:12 · 255 阅读 · 0 评论 -
HIVE面试
数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换,尽量避免笛卡尔积,join的时候不加on条件,或者无效的on条件,Hive只能使用1个reducer来完成笛卡尔积。把数据放到对应的文件中。删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。原创 2023-02-07 09:57:13 · 572 阅读 · 0 评论 -
数仓面试总结
数仓面试问到过的一些问题总结原创 2022-09-09 11:25:16 · 2812 阅读 · 0 评论