大数据
隔壁老登
我太想进步了……
展开
-
维度建模方法论
KimBall提出的维度建模理论,从分析决策的需求出发构建模型,以事实表为中心,选取特定的维度,构建业务总线矩阵。OLAP基于数据仓库 ,适合海量数据,批量查询,对实时性要求不高的场景。高层设计-》详细模型-》模型审查,再设计和验证-》ETL设计和开发。实体关系模型,遵循3范式,属性唯一,部分函数依赖,传递函数依赖。数仓分层:ods-》dwd、dim-》dws-》ads。业务架构设计-》模型设计-》数据研发-》数据服务-建模过程分为:业务过程-》粒度-》维度-》事实。统计型:人均,日均,行业平均。原创 2024-05-16 20:26:50 · 248 阅读 · 0 评论 -
kafka基础知识
Range分配策略:此策略将分区按照范围分配给消费者,旨在尽可能平均地分配分区给消费者,以确保负载均衡。topic(分区,副本,topic输入输出流量,topic每秒输入的消息条数)RoundRobin分配策略:此策略以轮询的方式分配置分区给消费者。kafka日志保存位置及消息保存时间。生产端:消息发送成功但响应失败。如何处理数据积压问题?扩大kafka集群规模。消费端:偏移量提交失败。如何看数据积压问题?为什么能做到高并发?原创 2024-05-14 20:41:18 · 286 阅读 · 0 评论 -
hdfs的api操作
场景:测试idea本地连接hdfs集群并创建目录,上传本地文件。原创 2024-05-14 20:38:31 · 159 阅读 · 0 评论 -
hdfs磁盘清理历史数据
统计warehouse目录下的磁盘使用量(目前表都是建在该路径下)#hdfs回收站会保留1天数据,过期会自动清理, 也可手动清理。#统计test目录下磁盘使用量的表,清理该测试路径的数据。#统计bak目录下磁盘使用量的表,取前30,清理大表。原创 2024-05-11 21:05:59 · 218 阅读 · 0 评论 -
hive自定义函数
当Hive的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。•用户定义表生成函数UDTF(User-Defined Table-Generating Functions),用于操作单个输入行,产生多个输出行。•用户定义聚集函数UDAF(User-Defined Aggregating Functions),用于接受多个输入数据行,并产生一个输出数据行。•普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。原创 2024-05-09 21:18:44 · 236 阅读 · 1 评论 -
hadoop的相关操作
Hadoop生态圈:是更广泛的概念,包含hadoop,sqoop,flume,zookeeper,hive,spark,hbase,oozie等构成的大数据处理相关一系统组件。1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限等),及每个文件的块列表和块所在的DataNode等。Common(辅助工具):支持其他模块的工具(Configuration,RPC,序列化机制,日志操作等)HDFS(数据存储):一个高可靠,高吞吐量的分布式文件系统。原创 2024-04-28 20:02:00 · 1226 阅读 · 2 评论