BigData笔记
文章平均质量分 73
大数据学习笔记,干货分享
W.zhaolin
这个作者很懒,什么都没留下…
展开
-
一次Hive调优案例
记一次Hive调优案例原创 2022-12-21 14:08:40 · 368 阅读 · 1 评论 -
大数据OLAP引擎
OLAP(Online AnalyticalProcessing)是一种数据处理技术,专门设计用于支持复杂的分析操作,本文介绍目前几种主流OLAP引擎的对比,及各自的特点。原创 2022-12-03 10:05:32 · 2961 阅读 · 3 评论 -
Spark-Core开发及提交
Spark-core任务的开发及提交,Scala版,详细解释spark-submit脚本的各参数原创 2022-09-21 11:58:41 · 528 阅读 · 0 评论 -
HQL max+struct实现开窗功能
HQL max+struct实现开窗功能。提供了一种取最大/最小记录的更好的思路。原创 2022-03-24 18:36:16 · 957 阅读 · 1 评论 -
Hive调优(精品版)
一、数据倾斜详见我的另外一篇blog: Hive数据倾斜调优(详细版)_wzluestc的博客-CSDN博客二、数据链路太长1.表现整个代码中关联的表很多,DAG很长2.原因在mr引擎中,每个阶段的数据都会落地磁盘,链路太长,磁盘io的时间就会很多。3.解决将和小表common join转化成map join缩短任务链路,尽量使用tez引擎。1.设置参数set hive.auto.convert.join = true; – 开启map joinset hive.mapjoin.sma原创 2021-07-19 10:53:10 · 115 阅读 · 0 评论 -
Hive数据倾斜调优(详细版)
一、数据倾斜本质数据在各Map task或Reduce task上分配不均匀,数据量过大的task会拉长整个任务的执行时间。二、表现某个map task运行时间明显长于其他task。并且该task的数据量明显大于其他task。针对Map task,看INPUT_SPLIT_LENGTH_BYTES,该参数表示map task的输入数据量,和OUTPUT_BYTES_PHYSICAL,表示map task的输出数据量;针对Reduce task,看SHUFFLE_BYTES,表示shuffle输出,也就原创 2021-07-19 10:49:40 · 524 阅读 · 0 评论 -
HBase实践
一、HBASE概述1.概述基于hadoop的数据库工具来源于google的一片论文BigTable 后来由Apache做了开源实现 就是HBase是一种 NoSQL 非关系型的数据库 不符合关系型数据库的范式适合存储 半结构化 非结构化 的数据适合存储 稀疏的数据 空的数据不占用空间面向列(族)进行存储提供实时增删改查的能力 是一种真正的数据库可以存储海量数据 性能也很强大 可以实现上亿条记录的毫秒级别的查询但是不能提供严格的事务控制 只能在行级别保证原创 2021-02-27 15:37:47 · 298 阅读 · 3 评论 -
HDFS深度剖析(架构、读写、使用)
HDFS架构:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wKVjhbf-1591947367225)(Hadoop笔记/imgs/clipboard.png)]HDFS为了保证数据存储的可靠性和读取性能,对数据进行切块后进行复制并存储在集群的多个节点中。 HDFS中存在一个名字节点NameNode和多个数据节点DataNode NameNode 存储元数据信息 元数据保存在内存/磁盘中 保存文件、block、datanode之间的映射原创 2020-06-12 15:37:05 · 407 阅读 · 0 评论