自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 大数据专题总结(四)大数据组件

kylin:一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。Hive:数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本篇文章会基于大数据开发过程中常见的组件从组件定义和功能做介绍。spark:计算引擎,可用于SQL 查询、文本处理、机器学习。yarn:资源调度平台,资源调度管理。Zookeeper:分布式协调服务。大数据无非就是 资源调度和计算。Hdfs:存储,分布式文件系统。

2024-06-12 10:52:15 131

原创 大数据专题总结(三)大数据存储

b.非关系型数据库,不使用传统的关系型表格机构进行数据存储的数据库。非关系型数据库使用键值对、文档、列族或图形等不同的数据模型来组织数据。这里的hbase比较特殊,hbase是建立在hdfs之上的列式存储数据库;适用于大规模结构化数据存储和处理。a.关系型数据库,其中数据是以表格的形式组织,表格由行和列组成。使用结构化查询语言进行数据操作和查询。a. 键值存储数据库:Redis、Riak。在数据库中可以按照数据的组织方式进行分类。既适用于结构化数据,也适用于非结构化数据。适用于半结构化数据和非结构化数据。

2024-02-04 14:13:58 458

原创 大数据专题总结(二)sql优化总结

map——>shuffle——>reduce,如果我们采用普通的common join,那么就一定会发生shuffle,如果我们采用map join,也就是把小表直接打包发送到map的所有节点上去做join,就不会出现shuffle,reduce join了,这时候也不会存在数据倾斜。eg,有一个作业,30亿的表和两个6亿的中小表做left join,时长2小时,直接中小表先关联,再和30亿的大表做关联,时长降到1小时了。(场景常常出现在明细表关联维表,并且明细表的关联键分布不均,产生倾斜的情况)

2023-12-02 15:51:48 410

原创 大数据专题总结(一)spark详细总结(非网文,通俗归纳)

在每个Worker上为某应用启动的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个任务都有各自独立的Executor。JOB: 一个行动算子就算一个Job,可以理解为我们的程序里面遇到了行动算子,整个代码才会run起来。stage是按照rdd的宽窄依赖进行划分的。RDD: 弹性分布式数据集,里面会存放分区数据以及数据计算逻辑,但并不会存放真正的。TASK: 最小的工作单元,它带着分区数据以及计算逻辑被送到计算节点上去。一个job的stage之间是并行的。

2023-11-29 22:59:22 546

原创 大数据学习(三十六)拉链表原理以及构造方法

拉链表

2023-03-21 22:41:22 327

原创 大数据学习(三十五)hive中大表join小表优化方法

hive优化

2023-02-21 22:24:26 1432

原创 大数据学习(三十三)一分钟了解hdfs(通俗易懂版)

hdfs

2023-02-18 17:32:23 280

原创 大数据学习(三十二)一分钟了解spark(通俗易懂版)

spark原理

2023-02-18 11:09:48 520

原创 大数据学习(三十一)数据仓库如何处理缓慢变化维

数据仓库模型设计

2023-02-12 16:19:44 279

原创 大数据学习(三十)JOIN过程中的mapreduce阶段

mapreduce过程

2023-02-11 18:15:26 377 1

原创 大数据学习(二十五)hive中的space函数

hive函数

2023-02-07 21:55:51 1723 1

原创 大数据学习(二十二)hive中sort by、cluster by、order by的区别

hive

2023-02-05 11:36:41 492

原创 大数据学习(二十四)hive中explode的进阶函数posexplode

sql

2023-02-04 17:43:27 248

原创 大数据学习(二十三)sql中的排序函数 row_number() 、rank() 、dense_rank()

sql

2023-02-04 10:44:38 194

原创 大数据学习(二十)hive增量表和全量表的相互转换

hive

2023-01-04 20:20:29 1505

原创 大数据学习(十八)hive的窗口函数(含例子)

hive函数

2022-10-16 19:15:56 222

原创 大数据学习(十六)容易踩坑的NULL值

hive

2022-10-13 21:32:04 1475

原创 大数据学习(十五)维度建模步骤以及实例

维度建模

2022-10-13 21:31:20 1360

原创 大数据学习(十三)hive正则表达式

正则表达式

2022-09-18 19:48:50 790

原创 大数据学习(十一)hive中获取数组中的元素

hive函数

2022-09-15 22:20:17 5040 1

原创 python初学习(一)python烟花代码

python

2022-09-13 22:52:04 3668 1

原创 大数据学习(十)hive函数split、explode、lateral view用法

hive函数

2022-09-13 21:30:27 3642

原创 大数据学习(九)hive中行转列 列转行(都附带例子)

hive函数

2022-09-03 11:50:59 1331

原创 大数据学习(八)hive中JOIN执行过程

hive join

2022-09-03 11:24:40 450

原创 大数据学习(七)一分钟了解数据建模

数据建模 ER建模 维度建模

2022-08-30 23:28:18 5979

原创 大数据学习(六)ETL开发详解及实战

etl

2022-08-29 21:22:17 8182 1

原创 大数据学习(五)Mapreduce详解

mapreduce详解

2022-08-28 16:44:36 1236

原创 大数据学习(四)一分钟明白hive数据倾斜

数据倾斜 hive优化

2022-08-24 22:50:53 258

原创 大数据学习(三)一分钟搞明白hive在底层是如何运作的

hive

2022-08-18 22:35:41 582

原创 大数据学习(二)一分钟让你明白数据库和数据仓库

数据库和数据仓库

2022-08-17 23:02:07 544

原创 大数据(一)一分钟搞明白hive分区表、分桶表

hive

2022-08-13 11:42:57 543

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除