- 博客(31)
- 收藏
- 关注
原创 大数据专题总结(四)大数据组件
kylin:一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。Hive:数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本篇文章会基于大数据开发过程中常见的组件从组件定义和功能做介绍。spark:计算引擎,可用于SQL 查询、文本处理、机器学习。yarn:资源调度平台,资源调度管理。Zookeeper:分布式协调服务。大数据无非就是 资源调度和计算。Hdfs:存储,分布式文件系统。
2024-06-12 10:52:15
131
原创 大数据专题总结(三)大数据存储
b.非关系型数据库,不使用传统的关系型表格机构进行数据存储的数据库。非关系型数据库使用键值对、文档、列族或图形等不同的数据模型来组织数据。这里的hbase比较特殊,hbase是建立在hdfs之上的列式存储数据库;适用于大规模结构化数据存储和处理。a.关系型数据库,其中数据是以表格的形式组织,表格由行和列组成。使用结构化查询语言进行数据操作和查询。a. 键值存储数据库:Redis、Riak。在数据库中可以按照数据的组织方式进行分类。既适用于结构化数据,也适用于非结构化数据。适用于半结构化数据和非结构化数据。
2024-02-04 14:13:58
458
原创 大数据专题总结(二)sql优化总结
map——>shuffle——>reduce,如果我们采用普通的common join,那么就一定会发生shuffle,如果我们采用map join,也就是把小表直接打包发送到map的所有节点上去做join,就不会出现shuffle,reduce join了,这时候也不会存在数据倾斜。eg,有一个作业,30亿的表和两个6亿的中小表做left join,时长2小时,直接中小表先关联,再和30亿的大表做关联,时长降到1小时了。(场景常常出现在明细表关联维表,并且明细表的关联键分布不均,产生倾斜的情况)
2023-12-02 15:51:48
410
原创 大数据专题总结(一)spark详细总结(非网文,通俗归纳)
在每个Worker上为某应用启动的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个任务都有各自独立的Executor。JOB: 一个行动算子就算一个Job,可以理解为我们的程序里面遇到了行动算子,整个代码才会run起来。stage是按照rdd的宽窄依赖进行划分的。RDD: 弹性分布式数据集,里面会存放分区数据以及数据计算逻辑,但并不会存放真正的。TASK: 最小的工作单元,它带着分区数据以及计算逻辑被送到计算节点上去。一个job的stage之间是并行的。
2023-11-29 22:59:22
546
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人