阿齐（努力打工版）-CSDN博客

原创大数据专题总结(四)大数据组件

kylin：一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据。Hive：数据仓库工具，将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本篇文章会基于大数据开发过程中常见的组件从组件定义和功能做介绍。spark：计算引擎，可用于SQL 查询、文本处理、机器学习。yarn：资源调度平台，资源调度管理。Zookeeper：分布式协调服务。大数据无非就是资源调度和计算。Hdfs：存储，分布式文件系统。

2024-06-12 10:52:15 131

原创大数据专题总结(三)大数据存储

b.非关系型数据库，不使用传统的关系型表格机构进行数据存储的数据库。非关系型数据库使用键值对、文档、列族或图形等不同的数据模型来组织数据。这里的hbase比较特殊，hbase是建立在hdfs之上的列式存储数据库；适用于大规模结构化数据存储和处理。a.关系型数据库，其中数据是以表格的形式组织，表格由行和列组成。使用结构化查询语言进行数据操作和查询。a. 键值存储数据库：Redis、Riak。在数据库中可以按照数据的组织方式进行分类。既适用于结构化数据，也适用于非结构化数据。适用于半结构化数据和非结构化数据。

2024-02-04 14:13:58 458

原创大数据专题总结(二)sql优化总结

map——>shuffle——>reduce，如果我们采用普通的common join，那么就一定会发生shuffle，如果我们采用map join，也就是把小表直接打包发送到map的所有节点上去做join，就不会出现shuffle，reduce join了，这时候也不会存在数据倾斜。eg,有一个作业，30亿的表和两个6亿的中小表做left join，时长2小时，直接中小表先关联，再和30亿的大表做关联，时长降到1小时了。（场景常常出现在明细表关联维表，并且明细表的关联键分布不均，产生倾斜的情况）

2023-12-02 15:51:48 410

weixin_44702289的博客

原创大数据专题总结(四)大数据组件

原创大数据专题总结(三)大数据存储

原创大数据专题总结(二)sql优化总结

原创大数据专题总结(一)spark详细总结（非网文，通俗归纳）

原创大数据学习（三十六）拉链表原理以及构造方法

原创大数据学习（三十五）hive中大表join小表优化方法

原创大数据学习（三十三）一分钟了解hdfs（通俗易懂版）

原创大数据学习（三十二）一分钟了解spark（通俗易懂版）

原创大数据学习（三十一）数据仓库如何处理缓慢变化维

原创大数据学习（三十）JOIN过程中的mapreduce阶段

原创大数据学习（二十五）hive中的space函数

原创大数据学习（二十二）hive中sort by、cluster by、order by的区别

原创大数据学习（二十四）hive中explode的进阶函数posexplode

原创大数据学习（二十三）sql中的排序函数 row_number() 、rank() 、dense_rank()

原创大数据学习（二十）hive增量表和全量表的相互转换

原创大数据学习（十八）hive的窗口函数（含例子）

原创大数据学习（十六）容易踩坑的NULL值

原创大数据学习（十五）维度建模步骤以及实例

原创大数据学习（十三）hive正则表达式

原创大数据学习（十一）hive中获取数组中的元素

原创 python初学习（一）python烟花代码

原创大数据学习（十）hive函数split、explode、lateral view用法

原创大数据学习（九）hive中行转列列转行（都附带例子）

原创大数据学习（八）hive中JOIN执行过程

原创大数据学习（七）一分钟了解数据建模

原创大数据学习（六）ETL开发详解及实战

原创大数据学习（五）Mapreduce详解

原创大数据学习（四）一分钟明白hive数据倾斜

原创大数据学习（三）一分钟搞明白hive在底层是如何运作的

原创大数据学习（二）一分钟让你明白数据库和数据仓库

原创大数据（一）一分钟搞明白hive分区表、分桶表

空空如也

空空如也