xiaoc1008-CSDN博客

原创 RDD算子介绍

rdd1 = sc.parallelize([('c01','张三'),('c02','李四'),('c02','王五'),('c01','赵六'),('c03','田七'),('c03','周八'),('c02','李九'),('c04','老张')])输入: rdd = sc.parallelize([('c01','张三'),('c02','李四'),('c02','王五'),('c01','赵六'),('c03','田七'),('c03','周八'),('c02','李九')])

2023-11-29 20:42:40 1260 1

原创 Spark基础和RDD

RDD：英文全称Resilient Distributed Dataset，叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性：【RDD的数据可以保存到内存或者磁盘】Distributed分布式：【RDD的数据可以分布式存储在集群中的节点，用于分布式计算】Dataset数据集：【一个用于存放数据的集合】

2023-11-28 20:36:58 921

原创 Spark基本介绍

4,Streaming（Spark Streaming）：提供的对实时数据进行流式计算的组件，底层依然是离线计算，只不过时间粒度很小，攒批。6,GraphX：Spark中用于图计算的API，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLlib 及GraphX在内的。内存数据的读写速度要比磁盘快的多，所以Spark的计算速度要比MapReduce快。

2023-11-27 20:13:32 1420 1

原创 Zookeeper介绍

Leader: 主节点(选举出来的)1. 管理整个Zookeeper集群, 负责: 全局数据一致性.2. 负责处理数据事务请求(增删改)3. 负责转发数据非事务请求(读) 给 Follower.Follower: 追随者1. 实时从Leader中拉取数据, 保证: 全局数据一致性.2. 负责处理数据非事务请求(读)3. 负责转发数据事务请求(增删改)给Leader4. 有选举权.ObServer: 观察者1. 除了没有选举权外, 其它和Follower一样.

2023-11-24 09:51:15 411 1

原创 Hive框架----调优

select * from a join (select 列1,列2..., if(id is null, concat(10, rand()), id) id from b) b on a.id = b.id;空值转换, 随机填充.3. 桶表 join 桶表, 且表A的桶的数量, 是表B的桶的数量的整数倍, 则可以用分桶字段替代关联字段, 即: on a.id = b.id => on a.分桶字段 = b.分桶字段;-- 转2个MR, 效率相对较低, 但是大数据量情况下, 也能计算.

2023-11-22 09:04:20 31 1

原创 Hadoop框架之Yarn相关原理

什么是资源?计算机硬件环境, 例如: CPU, 内存, 磁盘等...什么是资源调度?指的是当系统繁忙的时候, 如果有多个程序申请分配资源等, 如何进行资源划分, 分配, 如何最大化实现资源利用率, 就是资源调度做的事儿.简单来说: 资源调度就是提高资源利用率的, 核心是: 调度策略, 调度算法.Yarn属于Hadoop组件的一部分, 是: 大数据分布式任务接收和资源调度器. 负责资源接收和任务调度的.

2023-11-17 19:09:26 48

原创 Hadoop----MapReduce

什么是计算, 什么是分布式计算?计算: 分析海量的数据, 从中分析出我们要的结果.分布式计算: 多台机器一起协调执行.它属于Hadoop框架的1个组件, 用于做分布式计算的, 采用的是分而治之的思想, 把大问题拆分成若干个小问题, 小问题解决了, 大问题也就解决了.例如: 计算1 ~ 1000之间所有质数和, 1个人算太慢, 可以找10个人一起算, 每个人负责100个数字区间的计算, 最后汇总结果即可.其中:MapTask任务负责: 拆分。

2023-11-16 20:11:33 37

原创 Hadoop框架---- HDFS学习

HDFS全称是Hadoop Distributed File System, Hadoop的分布式文件存储系统, 就是用来实现分布式(跨机)存储的.它(HDFS)由三种角色组成, 分别是: namenode, SecondaryNameNode, datanode, 作用如下:namenode: 它是HDFS集群的主节点1. 管理整个HDFS集群.2. 维护和管理元数据(描述数据的数据)SecondaryNameNode: 辅助节点辅助namenode维护和管理元数据的.

2023-11-15 10:46:55 68

原创 Hadoop介绍

广义上理解: 指的是Hadoop生态圈,包含Hadoop周边所有的技术, 例如: Oozie, Sqoop, Flume...广义上理解: 指的是数据化, 信息化时代的(基础)建设, 以数据为生活赋能, 为社会主义建设添砖加瓦.它是代码级别的, 是Hadoop架构的一部分, 负责计算的, 采用的是分而治之思想.社区版: 指的是Apache Hadoop, 免费的, 稳定性稍差, 但是更新速度快.商业版: 指的是 CDH, 星环等, 收费的, 稳定性较好, 但是更新周期相对较慢.

2023-11-14 08:46:25 671 2

xiaoc1008的博客