努力学习呀~-CSDN博客

原创【博学谷学习记录】超强总结，用心分享|Spark-RDD的各类算子（一）

RDD算子: 指的是RDD对象中提供了非常多的具有特殊功能的函数，我们一般将这样的函数称为算子(大白话: 指的RDD的API)。整个RDD的算子，共分为二大类：Transformation(转换算子) 和 Action(动作算子1.转换算子特性（1）所有的转换算子在执行完成后，都会返回一个新的RDD；（2）所有的转换算子都是LAZY(惰性)，并不会立即执行，此时可以认为通过转换算子定义RDD的计算规则；（3）转换算子必须遇到Action算子才会触发执行。2.动作算子特性。

2023-07-26 21:52:07 86

原创【博学谷学习记录】超强总结，用心分享|Spark-RDD介绍及其构建方式

RDD：弹性分布式数据集早期的计算模型: 单机计算模型例如: MySQL / Excel单机的计算模型仅适合于: 小量数据集的处理操作在计算操作的时候只有一个进程, 在一个进程中通过不断的迭代完成最终的计算操作问：随着不断的发展, 整个数据体量都在不断的增大, 原有单机的计算模型无法应对未来的数据处理需。求, 怎么办?答：分布式计算模型。核心: 采用多个节点处理,将一个任务拆分为N多个子任务, 分别运行在不同的节点上进行并行的处理, 各个节点计算完成后, 将结果汇总处理即可(分而治之)。

2023-07-23 21:04:25 119

原创【博学谷学习记录】超强总结，用心分享|Spark与PySpark交互流程

（1）首先会在提交的节点上启动一个Driver程序；（2）Driver启动后，执行Main函数，首先创建SparkContext对象(底层基于py4j，识别Python是如何创建sc对象，将其映射为Java构建sc对象)；（3）连接Spark集群的主节点，根据资源配置要求，向主节点申请资源，用于启动executor；（4）Master接收到资源申请后，根据申请资源进行分配，底层也是由资源调度器负责，通过FIFO调度方案，将分配好的资源交由给对应的Driver拉取；

2023-07-17 22:50:00 168

原创【博学谷学习记录】超强总结，用心分享|Spark的入门案例-从HDFS上读取文件并实现排序

输入 i 进入插入模式添加以下内容 : hadoop hive zookeeper hive hadoop上传到HDFS。

2023-07-03 21:45:58 286

原创【博学谷学习记录】超强总结，用心分享|Spark的入门案例-WordCount案例

Spark程序入门案例: PySpark在编写的时候, 必须要有程序的入口 # 快捷键: main + 回车 from pyspark import SparkContext , SparkConf import os。

2023-07-02 19:57:57 85

原创【博学谷学习记录】超强总结，用心分享|Spark的基本介绍和Spark的集群架构

定义: Spark是一款用于大规模数据处理分布式的分析引擎。MR: 是一款用于大规模数据处理分布式的分析引擎MR存在的弊端:1- 使用API相对比较低级: 大量的功能代码都需要程序员自己来实现；2- 计算效率慢: 大量的经过磁盘和内存之间的交互, 基于磁盘计算 IO比较大 (IO密集型框架)；3- 迭代计算非常不方便。什么是迭代计算:在计算过程中, 需要将计算流程划分为N个阶段, 每个阶段之间互相依赖, 后一个阶段必须等待前一个阶段执行完成后, 然后才能执行下一个阶段。

2023-06-27 23:43:10 109

原创【博学谷学习记录】超强总结，用心分享|Flume基本介绍与数据采集

Flume目前是Apache旗下的一款顶级开源项目，最初是由cloudera公司开发的，后期贡献给了Apache，Flume是一款专门用于数据采集的工具，主要的目的将数据从一端传输到另一端的操作。Flume也是使用Java语言编写的，Flume一般部署在数据采集节点。在Flume中提供多种数据源的组件和多种目的地组件，主要的目的是为了能够适应更多的数据采集场景。Flume老版本(Flume 0.8x)版本之前，称为Flume OG，在0.8版本以后，更改为。

2023-06-11 21:55:59 637

原创【博学谷学习记录】超强总结，用心分享|HBase的核心原理及其核心工作机制

（1）客户端发起读取数据的请求，首先需要连接zookeeper集群；（2）从zookeeper集群中获取HBase的meta表，找到meta表被哪个RegionServer所管理；（说明：HBase，meta表示HBase专门用于存储元数据的表，此表只会有一个Region，因此该表只会被一个Region管理。一个Region也只能被一个RegionServer所管理。

2023-06-06 22:17:06 130

原创【博学谷学习记录】超强总结，用心分享|HBase常用的Shell命令

（2）查看HBase的命令帮助文档（9）删除数据: delete 和 deleteAll（10）查看表结构（11）清空表（12）查询多条数据: scan（13）查看表共计有多少条数据2 HBase的高级shell操作（1） HBase的过滤器查询（2）显示HBase当前登录使用用户：whoami（3）判断表是否存在：exists ‘表名’（4）修改表结构信息

2023-05-29 21:59:20 2262

原创【博学谷学习记录】超强总结，用心分享|HBase介绍和HBase表模型

HDFS是分布式文件存储系统，其特点是吞吐量极高，适合于进行批量数据处理工作，随机的读写能力很差。然而，实际生产环境中，有时候数据量非常大，但是又希望能对数据进行随机的读写操作，并且速度不能太慢，这该如何解决？HBase应运而生，HBase的诞生就刚好适用于解决这一难题。（1）HBase是一款NoSQL型数据库，不支持SQL，没有表关系，无法进行Join操作，不支持事务(仅仅支持行级事务)。

2023-05-29 21:15:59 157

原创【博学谷学习记录】超强总结，用心分享|Kafka的各类机制

分片: 逻辑概念相当于将一个Topic(大容器) 拆分为N多个小容器 , 多个小的容器构建为一个Topic。目的:1 - 提高读写的效率: 分片可以分布在不同节点上 , 在进行读写的时候 , 可以让多个节点一起参与(提高并行度)；2 - 分布式存储: 解决了单台节点存储容量有限的问题。分片的数量:分片是可以创建N多个 , 理论上没有任何的限制。副本: 物理的概念针对每个分片的数据 , 可以设置备份 , 可以将其备份多个。目的:提高数据的可靠性 , 防止数据丢失。

2023-05-20 11:57:41 149

原创【博学谷学习记录】超强总结，用心分享|Kafka如何保证数据不丢失

当生产者将数据生产到Broker后，Broker会给予一个ack确认响应，在Kafka中，主要提供了三种ack的方案:（1）0：生产者只管发送数据，不关心且不接受Broker的相应；（2）1：生产者将数据发送到Broker端，需要等待Broker端对应的topic上的对应的分片的主副本接收到消息后，才认为发送成功；（3）-1（ALL）：生产者将数据发送到Broker端，需要等待Broker端对应的topic上的对应的分片的所有的副本接收到消息后，才认为发送成功。

2023-05-20 11:23:26 715

原创【博学谷学习记录】超强总结，用心分享|Kafka的Java API 与Kafka的分片、副本机制

- 代码库 -- >< / build>分片: 逻辑概念相当于将一个Topic(大容器) 拆分为N多个小容器 , 多个小的容器构建为一个Topic目的:1- 提高读写的效率: 分片可以分布在不同节点上 , 在进行读写的时候 , 可以让多个节点一起参与(提高并行度) 2- 分布式存储: 解决了单台节点存储容量有限的问题分片的数量:分片是可以创建N多个 , 理论上没有任何的限制副本: 物理的概念。

2023-05-14 22:47:00 111

原创【博学谷学习记录】超强总结，用心分享|Kafka的相关shell命令与基准测试

topic的分片数量越多, 理论上读写效率越高；topic的副本数量越多, 理论上写入的效率越差。

2023-05-14 15:30:57 337

原创【博学谷学习记录】超强总结，用心分享|消息队列与Kafka(一)

消息: 消息就是数据，只不过这个数据具有流动的状态；队列: 存储数据的容器, 只不过这个容器具有FIFO(先进先出)特性；消息队列数据在队列中, 从队列的一端传递到另一端的过程, 数据在整个队列中产生了一种流动状态。kafka是Apache旗下的一款开源免费的消息队列的中间件产品最早是有领英公司开发的, 后期贡献给Apache, 目前也是Apache旗下的顶级开源项目. 采用的语言为scala, Kafka2依然要依赖于zookeeper。

2023-04-09 21:24:50 86

原创【博学谷学习记录】超强总结，用心分享|Hive SQL窗口函数、行列转换函数

user2 , 2018-04-16 , 7 * / -- 1、建表-- 2、加载数据：-- 3、需求：按照用户进行分组，并且在每一组内部按照pv进行降序排序 -- row_number , rank , dense_rank / * partition by userid 按照哪个字段分组，等价于 group by。

2023-04-07 21:43:12 107

原创【博学谷学习记录】超强总结，用心分享|Hive分区表和分桶表

分区就是分文件夹1、分区表实际是就是对要进行分析的文件进行分类管理；2、本质是将相同特征的文件存放在同一个文件夹下，通过文件夹对数据进行分类；3、分区之后在查询时，可以通过添加条件，避免进行全表扫描，提高查询效率；4、分区表又分为静态分区和动态分区；5、分区表是一种优化手段，是锦上添花的东西，一张表可以没有分区，但是查询效率可能会比较低。1、分桶表和分区表没什么关系2、分桶表是将表数据分到多个文件，分区表是将数据分到多个文件夹3、分桶表底层就是MapReduce中分区。

2023-04-02 19:00:18 139

原创【博学谷学习记录】超强总结，用心分享|Hive数据库和表操作知识积累

- 1、当你创建一个数据库，则hive自动会在/user/hive/warehouse目录创建一个数据库目录-- 2、手动指定数据库映射的文件夹-- 3、查看数据库的元数据信息-- 4、删除数据库-- 4.1 可以删除空数据库-- 4.2 如果要删除的数据库里边有表，则必须加 cascade关键字use myhive;

2023-03-31 22:16:19 125

原创【博学谷学习记录】超强总结，用心分享|Hive相关知识介绍与安装

Hive是一个构建在Hadoop上的数据仓库框架。最初，Hive是由Facebook开发，后来移交由Apache软件基金会开发，并作为一个Apache开源项目。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端。

2023-03-12 20:30:58 98

原创【博学谷学习记录】超强总结，用心分享|MapReduce相关知识点汇总

MapReduce的思想核心是“先分再合，分而治之”。即把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果。其中，**Map负责“分”**，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。**Reduce负责“合”**，即对map阶段的结果进行全局汇总。

2023-03-06 22:50:56 171

原创【博学谷学习记录】超强总结，用心分享|HADOOP-HDFS相关知识点汇总

HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目，它的设计初衷是为了能够支持高吞吐和超大文件读写操作。HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据 (比如TB和PB)。

2023-02-26 17:49:29 151

原创【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（三）

本文介绍了Hadoop集群部署后的相关配置文件修改，配置文件的修改决定了Hadoop集群是否能够成功启动。对于Hadoop集群的启动，本文详细的介绍了3种方式，具体使用哪一种方式启动Hadoop集群则因人而异，根据实际需求进行不同的选择。推荐使用方式3，因为更便捷。

2023-02-18 13:21:06 200

原创【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（二）

本文介绍了HDFS集群和YARN集群主要包含的各类角色，并且详细介绍了Hadoop集群架构模型包含四种：（1）NameNode单节点与ResourceManager单节点架构；（2）NameNode高可用与ResourceManager单节点架构；（3）NameNode单节点与ResourceManager高可用架构；（4）NameNode高可用与ResourceManager高可用架构。不同的集群架构模型适用于不同业务场景，可根据实际需求进行选择。

2023-02-12 14:04:24 144

原创【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（一）

数据是指人类的一切语言文字、图形图画、音像记录，所有感官可以察觉的事物。大数据处理的数据一般是结构化，半结构化，非结构化数据。分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统。Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。

2023-02-12 12:24:33 148

原创【博学谷学习记录】超强总结，用心分享|ZooKeeper集群环境搭建

Zookeeper作为大数据生态圈框架中非常重要的一员，单独使用Zookeeper是没有意义的。对于Zookeeper在大数据生态圈中的使用，主要是用来管理其他框架，俗称动物管理员。本文将通过相关介绍，搭建出一个Zookeeper集群，以供后续大数据学习使用。Zookeeper是一个分布式协调服务开源框架，主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。

2023-01-30 22:09:23 887

原创【博学谷学习记录】超强总结，用心分享|Linux服务器集群-大数据基础环境搭建指南

本文将构建三台Linux服务器（node1、node2、node3），通过相关配置，搭建出一个Linux服务器集群环境适用于大数据的开发学习。Linux服务器集群-大数据基础环境搭建步骤较为繁琐，本文尽可能详细的描述了搭建的每一环节的必要操作。只要耐心根据本文操作，搭建出一个大数据的学习环境是非常简单的。准备环境已搭建好，后面将继续做好学习笔记整理。

2023-01-08 19:54:43 2852

原创【博学谷学习记录】超强总结，用心分享|Linux介绍及Linux环境搭建入门

虚拟机 (Virtual Machine) 指通过软件模拟的具有完整硬件系统功能的，运行在一个完全隔离环境中的完整计算机系统。虚拟系统通过生成现有操作系统的全新虚拟镜像, 具有真实操作系统完全一样的功能。注意：处理器内核总数 = 处理器数量 * 每个处理器的内核数量。处理器内核总数要小于本身电脑的“逻辑处理器”数量。“逻辑处理器”数量可在“任务管理器”的“性能”里查看。Linux的环境搭建并不困难，主要是细心操作。

2023-01-01 21:52:15 662 1

Sweet~~~