心光丶-CSDN博客

原创 Spark On Yarn Cluster模式执行流程

1，客户端向resource manager申请资源，返回一个application id 2，客户端上传spark jars下的jar包，自己写的jar包和配置 3，resource manager随机找一个资源充足的node manager 4，然后通过rpc让noda manager从hdfs上下载 jar包和配置，启动application master 5，application master想resource manager申请资源 6，resource manager中的resource sc

2021-03-16 09:08:15 233

原创 linux常用命令

cd 切换目录 ls 显示目录文件 pwd 显示当前工作目录 mkdir 创建新目录 touch 创建文件 echo 将内容打印到控制台 cp 复制文件或目录 mv 移动文件或目录 rm 删除文件 cat 显示文件内容 head 查看文件前几行 tail 查看文件后几行 ln 产生链接文件 whereis 搜索命令所在目录 shutdown -h 现在关机 ctrl + r 搜索以前命令 top 任务管理器 vi 文本编辑 ...

2021-03-13 21:23:51 82

原创 yarn的调度资源原理

1,yarn的客户端提交计划信息给resource manager 2，resource manager接收到请求后，调用application master manager向node manager发送请求，申请一个容器（container），并要求这个容器（container）启动application master 3，application master启动后会向resource manager申请注册，然后为自己的task申请容器（container） 4，resource manager接收到

2021-03-13 19:30:49 138

原创 HDFS的工作机制和原理（简化）

工作机制 1，hdfs集群主要分为两大角色：namenode和datanode（secondary namenode ） 2，namenode主要负责整个文件系统的元数据信息 3，datanode主要负责文件数据块的管理 4，文件会按照固定大小（blocksize）切分成若干块分布式存储在多台datanode 5，每一个文件块可以有多个副本，存放在不同的datanode上 6，Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量 hdfs写

2021-03-12 22:35:59 232

原创 Flink Source和Flink Sink和自定义SinkSource

基于File的数据源 readTextFile：使用TextInputFormat方式读取文本文件，并将以String返回 val env = StreamExecutionEnvironment.getExecutionEnvironment val inputStream = env.readTextFile(文件路径) inputStream.print() env.execute() 基于Socket的数据源 socketTextStream：从Socket中读取信息，元素可以用分隔符分开 val

2021-03-01 16:50:14 249

原创 Flink实现Wordcount

flink-java实现Wordcount（实时） public class WordCount { public static void main(String[] args) throws Exception { //1.创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //2.创建DStream DataStreamSource<String> line

2021-02-28 19:03:47 130

原创 Flink部署集群检测任务提交

Flink的部署 1.下载Flink安装包https://www.apache.org/dyn/closer.lua/flink/flink-1.12.1/flink-1.12.1-bin-scala_2.12.tgz 2.上传flink安装包到Linux服务器上 3.解压flink安装包 tar -xvf flink-1.9.1-bin-scala_2.11.tgz -C /opt/apps/ 4.修改conf目录下的flink-conf.yaml配置文件 #指定jobmanager的地址 jobmana

2021-02-28 12:42:54 381

weixin_52378299的博客