大数据
文章平均质量分 93
Adopat
这个作者很懒,什么都没留下…
展开
-
第十章 Flink
`Apache Flink`是一个框架和**分布式处理引擎**,用于对**无界**和**有界**数据流进行有状态计算。 Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。原创 2023-02-01 16:21:31 · 326 阅读 · 0 评论 -
第九章 Spark
Spark是一个用于大规模数据处理的统一。注意:Spark不仅仅可以做类似于的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎。原创 2023-02-01 13:49:04 · 357 阅读 · 0 评论 -
第八章 Scala
Scala学习笔记原创 2022-09-28 19:07:08 · 160 阅读 · 0 评论 -
第七章 HIVE
HIVE学习笔记原创 2022-09-28 19:06:15 · 518 阅读 · 0 评论 -
第六章 Flume
Flume学习笔记原创 2022-09-28 19:05:20 · 151 阅读 · 0 评论 -
第五章 YARN
5.1 概念YARN主要负责集群资源的管理和调度。支持主从结构。主节点最多可以有2个,从节点可以有多个。YARN主要管理内存和CPU两种资源类型。ResourceManager主要负责集群资源的分配和管理NodeManager主要负责当前机器的资源管理。当NodeManager节点启动的时候会自动向ResourceManage注册,将当前节点的可用CPU和内存注册到ResourceManager。这样所有的NodeManager注册完成之后,ResourceManager就知道集群的资源总原创 2022-01-25 14:57:40 · 2130 阅读 · 0 评论 -
第四章 MapReduce性能优化
4.1 小文件存储解决方案4.1.1 为什么不适合存储小文件Hadoop 中的HDFS和MapReduce都是针对大文件来设计的。在HDFS中,DataNode在启动的时候需要每个block 的信息都要上报给NameNode,每个block 的信息占用150字节,如果我们存储了一堆都是几KB的小文件,最后发现NameNode的内存占满了,确实存储了很多文件,但是文件的总体大小却很小,这样就失去了HDFS存在的价值。在MapReduce中每个block 需要启动一个Map任务,启动Map任务很耗资源,但是原创 2022-01-21 19:29:11 · 1838 阅读 · 0 评论 -
第三章 MapReduce
3.1.1 MapReduce概念MapReduce是一个分布式计算框架。3.1.2 MapReduce底层原理MapReduce 采用的是移动计算的方式,根据split产生map test,然后通过shuffle,将map任务的输出拷贝到不同的reduce节点。由reduce阶段进行全局汇总。原理图block 是HDFS文件物理上的分割,split 是HDFS文件逻辑上的分割,严格意义上来说是一个split 产生一个map 任务。3.1.3 MapReduce执行过程3.2 Word原创 2022-01-19 14:33:51 · 1508 阅读 · 0 评论 -
第二章 HDFS
2.1 HDFS 介绍分布式文件系统设计思想用户请求查看数据时会请求主节点,主节点上面会存储维护着所有数据的存储信息,然后用户根据数据所在的节点信息去对应的节点去读取数据,这样压力就进行了分流。常见的分布式文件系统GFS(谷歌)TFS(淘宝)S3(S3)HDFS 定义HDFS的全称是Hadoop Distributed File System ,Hadoop的 分布式 文件系统,它是一种允许文件通过网络在多台主机上分享的文件系统,可以让多台机器上的多个用户分享文件和存储空间。原创 2022-01-11 15:19:45 · 840 阅读 · 0 评论 -
第一章 Hadoop
第一章 Hadoop1.1 Hadoop 简介Hadoop 是一个适合海量数据的分布式存储和分布式计算的框架。这里的分布式存储指的是HDFS ;分布式计算指的是MapReduce1.1.1 Hadoop 版本Hadoop1.x HDFS+MapReduceHadoop2.x HDFS+YARN+MapReduceHadoop3.x HDFS+YARN+MapReduce1.1.2 Hadoop3.x的细节变化最低的Java版本要求从Java7变为Java8在Hadoop原创 2022-01-11 15:11:22 · 823 阅读 · 0 评论 -
Linux常用命令
第零章 绪论以下命令都是基于 Centos7第一章 Linux 常用目录结构第二章 Linux 常用基本命令2.1 文件查看pwd (显示当前路径)whoami (显示自身用户名称)lsll(ls -l缩写)列出当前目录下的文件ll -a列出当前目录下的所有文件(包括隐藏文件)which 查找文件(一般用来查找文件或命令所处位置)[root@bigdata01 ~]# pwd/root[root@bigdata01 ~]# whoamiroot[root@bigdata0原创 2021-12-31 15:46:08 · 963 阅读 · 0 评论