大数据开发
文章平均质量分 87
Hadoop、spark等相关内容
疼痛文学小青年
当你全心全意投入进一件事情时,你会发现全世界都好像在帮你。越努力越幸运^_^
展开
-
Spark之Spark内核
Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等 一、部署模式 Spark 支持多种集群管理器(Cluster Manager),分别为: 1) Standalone:独立模式,Spark 原生的简单集群管理器,自带完整的服务,可单独部署到 一个集群中,无需依赖任何其他资源管理系统,使用 Standalone 可以很方便地搭建一个 集群; ...原创 2021-08-15 23:01:53 · 639 阅读 · 0 评论 -
Spark之基础知识
一、概述 1、定义 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 2、Spark和Hadoop的联系和区别 (1)联系: Hadoop MapReduce 由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多 并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存 在诸多计算效率等问题。所以 Spark 应运而生,Spark 就是在传统的 MapReduce 计算框 架的基础上,利用其计算过程的优化,从...原创 2021-08-15 20:03:59 · 209 阅读 · 0 评论 -
Hadoop之MapReduce
一、概述 1、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2、优缺点 (1)优点 MapReduce易于编程:它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得原创 2021-08-11 15:35:08 · 139 阅读 · 0 评论 -
Hadoop之HDFS
一、HDFS概述 1、定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。 2、优缺点 (1)优点: 高容错性:数据自动保存多个副本,它通过增加副本的形式来提高容错性。在某一个副本丢失后,它可以自动恢复。 适合处理大数据:数据规模可达到G原创 2021-08-10 22:28:35 · 719 阅读 · 2 评论 -
Hadoop之入门
一、Hadoop基本概述 1、含义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算的问题。它包括三大发行版本:Apache、Cloudera(CDH)和Hortonworks(HDP) 2、优点 (1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失; (2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点; (3)高效性:在MapReduce的思想下.原创 2021-08-10 20:58:21 · 192 阅读 · 1 评论 -
Hadoop基础知识--Day01
1、HDFS的安全模式是指在安全模式下只能读不能写。 2、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是128M。 知识点:Hadoop2.x版本以前的默认数据块的大小是64M,到了Hadoop2.x版本以后。 默认的数据块大小就变成了128M,但是是可以更改的。 3、mrappmaster/yarnchild不是HDFS的守护进程。 知识点:HDFS有五大守护进程,分别为NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeM原创 2021-07-22 22:08:43 · 748 阅读 · 1 评论