自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 MapTask原理分析

MapReduce原理分析文章目录MapReduce原理分析一、MapTask运行机制详解二、MapTask的并行度切片机制源码阅读一、MapTask运行机制详解MapTask流程详细步骤:首先,读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits,有多少个split就对应启动多少个MapTask。split与block的对应关系默认是一对一。将输入文件切分为splits之后,由Recor

2021-03-17 01:38:27 1455 1

原创 MapReduce编程框架

MapReduce编程框架大数据学习笔记03文章目录MapReduce编程框架一 、MapReduce思想二、MapReduce编程规范及示例编写三 、WordCount代码实现一 、MapReduce思想MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核心是分而治之,充分利用了并行处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作

2021-03-10 20:12:20 211

原创 大数据学习笔记02----Hadoop之HDFS

HDFS分布式文件系统文章目录HDFS分布式文件系统一、 HDFS 简介二、HDFS的重要概念三、HDFS 架构四、HDFS 客户端操作总结Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块,本文章主要对HDFS的知识点进行梳理。一、 HDFS 简介HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。分布式文件系统横跨多台

2021-02-26 21:01:50 436 3

原创 大数据学习笔记01----大数据初入门

大数据初入门大数据简介Hadoop简介Apache Hadoop的重要组成总结大数据简介- 大数据定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。- 大数据特点大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:- 大量采集、存储和计算的数据量都非常大。计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示,

2021-02-22 23:22:09 484 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除