Hadoop
..Hadoop生态
白小纯纯
两年,回西安卖口红,哈哈哈哈哈~
展开
-
Hadoop理论-MapReduce
Hadoop理论-MapReduce一、MapReduce概述1.简述MapReduce是分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序,并发运算在一个Hadoop集群上.2.MapReduce核心思想解析:全程序分为两个阶段,Map阶段和Reduce阶段,Map阶段MapTask是并发的,并行运行,不相干预,Reduc...原创 2020-02-16 16:17:03 · 530 阅读 · 0 评论 -
HDFS客户端操作以及测试结果
HDFS客户端操作以及测试结果一、HDFS客户端环境准备需要在Windows配置Hadoop环境启动hadoop102的hdfs二、源码实现1.配置pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xml...原创 2020-02-15 09:40:22 · 678 阅读 · 0 评论 -
MapRecuce-自定义InputForMat操作(本地模式)
MapRecuce-自定义InputForMat操作(本地模式)没有提交到yarn一、需求要求,将三个文件合并成为一个完整的新二进制内容文件(自定义合并小文件)Key为路径,value为文件内容步骤如下1.自定义一个类继承FileInputFormat2.改下打碎数据RecordReader,封装成KV值3.在输出时使用SecondFileOutPutFormat输出合并文件二、...原创 2020-02-13 10:32:30 · 683 阅读 · 0 评论 -
Hadoop理论-HDFS
Hadoop理论-HDFS一、HDFS概述Hadoop Distributed File System数据的海量需要一种新的系统来管理多台机器上的文件,这就是分布式文件管理系统.HDFS就是其中的一种.**HDFS使用场景:**适合一次写入,多次读出的场景,且不支持文件的修改,很适合做数据的分析,不适合做网盘.二、HDFS组成架构1>NameNode(NM):Master,是一...原创 2020-02-13 15:29:08 · 1751 阅读 · 0 评论 -
Hadoop概要
Hadoop概要一、Hadoop简介1.Hadoop是Apache基金会所维护的分布式系统的基础框架2.主要解决海量的数据存储和海量的数据分析计算问题3.广义上来说,Hadoop通常是指一个更加广泛的概念–Hadoop生态圈二、Hadoop优势1.高可靠性:其底层维护多个数据副本,所以即使其中某个计算元素或存储出现故障,也不会导致数据的损失2.高扩展性:在各个集群间分配任务数据,可以...原创 2020-02-13 10:17:12 · 3362 阅读 · 1 评论