Hadoop
David Wolfowitz
愿在最好的青春做成最想做的事
展开
-
Hadoop 【10】 - Hadoop 整理提升【一】
Hadoop 提升【1】一、关于MapReduce1、概述MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行各个语言版本的MapReduce程序。MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集。2、Hadoop分析数据首先提供一个背景,就是给定一个每年的气象数据信息,去挖掘气象数据。2.1 小提示首先,为了充分利用Hadoop提高的并行处理优势, 我们将查询表示成Map原创 2020-05-09 17:34:25 · 226 阅读 · 0 评论 -
Hadoop - 【10】- Flume【1】--概述
一、概述Flume是一个高效的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来, 再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定会成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sinl)之后,flume在删除自己缓存的数据。Flume支持定制各类数据发送方,用于收集各类型数据;同时, Flume支持定制各种数据接收方,用于最终存储数据。一般的采集需求,通过对flume的简单配置原创 2020-05-08 23:51:49 · 140 阅读 · 0 评论 -
Hadoop 【9】MapReduce入门 - Combiner组件
Mapreduce的combiner每一个map都可能产生大量的本地输出, Combiner的作用就是对map端的输出先做一次合并, 以减少在map和reduce节点之间的数据传输量,以提高网络IO性能, 是MapReduce的一种优化手段。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和red...原创 2020-05-08 17:26:12 · 142 阅读 · 0 评论 -
Hadoop【8】 - MapReduce入门(三) Mapreduce的序列化
1、定义序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要接收或从磁盘读取的字节流转化为对象,就要进行反序列化。Java的序列化(Serialization)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的...原创 2020-05-08 16:19:27 · 123 阅读 · 0 评论 -
Hadoop【7】- MapReduce入门(二)Mapreduce的处理流程
Mapper 任务执行过程讲解第一阶段: 是把输入目录下文件按照一定的标准逐个进行逻辑切片, 切成切片规划。 默认情况下, Split size=Block size。 每一个切片有一个MapTask处理。第二阶段:是对切片中的数据按照一定的规则解析成<key, value>。默认规则是把每一行文本内容解析成键值对。 key是每一行的起始位置(单位是字节), value是本...原创 2020-05-06 23:39:12 · 220 阅读 · 0 评论 -
Hadoop【6】- MapReduce入门(一)Mapreduce基本概念
一、MapReduce计算模型理解MapReduce思想MapReduce的思想核心是“分而治之”, 适用于大量复杂的任务处理场景, 大规模数据处理场景。Map负责“分”, 即把复杂的任务分解为若干个“简单的任务”来并行处理。 可以进行拆分的前提是这些小任务可以并行计算, 彼此之间没有相互依赖的关系。Reduce负责“合”, 即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapR...原创 2020-05-06 20:50:45 · 329 阅读 · 0 评论 -
Hadoop【5】- HDFS的应用
案例:shell定时采集数据至HDFS上线的网站每天都会产生日志数据, 假如有这样一个需求, 要求凌晨24点操作前一天产生的日志数据, 准时上传至HDFS集群中。如何实现?实现后能否实现周期性上传数据?如何定时?分析:HDFS SHELL:hadoop fs -put //上传文件Linux crontab:crontab -e 0 0 *** /shell/uploadFile2...原创 2020-05-04 22:06:07 · 159 阅读 · 0 评论 -
Hadoop 【5】- HDFS入门(三)工作机制
HDFS的工作机制NameNode负责管理整个文件系统元数据, DataNode负责管理具体文件数据块存储, Secondary NameNode协助NameNode进行元数据的备份。HDFS的内部工作机制对对客户端保持透明, 客户端请求访问HDFS都是通过向NameNode申请来进行。一、HDFS写数据流程详细步骤:client发起文件上传请求, 通过RPC与NameNOde建立...原创 2020-05-04 12:47:52 · 146 阅读 · 0 评论 -
Hadoop【4】- HDFS入门(二)基本原理
HDFS基本原理1、NameNode概述NameNode是HDFS的核心。NameNode也称为Master。NameNode仅存储HDFS的元数据:文件系统中的所有文件的目录树, 并跟踪整个集群中的文件。NameNode不存储实际数据或数据集。数据本身实际存储在DataNode中。NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNOd...原创 2020-05-04 09:15:06 · 198 阅读 · 0 评论 -
Hadoop【3】 - HDFS入门(一)基本概念
1、HDFS基本概念什么是HDFSHDFS是Hadoop Distribute File System的简称, 是Hadoop分布式文件系统, 是Hadoop核心组件之一, 作为最底层的分布式存储服务而存在。分布式文件系统解决的问题是大数据存储,它们是横跨在多台计算机上的存储。框架图HDFS设计目标1)硬件故障是常态。HDFS将有成百上千的服务器组成,每一个组成部分都有可能出...原创 2020-05-03 21:46:54 · 217 阅读 · 0 评论 -
Hadoop【2】- web-ui访问Hadoop集群
Web访问Hadoop一旦Hadoop集群启动并运行, 可以通过web-ui进行集群的查看,一、NameNode的访问http://had-node1:9870上面的had-node1改为自己设置的##要注意###这里我的hadoop的版本是3.2, 所以是9870的端口, 一定注意这个差别, 2.xd的端口50070二、ResourceManager的访问http:had-n...原创 2020-05-02 12:44:23 · 3125 阅读 · 0 评论 -
Hadoop【1】- Hadoop的配置
环境说明:Centos 8, 三个节点服务器配置(1)设置主机名(三个节点)vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=had-node1 (2)配置IP、主机名映射vi /ect/hosts192.168.33.101 had-node1192.168.33.102 had-node192.168.33.103 ha...原创 2020-05-01 23:41:00 · 203 阅读 · 0 评论