![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
wtzhm
有梦想没有金钱,想健身没有时间!
展开
-
Hadoop概念&命令操作&java操作
Hadoop概念&命令操作&java操作1. Hadoop概述HADOOP是apache旗下的一套开源软件平台,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有: HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架)2. HDFS的概念hdfs是一个文件系统,...原创 2017-11-27 19:58:48 · 589 阅读 · 0 评论 -
hdfs工作机制
Hadoop学习笔记(二)hdfs工作机制一.HDFS的重要特性 1. HDFS是一个文件系统,用于存储和管理文件,通过统一的命名空间(类似于本地文件系统的目录树)。它是分布式的,服务器集群中各个节点都有自己的角色和职责。 2. HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中...转载 2017-11-29 14:39:20 · 509 阅读 · 0 评论 -
Hadoop HDFS 高可用
1.为什么需要HA当客户端一次操作时,先写edits,然后写fsnameSystem内存,secondnamenode周期性下载edits文件,同时把fsimage下载下来,然后把edits与fsimage合并,加载到内存中形成新的原数据。最后在持久化成一个文件(fsimage最新的fsimage)发送到namenode替换成最新的fsimage.一旦Nameno原创 2018-01-03 18:51:04 · 312 阅读 · 0 评论 -
MapReduce原理
MapReduce原理1. Map概念与 为什么要mapreduceMapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上.(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序...原创 2018-03-01 17:57:24 · 785 阅读 · 0 评论 -
Hadoop hdfs 处理大量小文件
Hadoop hdfs 处理大量小文件1. 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。2. 小文件过多的缺点A. 内存扛不住在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G...原创 2018-10-16 17:14:17 · 1202 阅读 · 0 评论 -
MapReduce应用
MapReduce应用一. mapreduce中的combinercombiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和reducer的区别在于运行的位置:Combiner是一个本地化的reduce操作,它是map运算的后续操作,主要是在map计算出中间文件前做一个简单的合并重复key值的操作;每一个map都...原创 2018-10-23 08:51:07 · 1129 阅读 · 0 评论