hadoop
茁壮成长的凌大大
事稍拂逆,便思不如我的人,则怨尤自消;心稍怠荒,便思胜似我的人,则精神自奋。
展开
-
Hadoop学习——简单介绍及单点配置步骤(2018012-10补充)
Hadoop介绍Hadoop是一个开源的、可靠的、可扩展的系统架构,可利用分布式架构来存储海量数据,以及实现分布式的计算。Doug Cutting是创始人,同时也联合开发了Lucence、Nutch。Hadoop作用简概存储海量数据。计算海量数据。nutch到Hadoop的发展 nutch是Apache的一个搜索引擎。搜索引擎必然离不开爬虫,爬虫分为聚焦爬虫和通用爬虫。而爬虫得来...原创 2018-12-06 09:30:43 · 704 阅读 · 0 评论 -
hadoop学习——hdfs指定tmp目录中内容的介绍
hadoop学习——hdfs指定tmp目录中内容的介绍1、格式化 已经知道,当执行hadoop格式化指令时,会在指定的tmp目录下,生成dfs目录。它下边具体如下:[root@hadoop01 dfs]# lsdata name namesecondary dfs/data目录,是datanode节点存储数据块的目录。 dfs/namesecondary目录,对于以后集群...原创 2018-12-10 09:14:29 · 8744 阅读 · 1 评论 -
Hadoop学习——hdfs分布式文件系统
Hadoop学习——hdfs分布式文件系统1、HDFS1.1 介绍 来源于google的论文《Google File System》1.2 HDFS特点分布式存储架构,支持海量数据存储。(GB、TB、PB级别数据)高容错性,数据块拥有多个副本(副本冗余机制)。副本丢失后,自动恢复。低成本部署,Hadoop可构建在廉价的服务器上。能够检测和快速应对硬件故障,通过RPC心跳机制来实...原创 2018-12-10 09:17:50 · 657 阅读 · 0 评论 -
Hadoop学习——hdfs上传读取删除文件的过程
Hadoop学习——hdfs上传读取删除文件的过程namnode,名字节点,最主要管理HDFS的元数据信息。datanode,数据节点,存储文件块replication,文件块的副本,目的是确保数据存储的可靠性rack 机器Client 客户端。凡是通过指令或代码操作的一端都是客户端Client 的Read(从HDFS下载文件到本地)Client的Write(上传文件到HDFS...原创 2018-12-10 12:47:55 · 2337 阅读 · 0 评论 -
Hadoop学习——MapReduce的简单介绍及执行步骤
MapReduce概述 MapReduce是一个分布式的计算框架(编程模型),最初由由谷歌的工程师开发,基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的Mapreduce分布式计算框架。 MR框架对于程序员的最大意义在于,不需要掌握分布式计算编程,不需要考虑分布式编程里可能存在的种种难题,比如任务调度和分配、文件逻辑切块、位置追溯...原创 2018-12-27 13:08:40 · 728 阅读 · 0 评论 -
Hadoop学习——MapReduce的组件及简单API(一)
Hadoop学习——MapReduce的组件及简单API 上一篇参考Hadoop学习——MapReduce的简单介绍及执行步骤MapReduce的组件 组件是实现MapReduce的真正干活的东西,即我们的业务逻辑,就是要写到这里边来的。MapReduce共有4个组件一、Mapper组件介绍 可以读取文件,默认是一行一行读取,把输入 key和value通过map()传给程序员,输...原创 2018-12-27 15:32:48 · 1750 阅读 · 0 评论 -
Hadoop学习——MapReduce的组件及简单API(二)
Hadoop学习——MapReduce的组件及简单API(二)原创 2018-12-27 19:35:50 · 438 阅读 · 0 评论 -
Hadoop学习——MapReduce自定义序列化和排序的API写法
对于前两篇,学习了MapReduce的四大组件。这一篇写一下MapReduce的序列化和排序的写法。一、序列化机制 在MapReduce里,难免会有用到对象的时候,另外,因为集群工作过程中需要用到RPC操作,并且mapTask和reduceTask之间也是通过http请求来传输,所以想要MapReduce处理的对象类,必须可以进行序列化/反序列化操作。Hadoop并没有使用Java原生的...原创 2018-12-27 20:23:45 · 1032 阅读 · 0 评论 -
Hadoop学习——MapReduce的job机制和job链介绍
前边写了MapReduce的介绍、以及四大组件、序列化机制和排序。 这一篇记录一下MapReduce相关的job机制,对于在代码里,我们总要有一个Driver,比如下边:public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); //获取j...原创 2018-12-28 18:48:07 · 6333 阅读 · 2 评论