MapReduce/Hadoop
小白的学习笔记
这个作者很懒,什么都没留下…
展开
-
使用Hadoop 实现文档倒排索引
文档倒排索引主要是统计每个单词在各个文档中出现的频数,因此要以单词为key,value为文档以及该单词在此文档频数,即输出数据的格式形如: :表示word1这个单词在doc1文档中出现了3次,在doc2文档中出现了4次。 整个程序的输入是一系列文件,比如file01.txt, file02.txt, file03.txt ....,首先要将这些文件上传到hado原创 2015-04-16 16:46:14 · 3405 阅读 · 4 评论 -
Hadoop深入学习:HDFS主要流程——SNN合并fsimage和编辑日志
本节我们主要写Secondary NameNode是如何合并命名空间文件和编辑日志文件。 客户端对HDFS的文件系统目录树进行的任何修改,都会被记录到编辑日志(edits)文件中,以保证系统出现故障后,能够根据这些日志进行恢复,但是随着日志不断地增加,这意味着系统重启后,需要进行恢复的时间也就越长。为了避免这一情况的发生,HDFS引入了检查点(checkpoint)机制。转载 2016-09-04 10:45:41 · 2814 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2016-09-04 10:27:13 · 421 阅读 · 0 评论 -
1TB(或1分钟)排序的冠军
作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在5转载 2016-05-16 10:50:33 · 1377 阅读 · 0 评论 -
Hbase基本操作示例
Hadoop Hbase通过行关键字、列(列族名:列名)和时间戳的三元组确定一个存储单元(cell),即由{row key, column family, column name, timestamp} 可以唯一确定一个存储值,即一个键值对:{row key, column family, column name, timestamp} -> value下面演示了Hbase原创 2016-03-12 22:00:47 · 778 阅读 · 0 评论 -
Hive SQL的编译过程_美团技术点评
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比转载 2016-03-12 21:09:02 · 1566 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性转载 2016-04-05 21:03:50 · 337 阅读 · 0 评论 -
Hadoop Hive安装,配置mysql元数据库
由于Hive依赖于Hadoop,安装Hive之前必须确认Hadoop可用,关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤,这里不再叙述。1.下载Hive安装包 下载地址为:http://www.apache.org/dyn/closer.cgi/hive(或点击下面链接),选择一个稳定版本,假设下载的版本为:apache-hive-1.0.1-bin.tar.gz,解压:t原创 2015-07-11 22:48:11 · 11814 阅读 · 8 评论 -
hadoop实例 RandomWriter
随机写例子把 10G(默认)的数据随机的写到dfs中利用 Map/Reduce每个map输入单个文件名,然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出,所以reduce没有执行。产生的数据是可以配置的。配置变量如下名字默认值描述test.randomwriter.maps_per_host10Nu转载 2015-10-09 11:32:24 · 1398 阅读 · 0 评论 -
Hadoop示例程序WordCount详解及实例
1.图解MapReduce 2.简历过程:Input:Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello HadoopMap:Sort:Combine:转载 2015-10-09 10:11:19 · 427 阅读 · 0 评论 -
Hadoop中map与reduce的个数问题
在hadoop中当一个任务没有设置的时候,该任务的执行的map的个数是由任务本身的数据量决定的,具体计算方法会在下文说明;而reduce的个数hadoop是默认设置为1的。为何设置为1那,因为一个任务的输出的文件个数是由reduce的个数来决定的。一般一个任务的结果默认是输出到一个文件中,所以reduce的数目设置为1。那如果我们为了提高任务的执行速度如何对map与reduce的个数来进行调整那。转载 2015-10-22 16:42:26 · 3061 阅读 · 0 评论 -
集群分布式 Hadoop安装详细步骤
集群分布式Hadoop系统安装及测试本系统一共有三个节点,一个namenode,两个datanode,IP和主机名对应如下:192.168.1.19 namenode192.168.1.7 datanode1192.168.1.20 datanode21、安装配置1)、安装配置JDK,在三个节点都需要安装,下面原创 2015-04-08 16:21:56 · 2237 阅读 · 3 评论 -
Hadoop配置项整理(mapred-site.xml)
namevalueDescriptionhadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存放位置io.sort.fac转载 2015-10-18 20:08:05 · 3196 阅读 · 0 评论 -
Hadoop公平调度器指南
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。转载 2015-10-16 19:41:58 · 952 阅读 · 0 评论 -
DRF算法
背景在Mesos和YARN中,都用到了dominant resource fairness算法(DRF),它不同于hadoop基于slot-based实现的fair scheduler和capacity scheduler,论文阅读:Dominant Resource Fairness: Fair Allocation of Multiple Resource Types。考虑在一转载 2015-10-16 15:40:27 · 668 阅读 · 0 评论 -
Hadoop资源感知调度器
1. 什么是Hadoop资源感知调度器?Hadoop资源感知调度器是指调度器根据各个TaskTracker当前资源负载情况(cpu,内存,网络io等)动态决定将新任务调度给哪个节点处理。2. Hadoop资源感知调度器的必要性和重要性当前绝大多数Hadoop调度器是按照slot多少进行调度。在Hadoop中,存在两种slot:map slot和reduce slot,每个节点可以根转载 2015-10-16 20:46:28 · 807 阅读 · 0 评论 -
基于集群的Hadoop HBase安装与配置
本文假设已经安装好一个三个节点的Hadoop集群,NameNode为namenode, 而DataNode为datanode1,datanode2。关于Hadoop集群的配置可以查看博客 集群分布式 Hadoop安装详细步骤,这里不再说明。 Hbase要求每台机器必须能用主机名(而不是IP)来相互访问,因此在安装之前需要配置每个主机的/etc/host文件。本系统三个节点主机名和IP对应如下:原创 2015-07-07 15:02:36 · 1355 阅读 · 0 评论 -
运行Hadoop示例程序WordCount
WordCount程序的目标是统计几个文件中每个单词出现的次数,是官方提供的示例程序,这里使用的hadoop的版本为hadoop-1.2.1。1)、首先编写代码,将WordCount.java文件放到wordcount_classes文件夹中,代码如下:import java.io.IOException;import java.util.*;import org.apache.ha原创 2015-04-08 17:42:50 · 3049 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现解析
原文地址,侵权立删:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 Na转载 2016-09-04 17:51:09 · 574 阅读 · 0 评论