hadoop
文章平均质量分 78
yaoyaostep
这个作者很懒,什么都没留下…
展开
-
实战 windows7 下 eclipse 远程调试 linux hadoop
恩,之所以有这篇博客,是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop,其实我自己不这么混搭的,既然有童鞋这么问了,那我就索性随着折腾一把了。 首先说明几点: 远程调试对于本地hadoop版本、远程hadoop版本、eclipse版本都有极为严格的兼容性要求,我所采用的版本如下: (1)本地hadoop:0.20.203转载 2013-08-20 14:38:30 · 778 阅读 · 0 评论 -
spark 2.2 源码分析 Spark-shell 篇
spark 2.2 源码分析 Spark-submit 篇 本文主要剖析了spark的任务提交过程。在用户写完scala脚本后,进行spark-submit的shell脚本的任务提交,其内部的调用原理: 1 任务的提交 /bin/spark-submit \ --class org.apache.spark.examples.Helloworld \ --master spark原创 2017-11-17 21:36:49 · 629 阅读 · 0 评论 -
使用Python实现Hadoop MapReduce程序
分类: Python Hadoop2013-03-10 21:35 1698人阅读 评论(0) 收藏 举报 HadoopMapreducePython 转自:使用Python实现Hadoop MapReduce程序 英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的ubuntu上的翻译 2014-03-04 16:14:47 · 564 阅读 · 0 评论 -
hadoop的datajoin
hadoop中联结不同来源数据 有时可能需要对来自不同源的数据进行综合分析: 如下例子: 有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555转载 2014-02-17 15:29:18 · 594 阅读 · 0 评论 -
MapReduce源码分析总结(转)
一 MapReduce概述 Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processing and generating large dat转载 2013-11-14 17:45:55 · 722 阅读 · 0 评论 -
HDFS架构
本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制 1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: ${ dfs.name.dir转载 2013-11-27 23:30:17 · 615 阅读 · 0 评论 -
hadoop 调度器
Hadoop公平调度器指南 最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+转载 2013-11-04 14:22:20 · 786 阅读 · 0 评论 -
mapreduce的一个实例
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTrac转载 2013-10-12 14:28:18 · 978 阅读 · 0 评论 -
hadoop writable的实现
adoop在与用户写的Mapper和Reducer通信的时候,总是使用类型化的数据:从文件读入到Mapper中,Mappers向Reducers提交和Reducers到输出文件,都是存储在Java对象中的。 Writable 类型 可以和文件和网络相互通信的对象必须遵循特定的接口,叫做Writable,它允许Hadoop以一种序列化的形式读写数据以适应于传输。Hadoop提转载 2013-10-12 17:33:17 · 768 阅读 · 0 评论 -
hadoop的lzo
在hadoop中使用lzo的压缩算法可以减小数 据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行 的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。 由于压缩的数据通常只有原始数据的1/4,在HDFS中存储压缩数据,可以使集群能保存更多的数据,延长集群的使用寿命。不仅如此,由于转载 2013-10-11 17:49:15 · 901 阅读 · 0 评论 -
Hadoop Tool,ToolRunner原理分析
public interface Configurable { void setConf(Configuration conf); Configuration getConf(); } Configurable接口只定义了两个方法:setConf与 getConf。 Configured类实现了Configurable接口: public class Conf转载 2013-10-11 17:01:31 · 1718 阅读 · 0 评论 -
hadoop RPC
源码级强力分析hadoop的RPC机制 前言: 这些天一直奔波于长沙和武汉之间,忙着腾讯的笔试、面试,以至于对hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。可以参考: http://baike.baidu.com/view/32726.htm )机转载 2013-10-09 11:37:57 · 572 阅读 · 0 评论 -
chukwa
从上一篇 chukwa 的简介中,我们知道 chukwa 为日志分析系统提供了一整套的解决方案,其中包含了数据的生成、收集、排序、去重、分析和展示所需要的几乎所有事情,要扩展 chukwa 以实现自己特殊的需求,是很方便的.本文以 chukwa-0.3.0 为例,阐述在 分布式小组内如何以 chukwa 为基础实现"资源状态图"。 概述需求 "资源状态图"的需求是很明确的,具体分析如下:转载 2013-08-15 11:05:10 · 656 阅读 · 0 评论 -
hadoop 负载均衡
在使用start-balancer.sh时,如果在hdfs-site.xml里面没有配置dfs.balance.bandwidthPerSec,那么集群hdfs内部默认使用1M/S的速度移动数据(so slowly...),我们可以通过在hdfs-site.xml里面配置dfs.balance.bandwidthPerSec来加快balance的速度。 最开始我们配置的是20m/S转载 2013-08-23 17:21:01 · 673 阅读 · 0 评论 -
【hadoop】ssh localhost 免密码登陆(图解)
每次搞ssh locahost无密码登陆都要查半天,这次记录一下,以备不时之需 假设系统中有用户test,属于用户组test, 1. 首先确认能否不输入口令就用ssh登录localhost: $ ssh localhost 输出如下所示: 2. 如果不输入口令就无法用ssh登陆localhost,执行下面的命令: $ ssh-keygen转载 2013-08-22 17:46:44 · 1139 阅读 · 0 评论 -
hadoop 添加节点
Hadoop集群新增datanode 1、新节点需要配置和其他节点一样的环境,包括jdk,hadoop程序包。修改/etc/hosts。需要配置JAVA_HOME。 2、在nomenode的conf/slaves 添加新datanode的hostname 3、在新的datanode节点中,bin目录下运行一下命令来启动datanode和tasktracker ./hadoop-daemon原创 2013-08-20 16:56:52 · 485 阅读 · 0 评论 -
hive的JDBC编码问题解决
Hive默认的字符编码是UTF8,所以我们LOAD到Hive中的文件都是UTF8编码的,这样对中文也有很好的兼容性。 但是在使用JDBC连接Hive查询数据时,中文会出现乱码。 即使进行转码(无论UTF8还是GB2312)也解决不了,如下: System.out.println(newString(rs.getString("name").getBytes(), "UTF8")); Sys原创 2013-08-20 17:01:31 · 2642 阅读 · 0 评论 -
spark 2.2 源码分析 Spark-submit 篇
spark 2.2 源码分析 Spark-submit 篇 本文主要分析spark的第一步spark-submit类。之前shell阶段主要就是环境变量的加载,而个人认为spark-submit才是spark程序的真正步。由上文可知org.apache.spark.launcher.Main 启动了 org.apache.spark.deploy.SparkSubmit。我们来看一下submi原创 2017-11-22 23:24:24 · 1030 阅读 · 0 评论