![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
MautheDoog
这个作者很懒,什么都没留下…
展开
-
combiner笔记
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。注意:Combiner的输出转载 2014-09-05 10:21:36 · 370 阅读 · 0 评论 -
Zookeeper
»Zookeeper 是 Google的Chubby一个开源的实现,是Hadoop的分布式协调服务»它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等转载 2014-09-05 17:41:36 · 424 阅读 · 0 评论 -
分布式计算基础
数据采集: flume NG kafka 数据存储: HDFS HBase Hive Solr Ealstic search 数据分析: MapReduce Storm Spark Hive Pig Mahout(数据挖掘) 数据展现: Excel R D3 ------------------原创 2015-06-24 22:21:24 · 581 阅读 · 0 评论 -
hadoop2基本概念
hadoop版本 Apache Cloudera Hortonworks MapR intel hadoop2通用 hdfs yarn MapReducehadoop1hdfs mapreducehadoop2hdfs2 yarn(资源管理平台)hdfs2 负责数据的分布式存储主节点 有2个 namendoe从节点 多个 dat原创 2015-06-24 22:59:14 · 451 阅读 · 0 评论 -
hadoop启动命令
1,分别启动hdfs 和yarn先启动HDFS sbin/start-dfs.sh 或者 分别启动 sbin/hadoop-daemon.sh start namenodesbin/hadoop-daemon.sh start datanode jps中出现NameNodeDataNode 浏览器访问50070端口再启动YARN sbi原创 2015-07-12 16:09:24 · 901 阅读 · 0 评论 -
hdfs 要注意的几个问题
1.分布式文件系统是位于操作系统之上的一层文件管理系统。2.HDFS中的数据存储,在用户看来,非常类似于linux的文件管理——树状的目录结。3.hdfs中的文件内容是可以追加的.4.启动HDFS进程的用户是超级用户,不受任何权限限制。(谁启动谁就是超级用户)5.NameNode包含文件与数据的映射 hadoop-2.6.0-src\hadoop-2.6.0-src\had原创 2015-07-12 23:57:32 · 784 阅读 · 0 评论 -
hdfs命令
bin/hdfs dfs命令appendToFileUsage: hdfs dfs -appendToFile ... 追加一个或者多个文件到hdfs制定文件中.也可以从命令行读取输入.· hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile· hdfs dfs -appendToFile localfile1 lo原创 2015-07-12 23:59:52 · 498 阅读 · 0 评论 -
hadoop 2.4/6 伪分布安装
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性原创 2015-07-12 16:28:33 · 308 阅读 · 0 评论 -
httpFS访问
netstat -ant |grep 1400查看端口 编辑文件httpfs-env.sh (在etc/hadoop/下) 修改 export HTTPFS_HTTP_PORT=14000执行sbin/httpfs.sh 执行命令curl -i "http://hadoop261:14000/webhdfs/v1/?user.name=root&op=GETHO原创 2015-07-13 23:19:09 · 717 阅读 · 0 评论 -
dfsadmin命令
-setQuota [num] 限制文件夹下文件数量 -count -q 查看 quoto大小 -clrQuota 清空限制 -setSpaceQuota 限制空间大小 -clrSpaceQuota 清空限制原创 2015-07-13 23:18:00 · 821 阅读 · 0 评论 -
自定义ArrayWritable
*主要在 重写 readFields 时要定义values的长度,我在这卡了很久。原创 2015-08-26 20:20:24 · 1069 阅读 · 0 评论 -
Shuffle
maper duan1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。2.写磁盘前,要partition,sort。如果有combiner,combine排序后转载 2014-09-05 17:35:16 · 343 阅读 · 0 评论 -
JobTracker
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect(); info = jobClient.submitJobInternal(conf); (2)在connect()方法中,实际上创建了一个JobCli转载 2014-09-05 17:31:03 · 450 阅读 · 0 评论 -
partitoner笔记
//1.3 指定分区类 job.setPartitionerClass(KpiPartitioner.class); job.setNumReduceTasks(3);转载 2014-09-05 11:07:45 · 376 阅读 · 0 评论 -
mapReduce分组
//1.4 分组job.setGroupingComparatorClass(MyGroupingComparator.class);转载 2014-09-05 11:49:56 · 527 阅读 · 0 评论 -
mapReduce排序 笔记
在 mymapper 中加入要pai'x转载 2014-09-05 11:28:38 · 385 阅读 · 0 评论 -
mapReduce求最大值
static class MyMapper extends Mapper{ long max = Long.MIN_VALUE; protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException { final long temp转载 2014-09-05 15:39:20 · 1060 阅读 · 0 评论 -
hadoop的伪分布安装
1.hadoop的伪分布安装1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3 关闭防火墙的自动运行 执行命令转载 2014-09-05 16:14:38 · 405 阅读 · 0 评论 -
hadoop集群搭建
计算机集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。集群系统中的单个计算机通常称为节点,通常通过局域网连接。集群技术的特点:1.通过多台计算机完成同一个工作。达到更高的效率2.两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用。转载 2014-09-05 16:36:49 · 441 阅读 · 0 评论 -
hdfs命令
数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容错。即使系统中有某些节点脱转载 2014-09-05 16:55:24 · 489 阅读 · 0 评论 -
hadoop简介
Apache 官方版本(1.1.2) 现在到了2.5Cloudera 使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。Yahoo Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。转载 2014-09-05 16:09:32 · 416 阅读 · 0 评论 -
rpc
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调转载 2014-09-05 17:03:17 · 315 阅读 · 0 评论 -
MapReduce
MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。转载 2014-09-05 17:23:12 · 345 阅读 · 0 评论 -
IOException: Type mismatch in key from map的处理
一、错误描述 执行MR出现如下错误,如执行命令是:bin/hadoop jar /xxx/jar.jar错误如下: INFO mapreduce.Job: Task Id : attempt_1401948435703_0028_m_000000_0, Status : FAILEDError: java.io.IOException: Typ原创 2015-08-18 00:25:46 · 649 阅读 · 0 评论