Hadoop代码编写
GeoWin_CAU
其实,我是一个演员(研猿)……
展开
-
Hadoop 1.X & Hadoop 2.X 默认端口对比
1、Hadoop 2.X 默认端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口HDFSDa转载 2016-09-24 12:28:59 · 532 阅读 · 0 评论 -
How to decompress a .bz2 file 解压
Try the following:bzip2 -d filename.bz2------------------------------------------------------------------------------------Note, that this command will not preserve original archive file.原创 2016-03-08 03:22:25 · 660 阅读 · 0 评论 -
Hadoop实战:使用Combiner提高Map/Reduce程序效率
好不容易算法搞定了,小数据测试也得到了很好的结果,可是扔到进群上,挂上大数据就挂了,无休止的reduce不会结束了。。。。。。。。。。。。。。。。====================================================================这才想起还有个combiner!!!!!!!!!!!!!!!!!!!!!我们知道,MapReduce是分为原创 2016-03-19 03:05:31 · 1612 阅读 · 0 评论 -
SpatialHadoop中空间索引系列之(一)空间索引构建
SptialHadoop是基于hadoop扩展的用于处理空间大数据的与计算平台。最近的工作研究一下在大数据环境下空间索引的构建方法。今天就讨论下在spatialhadoop当中,空间索引是如何构建的。翻译 2016-02-03 07:32:19 · 3384 阅读 · 1 评论 -
Hadoop实战: Linux报 tmp 磁盘存储不足
Linux 权限真是一大堆呀,在Linux下进行试验,突然来了个tmp磁盘存储不足。。。。。。。。。。。。。。。。。。然而,我却没有权限给tmp增加容量。。。。。。。。。。。。。只有修改配置文件了!!!!!!!!!!!===================================================================编辑conf/core-site原创 2016-03-18 01:45:25 · 2432 阅读 · 0 评论 -
GeoHadoop 之 Hilbert 空间填充曲线 Java 实现(一)
以希尔伯特命名的数学名词多如牛毛,有些连希尔伯特本人都不知道。希尔伯特空间在很多领域都有广泛的应用。由于其强空间特性,能够保证多维相邻的空间要素在一维空间上仍然保持局部相应的空间关系,在地理领域,基于Hilbert的空间索引、空间聚类等算法非常多见。今天我们来看下Hilbert是如何来解决空间问题的。首先,来认识下老爷子吧(百度)。更多文章请点击戴维·希尔伯特(不得不承认老爷子很帅!!!!!!原创 2016-02-19 04:49:07 · 6304 阅读 · 4 评论 -
Java 中如何对 Iterator<Text> values 实现两次遍历
Just like this!!!!!!!!!!!!!!!!=============================================================== public static class Reduce extends MapReduceBase implements Reducer { @Override public voi原创 2016-03-17 02:48:16 · 5393 阅读 · 0 评论 -
windows下:Failed to set permissions of path: \tmp\ \.staging to 0700
这个官方的bug之前遇到过。。。。。。。。。。。。。。。。。。。。。可是。。。。。。。==================================================12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...原创 2016-03-16 14:31:13 · 3323 阅读 · 0 评论 -
1秒钟让你了解Hadoop和Spark
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机原创 2016-02-12 23:45:31 · 1593 阅读 · 1 评论 -
hadoop Safe mode is ON 的解决办法
搭了一个hadoop集群环境,近期总是出现读写文件错误的情况,查看name node的日志显示 (Safe mode is ON)Safe mode is ON. The ratio of reported blocks 0.2000 has not reached the threshold 0.9990. Safe mode will be turned off aut转载 2016-03-19 22:30:40 · 9435 阅读 · 0 评论 -
CentOS下tar解压 gz解压 bz2等各种解压文件使用方法
大致总结了一下linux下各种格式的压缩包的压缩、解压方法。但是部分方法我没有用到,也就不全,希望大家帮我补充,我将随时修改完善,谢谢! .tar 解包:tar xvf FileName.tar 打包:tar cvf FileName.tar DirName (注:tar是打包,不是压缩!) ———————————————转载 2016-03-22 08:07:20 · 8847 阅读 · 0 评论 -
Linux下查看文件和文件夹大小
当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非常有效。比如用df查看哪个一级目录过大,然后用df查看文件夹或文件的大小,如此便可迅速确定症结。 下面分别简要介绍 df命令转载 2016-05-09 22:33:24 · 2550 阅读 · 0 评论 -
如何获取到Hadoop集群的个数
Class ClusterStatus====================================================================ClusterStatus provides clients with information such as:Size of the cluster.Name of the trackers.Task c原创 2016-04-15 00:08:54 · 7167 阅读 · 1 评论 -
Mapreduce实战:序列化与反序列化 int,int[],string[][]
最新一期《中国IT产业发展报告》在2016中国(深圳)IT领袖峰会上正式公布,数字中国联合会常务理事李颖称,中国IT产业完成了从要素驱动向效率驱动的过渡,目前正在由效率驱动向创新驱动发展。原创 2016-03-28 05:13:22 · 2220 阅读 · 0 评论 -
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。 输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意的;我转载 2016-03-12 00:22:47 · 2037 阅读 · 1 评论 -
Hadoop实战:*********MapReduce的性能调优(二)*********
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task转载 2016-03-22 22:54:28 · 2321 阅读 · 0 评论 -
Hadoop实战:*********MapReduce的性能调优(一)*********
这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.map.tasks.maximummapred.reduce.tasks & mapred.tasktracker.转载 2016-03-22 22:49:15 · 3127 阅读 · 0 评论 -
retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
还没开工,集群 就挂了,昨天还好好的,谁动了我的集群骂人骂人发火发火敲打敲打于是乎,开启google、百度模式,答案都试了个变,log反复看,还是不行。尼玛,我去页面看看……不看不知道,一看吓一跳,我的集群已成为了别人的集群。突然想起沙特大哥曾说过,不要采用默认端口,因为集群很多人用,容易冲突,好吧,我错了。更多文章点击这里查看原创 2016-03-11 04:37:29 · 6223 阅读 · 1 评论 -
Ubuntu 突然上不去网了怎么办
到家了也想看看程序,打开WIN8上的虚拟机VM,然后启动Ubuntu....................................像往常一样等待着界面,输入密码,然后修改程序。。。。。。。。。。。。。。一切就绪后,准备编译项目,突然无法get到网络了,what is wrong?第一次遇到。。。。。。。。。。==================================原创 2016-03-22 11:17:50 · 3166 阅读 · 1 评论 -
SpatialHadoop中空间索引系列之(十)R-Tree 索引源码解析
前面章节已经大概描述了在SpatialHadoop中R-Tree空间索引实现的步骤,本章节就从源码角度来看下该算法是怎么实现的。原创 2016-02-11 05:53:21 · 2321 阅读 · 5 评论 -
hadoop源码解析—— conf包中Configuration.java解析(二)
1 Hadoop Configuration简介 Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即使用org.apache.hadoop.conf.Configuration处理配置信息。转载 2016-02-11 01:43:23 · 1150 阅读 · 1 评论 -
hadoop源码解析—— conf包中Configuration.java解析(一)
package org.apache.hadoop.conf;import java.io.BufferedInputStream;import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.FileInputStream;import java.io.IOExceptio原创 2016-02-11 01:37:27 · 3263 阅读 · 0 评论 -
ArcGIS 地图切图系列之(三)MapReduce 实现
前面有一节讲解了ArcGIS 地图切片之 JAVA 实现,这一节,我们就来看下在Hadoop下,如何通过MapReduce来实现地图切片。在大数据环境下,不得不尝试下云平台的优势,来解决单机的执行效率有限。 在前面章节中讲述到,ArcGIS地图切片通过JAVA来实现需要三个步骤:1)计算当前要素的行列号;2)根据行列号、宽度和高度,来进行画布的生成;3)……………………原创 2016-02-04 04:08:26 · 3783 阅读 · 8 评论 -
SpatialHadoop中空间索引系列之(三)格网索引原理
接着上一篇继续吧!!!!!!!!!!!!!!这一篇来描述下什么是空间格网索引。格网型空间索引的基本思想是将研究区域用横竖线条划分大小相等或不等的格网,记录每一个格网所包含的空间实体。当用户进行空间查询时,首先计算出用户查询对象所在格网,然后再在该网格中快速查询所选空间实体,这样一来就大大地加速了空间索引的查询速度。原创 2016-02-04 05:32:43 · 4074 阅读 · 0 评论 -
Hadoop中空间数据的存储(二)
在前一节中,我们讲解了空间数据在Hadoop中的存储,通过将块进行可视化来分析了下Hadoop在存储空间数据的缺陷,可能远远不止这一点。今天我们就基于比较完善成熟的SpatialHadoop平台做一下同样的实验,来看下在SpatialHadoop平台中如何体现空间数据的特性。SpatialHadoop平台是由美国明尼苏达大学计算机系(提到这个大家是不是很熟悉,曾经的mapserver)Mokbel教授所带团队研发,目前平台持续更新中。原创 2016-02-06 01:21:40 · 3245 阅读 · 10 评论 -
Hadoop中空间数据的存储(一)
Hadoop十周年了,基于Hadoop的空间大数据处理与分析平台出现了好几个,也死掉了不少。由于空间数据的空间特性,导致原型的Hadoop在处理空间大数据方面有很多缺陷。今天我们就来看下空间数据在Hadoop中是如何存储的,这样的存储会带来什么问题。原创 2016-02-06 00:41:12 · 7126 阅读 · 9 评论 -
SpatialHadoop中空间索引系列之(四)空间格网索引实现
有关空间格网索引原理详见前面章节讲述的内容。这里我们根据SpatialHadoop中具体的实现,来详细讲解下。格网索引是一级索引,格网的个数取决于两个参数,一个是数据集的大小,另外一个就是格网的大小。那么在SpatialHadoop当中,具体怎么实现,我们先来拜读下作者Ahmed的文章。原创 2016-02-09 05:00:34 · 1715 阅读 · 0 评论 -
Win环境下本地运行hadoop1版本出现访问权限问题 Failed to set permissions of path
Win环境下本地运行hadoop1版本出现访问权限问题,会遇到如下报错: Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0原创 2015-10-30 23:13:56 · 1477 阅读 · 0 评论 -
MapReduce进一步了解(二)——序列化
1、序列化概念1.序列化(Serialization)是指把结构化对象转化为字节流。2.反序列化(Deserialization)是序列化的逆过程,把字节流转回结构化对象。3.java序列化(java.io.Serialization)2、hadoop序列化的特点1.紧凑:高效实用存储空间2.快速:读写数据的额外开销小3.可扩展:可透明地读取老格式的数据4.互操作:支持多语言的交互原创 2015-08-04 16:23:49 · 1677 阅读 · 0 评论 -
MapReduce 的进一步了解(一)
1、map任务处理1.1读取输入文件内容,接卸成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。1.3对输出的key、value进行分区。1.4对不同分区的数据,按照key进行排序、分区。相同key的value放到一个集合中。原创 2015-08-04 12:31:09 · 548 阅读 · 0 评论 -
JAVA 中Math.ceil()、Math.floor()和Math.round()的区别
ceil():将小数部分一律向整数部分进位。如: Math.ceil(12.2)//返回13 Math.ceil(12.7)//返回13 Math.ceil(12.0)// 返回12 floor():一律舍去,仅保留整数。 如: Math.floor(12.2)// 返回12 Math.floor(12.7)//返回12 Math.floor(12.0)//原创 2016-02-09 00:50:00 · 1773 阅读 · 0 评论 -
Hadoop 2.6.1 单机模式配置 by GISer_Leo@UMN
如题,很开心,Hadoop 2.6.1单机模式不需要任何配置就可以运行。下载---解压---运行就好啦。原创 2015-10-16 00:26:26 · 614 阅读 · 0 评论 -
org.apache.hadoop.conf.Configuration.getFloat(String arg0, float arg1)
/** 577 * Get the value of the name property as a float. 578 * If no such property is specified, or if the specified value is not a valid 579 * float, then defaultValue is returned原创 2016-02-11 01:31:53 · 827 阅读 · 0 评论 -
MapReduce 与 关系型数据库的区别
MapReduce 与 关系型数据库的区别:1 数据访问模式受限于磁盘寻址磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。2 MapRed转载 2015-03-30 16:50:04 · 699 阅读 · 0 评论 -
ArcGIS和Hadoop之间的故事之一
ArcGIS和Hadoop之间的故事之一 一个是GIS界的大牛,一个是BigData界的主流。下面我们来看看ArcGIS在这方面所做的工作。原创 2015-04-18 15:04:14 · 6027 阅读 · 2 评论 -
Hadoop中查看一个文件位置信息
命令行hadoop fsck /user/filename -files -blocks -locations -racks-files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,-racks 在带-files参数后显示原创 2015-04-15 18:49:37 · 3973 阅读 · 0 评论 -
GIS Hadoop 开发案例 (gis-tools-for-hadoop)
GIS Hadoop 开发案例 第一步解析json数据,建立外包矩形四叉树,第二部读取地震数据,先判断这个点是否在外包矩形内部,如果是再判断多边形是否包含该点,如果不包含返回-1,如果包含,返回该多边形的index,然后将结果写入到context中,进行reduce。原创 2015-04-13 17:32:57 · 4210 阅读 · 3 评论 -
Hadoop 常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件转载 2015-04-02 20:01:58 · 487 阅读 · 0 评论 -
hadoop学习笔记——第一个程序
1、程序例子连接:http://blog.chinaunix.net/uid-20577907-id-3613584.html2、问题解决连接:http://www.360doc.com/content/15/0202/09/20466010_445634294.shtml3、hadoop 命令连接:http://blog.csdn.net/wangloveall/article/deta原创 2015-04-01 16:19:15 · 538 阅读 · 0 评论 -
Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽转载 2015-03-31 10:36:32 · 546 阅读 · 0 评论