大数据技术篇
GeoWin_CAU
其实,我是一个演员(研猿)……
展开
-
电脑重启后 虚拟机不见了?
RT--------------------电脑重启后虚拟机不见了?????????????===================试试点 视图-自定义-库,看看右边有没有系统显示出来!一下子就好了!!!!!!!!!!!原创 2016-12-22 15:11:54 · 3860 阅读 · 0 评论 -
中科院 | 大数据的力量来自“大成智慧”信息时代大数据的再认识
大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据文化和认识论的高度阐述了对大数据的理解;接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战;最后对发展大数据应避免的误区提出几点看法。原创 2016-02-16 01:50:48 · 2825 阅读 · 1 评论 -
ERROR security.UserGroupInformation: PriviledgedActionException
16/02/15 08:56:31 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop cause:org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.mapred.SafeModeException: JobTracker is in sa原创 2016-02-16 01:03:38 · 6099 阅读 · 1 评论 -
GeoHadoop 之 空间抽样(一)
今天情人节,外面飘大雪!!!! 抽样技术由概率学以及统计学进化而来,其不仅是一种统计调查的方法,又是一种统计推断的方法。抽样方法按照科学的理论指导,随机的从总体中提取一部分单元,根据对这部分单元分析的结果,可以外推的对总体全部单元的特性作出具有一定程度可靠性的推断分析,从而达到认识总体的目的。抽样技术在长期的实践中,逐渐形成了简单随机,系统抽样,簇抽样,分层抽样等完整的抽样框架,并在此基础上发展完善,在质量监督及统计调查等多个领域得到广泛应用。原创 2016-02-15 04:44:05 · 3119 阅读 · 1 评论 -
SpatialHadoop 中的 Operations 层 之 Range Query
本来不想翻译了,可是又看到了后面的内容。有些外文文献只看个标题,有些呢只看个摘要,有些自己喜欢的真的想好好理解一下,那就翻译吧!!!!!想看更多系列文章,请点击这里哦!!!大笑大笑大笑翻译 2016-02-13 07:25:30 · 1686 阅读 · 2 评论 -
SpatialHadoop 中的 MapReduce 层
关于这篇文章有点长,前几篇中断断续续的翻译了一部分,今天继续翻译一部分。对我来讲,我就是过一篇,让自己更清楚的了解下,大家可以看原文哦。偷笑偷笑偷笑(想看系列文章,请访问:系列文章,点我点我!)翻译 2016-02-13 05:38:57 · 1407 阅读 · 1 评论 -
1秒钟让你了解Hadoop和Spark
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机原创 2016-02-12 23:45:31 · 1602 阅读 · 1 评论 -
KNN算法
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。 kNN算法则是从训转载 2014-12-17 13:21:48 · 831 阅读 · 0 评论 -
MapReduce 与 关系型数据库的区别
MapReduce 与 关系型数据库的区别:1 数据访问模式受限于磁盘寻址磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。2 MapRed转载 2015-03-30 16:50:04 · 723 阅读 · 0 评论 -
ArcGIS和Hadoop之间的故事之一
ArcGIS和Hadoop之间的故事之一 一个是GIS界的大牛,一个是BigData界的主流。下面我们来看看ArcGIS在这方面所做的工作。原创 2015-04-18 15:04:14 · 6046 阅读 · 2 评论 -
Hadoop中查看一个文件位置信息
命令行hadoop fsck /user/filename -files -blocks -locations -racks-files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,-racks 在带-files参数后显示原创 2015-04-15 18:49:37 · 4030 阅读 · 0 评论 -
GIS Hadoop 开发案例 (gis-tools-for-hadoop)
GIS Hadoop 开发案例 第一步解析json数据,建立外包矩形四叉树,第二部读取地震数据,先判断这个点是否在外包矩形内部,如果是再判断多边形是否包含该点,如果不包含返回-1,如果包含,返回该多边形的index,然后将结果写入到context中,进行reduce。原创 2015-04-13 17:32:57 · 4231 阅读 · 3 评论 -
Hadoop 常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件转载 2015-04-02 20:01:58 · 495 阅读 · 0 评论 -
hadoop学习笔记——第一个程序
1、程序例子连接:http://blog.chinaunix.net/uid-20577907-id-3613584.html2、问题解决连接:http://www.360doc.com/content/15/0202/09/20466010_445634294.shtml3、hadoop 命令连接:http://blog.csdn.net/wangloveall/article/deta原创 2015-04-01 16:19:15 · 544 阅读 · 0 评论 -
Hadoop十岁了,核心代码行数已170万+、贡献者800+
Hadoop正式诞生于2006年1月28日,它是一个开源项目的生态系统,从根本上改变了企业存储、处理和分析数据的方式。跟传统系统的区别是,Hadoop可以在相同的数据上同时运行不同类型的分析工作。转载 2016-02-03 02:31:01 · 2047 阅读 · 0 评论 -
2016——大数据版图
编者注:原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面总结了大数据领域的发展态势,分析认为尽管大数据作为一个术语似乎已经过气,但是大数据分析与应用才刚刚开始兴起,在与 AI、人工智能等新兴技术的结合下,大数据的机会也许要比大家想象的还要大。2016年 大数据版图高清版可到此处下载。转载 2016-02-17 00:48:01 · 1888 阅读 · 1 评论 -
Linux LVM扩容
最近搭建hadoop集群,给的联想服务器,1T的硬盘,好啊!!!!!!!!!于是就装系统,尼玛!!只能红帽,好吧,红帽就红帽吧!!!!!!!装完之后发现为啥可用硬盘只有200多G!!!!难道是分区的时候搞错了,不知道,后来联系我们的段王爷,咨询了下,说还有700G没用,需要扩容!!!!!!!!不知道什么东西,看了鸟哥的Linux,终于搞定啦!记录如下:=============原创 2016-12-06 22:05:08 · 763 阅读 · 1 评论 -
Hadoop集群中添加或删除节点
最近由于试验的需要,涉及到不同节点个数的集群性能对比,因此,需要在原有的Hadoop集群中添加或者删除节点。第一步:修改Namenode中的Slaves文件,删除或者添加Datanode名称;第二步:将修改过的Slaves文件scp到每一个Datanode相应的位置,覆盖原文件;第三步:删除Namenode上的hdfs和logs文件下的所有文件;第四步:依次删除Datanode中h原创 2016-12-06 17:22:00 · 1157 阅读 · 0 评论 -
Hadoop YARN中内存和CPU两种资源的调度和隔离
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。Resourc转载 2016-12-02 17:24:56 · 838 阅读 · 0 评论 -
Hadoop 1.X & Hadoop 2.X 默认端口对比
1、Hadoop 2.X 默认端口组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口HDFSDa转载 2016-09-24 12:28:59 · 540 阅读 · 0 评论 -
Gnuplot:绘图
Gnuplot是一个命令行的交互式绘图工具(command-driven interactive function plotting program)。用户通过输入命令,可以逐步设置或修改绘图环境,并以图形描述数据或函数,使我们可以借由图形做更进一步的分析。=======================================================set boxwidth原创 2016-07-20 08:07:49 · 843 阅读 · 0 评论 -
Linux下查看文件和文件夹大小
当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非常有效。比如用df查看哪个一级目录过大,然后用df查看文件夹或文件的大小,如此便可迅速确定症结。 下面分别简要介绍 df命令转载 2016-05-09 22:33:24 · 2577 阅读 · 0 评论 -
Maven 教程入门(整理版)
今天又开始看了Maven,感觉一下几个网友写的真是棒棒哒!!!记录一下。========================================================================maven 教程入门 maven 配置管理 编译java程序Maven学习总结(一)——Maven入门Maven那点事儿(Eclipse原创 2016-05-13 03:16:57 · 1793 阅读 · 1 评论 -
Python & Hadoop
由于试验的需要,需要调整大量的参数,索性就采用Python写个脚本去执行hadoop命令。------------------------------------------------------------------------------------------------------------------------------Python,今天是第一次接触,按照例子写了一个执原创 2016-03-09 04:41:54 · 2177 阅读 · 1 评论 -
是什么卡住了大数据的应用?
要想考察大数据最好同时考察大数据背后的技术、商业和社会维度。从发展成熟度来看,技术维度走的最远、商业维度有所发展但不算全面成熟,社会维度发展最差。所以虽然已经谈了很久大数据,但除了孕育出大数据自身的几个领域比如搜索等,其它领域却并没有从大数据中获得可见的收益。大多时候人们还是处在觉得这里肯定有金子,但需要更多的耐心的状态。这篇文章则尝试对大数据本身的特征做点挖掘,对未来的发展趋势做点预测。转载 2016-02-22 09:59:19 · 1646 阅读 · 1 评论 -
SpatialHadoop中空间索引系列之(一)空间索引构建
SptialHadoop是基于hadoop扩展的用于处理空间大数据的与计算平台。最近的工作研究一下在大数据环境下空间索引的构建方法。今天就讨论下在spatialhadoop当中,空间索引是如何构建的。翻译 2016-02-03 07:32:19 · 3401 阅读 · 1 评论 -
GeoHadoop 之 Hilbert 空间填充曲线 Java 实现(一)
以希尔伯特命名的数学名词多如牛毛,有些连希尔伯特本人都不知道。希尔伯特空间在很多领域都有广泛的应用。由于其强空间特性,能够保证多维相邻的空间要素在一维空间上仍然保持局部相应的空间关系,在地理领域,基于Hilbert的空间索引、空间聚类等算法非常多见。今天我们来看下Hilbert是如何来解决空间问题的。首先,来认识下老爷子吧(百度)。更多文章请点击戴维·希尔伯特(不得不承认老爷子很帅!!!!!!原创 2016-02-19 04:49:07 · 6338 阅读 · 4 评论 -
GeoHadoop 之 Hilbert 空间填充曲线 Java 实现(二)
承接上一节,来看下做出来的效果!原创 2016-02-19 05:22:59 · 5148 阅读 · 1 评论 -
地图之美(一)——帅爆了!!!
啥都不说了,直接上图!!!!!!!!!!!!!!!!!原创 2016-02-16 08:18:50 · 3225 阅读 · 3 评论 -
Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽转载 2015-03-31 10:36:32 · 557 阅读 · 0 评论 -
Hadoop 2.6.1 单机模式配置 by GISer_Leo@UMN
如题,很开心,Hadoop 2.6.1单机模式不需要任何配置就可以运行。下载---解压---运行就好啦。原创 2015-10-16 00:26:26 · 625 阅读 · 0 评论 -
SpatialHadoop实例:面向空间数据的高效MapReduce框架
本文实例介绍了SpatialHadoop平台,它是第一个基于成熟MapReduce对空间数据具有原生支持的框架。SpatialHadoop是对Hadoop的做了一个全面的扩展,使其核心功能可以支持空间数据。因此,对于处理空间数据,SpatialHadoop与目前存在的Hadoop项目相比具有更好的性能。SpatialHadoop主要包括一个简单的空间高级语言、两级空间索引结构,以及建立在MapReduce层的基本空间组件和三个基本空间操作(范围查询、K-NN查询和空间链接)。其他的空间操作同样也可以在Spa翻译 2014-12-17 12:25:38 · 5231 阅读 · 4 评论 -
eclipse hadoop ERROR [main] security.UserGroupInformation
2015-07-26 23:49:05,594 ERROR [main] security.UserGroupInformation (UserGroupInformation.java:doAs(1494)) - PriviledgedActionException as:cau (auth:SIMPLE) cause:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/原创 2015-07-26 23:49:53 · 1951 阅读 · 0 评论 -
PayPal高级工程总监:读完这100篇论文 就能成大数据高手
转自:http://www.thebigdata.cn/YeJieDongTai/14544.html 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用。另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”转载 2015-07-09 22:40:00 · 973 阅读 · 0 评论 -
MapReduce 与 关系型数据库的区别
MapReduce 与 关系型数据库的区别: 1 数据访问模式受限于磁盘寻址磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。2 Map转载 2015-03-30 16:48:56 · 1787 阅读 · 1 评论 -
使用ESRI官方 SystemTest 软件(一)
使用ESRI官方 SystemTest软件,对发布的地图服务进行数据查询功能,系统负载测试的步骤:下载链接:http://www.arcgis.com/home/item.html?id=e8bac3559fd64352b799b6adf5721d81----------------------------------------------------------------------原创 2014-11-12 11:49:21 · 1683 阅读 · 0 评论 -
查看HADOOP中一个文件有多少块组成及所在机器ip
看文件信息hadoop fsck /user/filename更详细的hadoop fsck /user/filename -files -blocks -locations -racks -files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在d转载 2015-04-29 09:33:01 · 2331 阅读 · 0 评论 -
Eclipse的安装和Hadoop的配置
第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。e转载 2015-04-25 20:57:03 · 804 阅读 · 0 评论 -
HDFS的设计——两大一小+又多又快
HDFS的设计——两大一小+又多又快HDFS是为以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件的集群上运行。让我们仔细看看下面的明。超大文件 "超大文件"在这里指几百MB,几百GB甚至几百TB大小的文件。目前已经有Hadoop集群存储PB(petabytes)级的数据了。流式数据访问 HDFS建立在这样一个思想上:一次写入、多次读取模式是最高效的。一个数据集原创 2015-03-31 14:26:01 · 1010 阅读 · 0 评论 -
大数据浅析
大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲原创 2014-12-13 20:37:11 · 1317 阅读 · 1 评论