分布式计算的学习之路
文章平均质量分 80
裘千仞不会水上漂
这个作者很懒,什么都没留下…
展开
-
我的spark学习之路(一)
2016.8.10其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,这感情好啊,既符合我搞开发的兴趣,文章也不难发,毕业了还有两个选择,简直是三全其美啊。虽然老师给了我两个月的时间考虑,但是我基本就决定了,我一定要研究这个方向,于是就有了接下来的话题。一、背景1.北京原创 2016-08-10 23:38:14 · 10496 阅读 · 2 评论 -
ubuntu(离线)安装做任意版本的Scala
1.执行如下命令下载Scala,也可以提前通过其它方式下载wget –c http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 这里安装的是2.11.8,如果要安装其它版本,请在这里找相应的链接 2.解压Scalatar -zxf scala-2.11.8.tgz3.创建Scala目录mkdi原创 2018-01-23 23:09:21 · 490 阅读 · 0 评论 -
Hadoop常见问题总结
hadoop配置问题:put: `.’: No such file or directory执行hdfs dfs -ls出现put: .': No such file or directory 出现这个问题的原因是当前登录用户在HDFS中没有HOME文件夹,执行下面命令即可解决:hadoop fs -mkdir -p /user/[current login user]现在执行 ha原创 2018-01-23 22:30:11 · 1435 阅读 · 0 评论 -
hadoop+IDEA开发环境
配置依赖新建项目后,在Intellij左上方会有项目文件结构,双击以编辑pom.xml,这就是Maven的配置了。添加源pom.xml初始内容如下 XML 在project内尾部添加 在project内尾部添加repositories> repository> id>apacheid> url>http://maven.apache原创 2018-01-23 22:18:59 · 422 阅读 · 0 评论 -
Spark出现解决Retrying connect to server: 0.0.0.0/0.0.0.0:8031. Already tried 0 time(s);解决方案
修改yarn-site.xml,添加下面内容 property> name>yarn.resourcemanager.addressname> value>master:8032value> property> property> name>yarn.resourcemanager.sched原创 2018-01-23 22:10:41 · 7099 阅读 · 0 评论 -
我的spark学习之路(四):利用geotrellis 裁剪TIF数据
裁剪数据大概是我们最常用的功能之一了吧,geotrellis的Tile类有两个方法,一个是localMask,一个是mask,tile.localMask(r: Tile, readMask: Int, writeMask: Int) 的作用是把对数据tile进行掩腌,具体的做法是把r中readMask位置的数据换成writeMask,这种要求掩膜数据和被裁剪的数据具有相同的范围大小,mask方法原创 2016-10-17 17:50:30 · 2702 阅读 · 0 评论 -
我的spark学习之路(三):利用spark做回归分析
spark有机器学习库(MLlib)下有简单的回归分析方法,今天只说最简单的线性回归,spark提供有两个回归分析库(mllib和ml),我在学习在网上也查了不少资料,有一个奇怪的现象是网上关于spark回归分析的资料基本全是mllib,关于ml的基本没见到,根据官方文档我自己对两个库的方法都做了测试,发现mllib做出的结果不是很正确原创 2016-10-17 16:36:11 · 3393 阅读 · 0 评论 -
「解决」spark on yarn上遇到的一个问题
昨天在yarn上提交spark任务一直出现一个错误INFO org.apache.hadoop.ipc.Client: Retrying connect to server: master/172.16.50.131:9000. Already tried 0 time(s).网上查了半天说是看看yarn启动是否成功,我这才想起我忘启动yarn,说这个的意思是出现这种错误的原因就是yarn没有正常原创 2016-09-07 09:29:07 · 6040 阅读 · 0 评论 -
Spark从入门到到放弃(二)geotrellis初探:如何发起WEB服务显示地图
刚看一下,我的上一篇博客竟然是在8.10写的,到今天已经差不多40天了,时间过的可真快,最近太忙,一直没时间整理看过的东西,索性这会没事随便写点。 我的专业是地图学与地理信息,听这个名字就知道少不了要与地理数据打交道,我用spark一般也是处理地理数据,很幸运spark有一个开源的地理数据处理框架 geotrellis,下面是官方对geotrellis的定义 GeoTrellis is原创 2016-09-19 16:36:05 · 5038 阅读 · 3 评论 -
如何在docker和宿主机之间复制文件
最近在用Docker布署hadoop,要将文件上传到HDFS首先文件得在Docker容器中吧,网上提供的方法差不多有三种 1.用-v挂载主机数据卷到容器内 2.直接在主机上拷贝到容器物理存储系统 3.用输入输出符 具体方法这篇文章写的很详细:http://blog.csdn.net/yangzhenping/article/details/43667785但是对这三种方法我都不太喜原创 2016-08-10 11:00:03 · 21523 阅读 · 2 评论 -
基于Docker布署伪分布式hadoop环境(二)
接这上一次的操作继续,拉下来就是配置hadoop了前面的操作请看这儿5.hadoop配置(1)core-site.xml配置打开core-site.xml文件(nano core-site.xml) hadoop.tmp.dir /root/soft/apache/hadoop/hadoop-2.6.0/tm原创 2016-08-05 15:15:47 · 1421 阅读 · 0 评论 -
基于Docker布署伪分布式hadoop环境(一)
1.安装Docker 安装Docker的方法这里不再详述,根据自己的操作系统在网上有一大堆教程。今天我们的主要任务是在DOCKER上布署HADOOP。 2.下载 ubutun镜像docker pull ubuntu:14.04这条命令的作用是从Docker仓库中获取ubuntu的镜像,下载完成以后,使用docker images,可以列出所有本地的镜像 Docker常用命令介绍 docke原创 2016-08-04 14:00:52 · 1527 阅读 · 0 评论 -
Spark错误:Lost task 0.0 in stage 10.0 (TID 17, slave1): java.io.FileNotFoundException
今天刚搭建好spark的集群环境,在打开本地文件的时候遇到下面这样的错误 Lost task 0.0 in stage 10.0 (TID 17, slave1): java.io.FileNotFoundException程序都能运行出结果,但就是会报错 解决办法: 如果你是在集群的环境下运行,你必须确保所有的节点上的同个文件夹都有该文件,(我的问题就是这个),或者你可以使用HDFS就不原创 2016-08-16 22:42:46 · 11036 阅读 · 0 评论