Spark
文章平均质量分 59
XianMing的博客
感受,感知。
展开
-
解决Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart
0.前言再使用eclipse,里创建maven管理spark程序时候出现报错,创建工程失败: Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart 研究了一下,要手动添加maven-archetype-quickstart-1.1.jar文件。但是在运行mvn install:inst原创 2016-02-12 19:50:21 · 46906 阅读 · 6 评论 -
Spark学习笔记5-隐式转换,隐式参数,隐式类
1. 隐式转换,隐式参数,隐式类scala中隐式转换,隐式参数,隐式类用到的标志符是implicit。1.1隐式转换scala> class Person(val name: String)defined class Personscala> class Engineer(val name: String, val salary: Double){ | def code = printl原创 2016-02-02 18:42:26 · 2622 阅读 · 0 评论 -
Spark学习笔记4-Scala模式匹配
1. 模式匹配Scala中的模式匹配用的关键字是match-case。类似java中的switch-case语句。1.1 值的模式匹配代码如下: 定义一个函数bigData。对传入的参数做模式匹配。 scala> def bigData(data: String){ | data match{ | case “Spark” => println(“Wow”)原创 2016-01-26 22:29:57 · 2417 阅读 · 0 评论 -
Spark学习笔记2-Scala的类,对象等
1.Scala中定义类 1.1 使用private来定义成员变量 a>定义类,程序如下:scala> :paste// Entering paste mode (ctrl-D to finish)class HiScala{private var name = "Spark"def sayName(){println(name)}def getName = name }// E原创 2016-01-24 21:17:23 · 1029 阅读 · 0 评论 -
Spark学习笔记3-Scala函数式编程
1.函数1.1函数的定义scala中函数的定义如下代码:scala> def fun1(name: String){println(name)}fun1: (name: String)Unit代码是定义了一个传入为String类型的参数name,并将name打印出来的函数。 其中def fun1(name: String){println(name)}中,def为定义函数用的标识符,fun1是函原创 2016-01-24 21:11:04 · 1717 阅读 · 0 评论 -
Spark学习笔记1-Scala基础语法
1.Scala简介 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 java之父JamesGosling也曾说过,在java虚拟机JVM上,他除了用java,其他更多的就是使用scala,可见scala也是十分强大的语言。 2基本语法 2.1值 2.1.1整型 scala> 1+2res0: Int原创 2016-01-03 12:10:56 · 3175 阅读 · 0 评论 -
Spark分布式搭建(3)——ubuntu下ssh无密码登入(设置ssh公钥认证)
0.前言Spark集群搭建在Hadoop集群之上,而Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动DataNam原创 2016-02-04 13:51:48 · 4281 阅读 · 0 评论 -
Spark分布式搭建(2)——ubuntu14.04下修改hostname和hosts
0.前言我搭建的伪分布式是1台Master,3台Worker节点,4台虚拟机都要在管理员root状态下。所以4台都要设置root自动登入,具体内容见博客,在Spark伪分布式搭建(1)——ubuntu14.04 设置root自动登入: http://blog.csdn.net/xummgg/article/details/506305831.修改hostnamehostname就是安装时自己取得机原创 2016-02-04 11:27:15 · 4020 阅读 · 0 评论 -
Spark分布式搭建(1)——ubuntu14.04 设置root自动登入
ubuntu14.04 设置root自动登入,可以分为以下4步。1、为root用户设置密码打开终端输入以下命令:#设置root密码sudo passwd root,输入当前用户密码,然后输入两次设置的root密码; 2、切换到root用户sudo -s。输入root密码,进入root终端 可用exit退出。3、登录界面实现root登录在登录界面使用root身份登录,需要编辑/usr/shar原创 2016-02-03 17:40:57 · 2171 阅读 · 0 评论 -
Spark分布式搭建(4)——ubuntu下Hadoop分布式搭建
0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。 Spark伪分布式搭建(1)——ubuntu14.04 设置root自动登入 http://blog.csdn.net/xummgg/article/details/50630583 Spark伪分布式搭建(2)——ubuntu14.04下修改hostname和hosts http://blog.csd原创 2016-02-06 23:20:23 · 2104 阅读 · 0 评论 -
Spark学习笔记8-搭建spark的HA(用zookeeper实现spark的高可用)
0.说明我配置的是一个standby节点。如果电脑多建议配置2个standby。1.下载zookeeper下载网址: zookeeper.apache.org 我下载的是3.4.6版: 用tar命令解压到/usr/local/spark里面: 2.配置zookeeper的bin目录在~/.bashrc里面,配置zookeeper的bin目录: 3.修改zookeeper配置文件在zoo原创 2016-02-28 14:18:33 · 6090 阅读 · 0 评论 -
Spark学习笔记9-Spark Runtime
1.Spark Runtime1.1 从Spark Runtime的角度来讲由五大核心对象:Master、Worker、Executor、Driver、CoarseGrainedExecutorBackend; 1.2 当Driver中的SparkContext初始化的时候会提交程序给Master,Master如果接受该程序在Spark中运行的话,就会为当前的程序分配AppID,同时会分配具体转载 2016-03-07 20:46:21 · 737 阅读 · 0 评论 -
Spark学习笔记10-RDD(Resilient Distributed Datasets)
1.RDD概念RDD(Resilient Distributed Datasets),弹性分布式数据集。是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读原创 2016-03-02 23:21:27 · 2276 阅读 · 0 评论 -
Spark学习笔记8-在eclipse里用Java编写spark程序
0.前言这次的学习内容是,在eclipse里用java编写spark程序。相关jar包用maven来管理。程序实现笔记7一样的内容,做一个README.md文件的单词计数,并打印出来。1.安装eclipse1.1下载eclipse下载地址如下: http://www.eclipse.org/downloads/ 我的是64位的mac,所以下载j2e,64位的。 1.2运行直接运行就行。2.创建原创 2016-02-13 14:09:53 · 9403 阅读 · 0 评论 -
Spark学习笔记7-在eclipse里用scala编写spark程序(单机和集群运行)
1.下载eclipse我下载的是待scala SDK的eclipse,下载地址如下: http://scala-ide.org/download/sdk.html 我的要放在ubuntu下写程序,所以下载linux 64位的。 下载完成后自行解压。2.单机下运行WordCount程序我要测试运行的是单词计数的程序。采用的文件来自/Users/xxm/Documents/soft/spark原创 2016-02-11 21:01:21 · 12483 阅读 · 2 评论 -
Spark学习笔记6-Spark分布式搭建(5)——ubuntu下Spark分布式搭建
0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。 Spark分布式搭建(1)——ubuntu14.04 设置root自动登入 http://blog.csdn.net/xummgg/article/details/50630583 Spark分布式搭建(2)——ubuntu14.04下修改hostname和hosts http://blog.cs原创 2016-02-07 00:20:58 · 4285 阅读 · 2 评论