前言
本文旨在记录初学Spark时,根据官网快速入门中的一段Java代码,在Maven上建立应用程序并实现执行。
首先推荐一个很好的入门文档库,就是CSDN的Spark知识库,里面有很多spark的从入门到精通的形形色色的资料,
1.开发软件恭喜你,拿到spark驾考名额了,可以开始参加驾校培训了~
http://lib.csdn.net/base/spark
大概理解下:spark主要分为 1.核心 2.实时streaming 3.对sql支持sparksql 4.机器学习mllib 还有别的暂时不考虑
本文只引入sparkcore核心部门案例入门,其他的同学们自己去探索吧~
环境准备: window电脑一台是不可少的,不然怎么玩
其他需要安装的软件:
版本可以自己选择 ,以下是我的选择
4》eclipse
注意安装的软件的位数和操作系统的位数。
1.JDK安装
具体安装步骤过于简单 略~
2.MAVEN安装
下载解压,具体安装步骤过于简单 略~
3.spark 安装
下载解压,具体安装步骤过于简单 略~
4.eclipse 安装
那就下载有maven的eclipse版本即可,推荐luna的eclipse 自带maven的
下载winutil 放到spark 的bin目录下
配置环境变量
需要配置 JAVA_HOME HADOOP_HOME(配置为spark_Home,为winutil使用) SPARK_HOME MAVEN_HOME 并在path中加入以上三个bin
cmd中分别测试 mvn -v java -version spark-shell 安装是否成功
工程构建
建立一个统计 文件中出现某个字符的行数。
建立Maven工程
修改pom.xml为:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.
xsi:schemaLocation="http://maven.