学习spark第一天

最新推荐文章于 2024-07-29 09:42:20 发布

wuran_beijing

最新推荐文章于 2024-07-29 09:42:20 发布

阅读量378

点赞数

文章标签： scala hadoop spark

本文链接：https://blog.csdn.net/wuran_beijing/article/details/50466065

版权

学习spark第一天

本人在做本科毕业设计时候接触过Hadoop的MapReduce框架，当时是在Hadoop上安装了Mahout插件，来跑聚类算法，处理了一些业务数据，有幸通过实验室项目了解到还有比Hadoop对数据的存取处理效率更快的基于农村计算的spark框架，最近闲下来的时候研究了一下这个东西，打算把所学的东西记录下来，以备不时之需：

Spark分布式执行所需的组件
scala程序打包发送给spark集群运行两种方式
第一个spark程序

Spark分布式执行所需的组件

可以渲染序列图：

scala程序打包发送给spark集群运行两种方式

spark程序打包发布

第一个spark程序

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object test {
  def main(args : Array[String]){
    println("hello spark!")
    val conf = new SparkConf().setMaster("spark://127.0.0.1:7077").setAppName("ConSparkAPP")
    val sc = new SparkContext(conf)
    sc.addJar("/home/hadoop/Desktop/test.jar");
    var lines = sc.textFile("/home/hadoop/Desktop/error")
    var nginxLine = lines.filter(line => line.contains("nginx"))
    println("nginx occure first at:  "+nginxLine.first())
    sc.stop();
  }
}

wuran_beijing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习spark第一天

学习spark第一天本人在做本科毕业设计时候接触过Hadoop的MapReduce框架，当时是在Hadoop上安装了Mahout插件，来跑聚类算法，处理了一些业务数据，有幸通过实验室项目了解到还有比Hadoop对数据的存取处理效率更快的基于农村计算的spark框架，最近闲下来的时候研究了一下这个东西，打算把所学的东西记录下来，以备不时之需：Spark分布式执行所需的组件scala程序打包发送给s
复制链接

扫一扫