spark初尝试_codestorm_新浪博客

最近接触了下spark,不说计算性能问题,记录下使用
1. spark依赖于Hadoop,其文件主要可来自于hadoop提供的hdfs,然而apache官方提供预编译好的spark版本集成了hadoop,下载解压直接启动
2. /bin/pyspark      /bin/spark-shell(for scala)   /bin/spark-submit 三个主要的工具,其中介绍pyspark最多,但始终没能运行起来
|--- hostname 不对,改了计算机名 没改hosts里的设置
|--- 改了后master url不对,找不到
|--- 加了--master 显示connect failed.....

submit成功了
|--- ./spark-submit --master spark://localhost:7077 app.py --class lyzApp --num-executors 2
但是设置core数目,appname都没用
3. 不知道pyspark之前是否要先启动master worker,启动后可在localhost:8080 /8081分别监视


future:可以尝试在cloud9上配置集群,提交计算,可能由于网速限制效果不好

## Spark Application - execute with spark-submit
 
## Imports
from pyspark import SparkConf, SparkContext
## Module Constants
APP_NAME = "My Spark Application"
 
## Closure Functions
 
## Main functionality
 
def main(sc):
    pass
 
if __name__ == "__main__":
    
# Configure Spark
    conf = SparkConf().setAppName(APP_NAME)
    conf = conf.setMaster("local[*]")
    sc   = SparkContext(conf=conf)
    for i in range(1,100000000):
    for j  in range(1,10000000):
 #   print '----------------------------------------------------------------------'
  a = 12993.232+393/393.3-238

 
    
# Execute Main functionality
    main(sc)


#./spark-submit --master local[*] test.py --class lyzApp --num-executors 2
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值