spark初尝试_codestorm_新浪博客

codestorm04

于 2016-01-29 17:05:09 发布

阅读量98

点赞数

分类专栏： Softwares 文章标签：大数据 spark hadoop java apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43996899/article/details/91986389

版权

Softwares 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

最近接触了下spark，不说计算性能问题，记录下使用

1. spark依赖于Hadoop，其文件主要可来自于hadoop提供的hdfs，然而apache官方提供预编译好的spark版本集成了hadoop，下载解压直接启动

2. /bin/pyspark /bin/spark-shell(for scala) /bin/spark-submit 三个主要的工具，其中介绍pyspark最多，但始终没能运行起来

|--- hostname 不对，改了计算机名没改hosts里的设置

|--- 改了后master url不对，找不到

|--- 加了--master 显示connect failed.....

submit成功了

|--- ./spark-submit --master spark://localhost:7077 app.py --class lyzApp --num-executors 2

但是设置core数目，appname都没用

3. 不知道pyspark之前是否要先启动master worker，启动后可在localhost:8080 /8081分别监视

future：可以尝试在cloud9上配置集群，提交计算，可能由于网速限制效果不好

## Spark Application - execute with spark-submit

## Imports

from pyspark import SparkConf, SparkContext

## Module Constants

APP_NAME = "My Spark Application"

## Closure Functions

## Main functionality

def main(sc):

pass

if __name__ == "__main__":

# Configure Spark

conf = SparkConf().setAppName(APP_NAME)

conf = conf.setMaster("local[*]")

sc = SparkContext(conf=conf)

for i in range(1,100000000):

for j in range(1,10000000):

# print '----------------------------------------------------------------------'

a = 12993.232+393/393.3-238

# Execute Main functionality

main(sc)

#./spark-submit --master local[*] test.py --class lyzApp --num-executors 2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark初尝试_codestorm_新浪博客

最近接触了下spark，不说计算性能问题，记录下使用1. spark依赖于Hadoop，其文件主要可来自于hadoop提供的hdfs，然而apache官方提供预编译好的spark版本集成了hadoop，下载解压直接启动2. /bin/pyspark /bin/spark-shell(for scala) /bin/spark-submit 三个主要的工具，其中介绍pyspar...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。