zeppelin-0.82 与spark-2.1.0.cloudera2使用集成

spark Interpreter简介

http://zeppelin.apache.org/docs/latest/interpreter/spark.html

建议大家看官网地址。

NameClassDescription
%sparkSparkInterpreterCreates a SparkContext and provides a Scala environment
%spark.pysparkPySparkInterpreterProvides a Python environment
%spark.rSparkRInterpreterProvides an R environment with SparkR support
%spark.sqlSparkSQLInterpreterProvides a SQL environment
%spark.depDepInterpreterDependency loader

zeppelin自动帮你内置创建好了SparkContext, SQLContext,SparkSession and ZeppelinContext ,他们变量名是 scsqlContext,spark and z 。  

Note that Scala/Python/R environment shares the same SparkContext, SQLContext and ZeppelinContext instance.

spark interpreter配置

配置可以在多个地方。比如conf/zeppelin-env.sh文件,或者在web界面上的interpreter中新增属性。我的环境启用了hive+sentry的简单认证,所以会有一个身份的配置。

export MASTER=yarn-client
export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.executor.memory=1g -Dspark.cores.max=4 -Dspark.executorEnv.PYTHONHASHSEED=0 -Dspark.sql.crossJoin.enabled=true"
export SPARK_HOME=/opt/cloudera/parcels/SPARK2/lib/spark2
export SPARK_SUBMIT_OPTIONS="--driver-memory 512M --executor-memory 1G".
export SPARK_APP_NAME=zeppelin
export HADOOP_CONF_DIR=/bigdata/installer/zeppelin-0.8.2-bin-all/interpreter/spark/conf

这个目录下/bigdata/installer/zeppelin-0.8.2-bin-all/interpreter/spark/conf的配置文件是从/etc/hadoop/conf 拷贝过来的,外加一个/etc/hive/conf/hive-site.xml

web界面上spark interpreter主要配置如下:

HADOOP_USER_NAME	hive
SPARK_HOME	/bigdata/cloudera/parcels/SPARK2/lib/spark2
master	yarn-client
spark.app.name	zeppelin
spark.cores.max	4
spark.executor.memory	1g
zeppelin.spark.useHiveContext	true

jar包依赖如下:

/opt/cloudera/parcels/SPARK2/lib/spark2/jars/jackson-databind-2.6.5.jar

/opt/cloudera/parcels/SPARK2/lib/spark2/jars/netty-all-4.0.42.Final.jar

使用demo

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值