spark
AI_skynet
5年java 3年hadoop。 目前就职于一家舆情服务公司,主要从事hadoop技术体系,spark技术体系的相关应用工作。
展开
-
简单总结spark中executer的个数设置
1.standlone模式下公式:execuoterNum = spark.cores.max/spark.executor.cores相关参数在启动具体应用时指定 例如启动基于standlone模式的spark sql的thrift 接口时 设置 这两个参数--total-executor-cores--executor-cores 它们共同决定了当前应用 启动executor的个数$原创 2016-12-02 16:35:08 · 11279 阅读 · 0 评论 -
Spark 动态上架下架worker
关闭 $SPARK_HOME/sbin/spark-daemon.sh --config conf/ stop org.apache.spark.deploy.worker.Worker 1 --webui-port 8081 spark://llc1:7077开启 $SPARK_HOME/sbin/spark-daemon.sh --config conf/ start org.apache.sp原创 2016-12-02 17:01:35 · 445 阅读 · 0 评论 -
spark on yarn 报 org.apache.hadoop.util.Shell$ExitCodeException: 问题
今天把新数据中心基于 spark 1.6 jdk 1.7 hadoop2.7的scala程序 拿到老数据中心jdk1.6/jdk.17 hadoop 2.2 环境 进行 spark on yarn测试 使用spark-shell 或者 spark-submit 提交时报如下错误org.apache.hadoop.util.Shell$ExitCodeException: at原创 2016-12-12 19:24:54 · 3548 阅读 · 0 评论 -
spark standalone模式 环境搭建
官网下载编译好的tar包 解压缩包 tar -zxvf sparkxxxx.gz cd conf cp spark-env.sh.template spark-env.shspark1节点(主节点) vi spark-env.shSPARK_MASTER_IP=spark1 //主节点IP export JAVA_HOME=/usr/local/jdkvi slaves spar原创 2016-11-23 10:59:58 · 533 阅读 · 0 评论 -
分析spark on yarn cluster 与 client 模式的区别
Spark on yarn有分为两种模式yarn-cluster和yarn-client Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave。Maste转载 2016-11-23 11:12:47 · 5139 阅读 · 0 评论 -
spark解决 org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
使用spark sql 的 thrift jdbc接口查询数据时报这个错误Exception in thread "main" java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3107 in stage 308.0 failed 4 times, most r原创 2017-01-17 19:52:12 · 13124 阅读 · 2 评论