Spark
ddttoop
数据仓库、Hadoop生态、数据分析、BI
展开
-
WSL2-Ubuntu18.04 Linux环境下部署大数据开发测试环境
目录hadoop3.2.1+Hive3.1.2+HBase2.2.4+Phoenix5.0.0+Zookeeper3.6.1+Kylin3.0.2+Kafka2.5.0+Scala2.12+Spark3.0.0+Flink1.10.1+Tez0.10.1 ...Windows子系统WSL 2 部署与应用系统设置初始化部分Mysql 安装部署配置部分WSL 下初始化服务安装部署JavaHadoop 3.2.1Hive 3.1.2HBase 2.2.4Phoenix 5.0.0Zookeeper 3.6.1Ky原创 2020-06-18 21:05:05 · 10438 阅读 · 1 评论 -
Spark2 Submit(yarn) Script
Spark Submit[root@bdpcm01 bin]# cat extract-all.sh #!/usr/bin/env bashexport HADOOP_USER_NAME=impala#service nameservice_name=$1; shiftbin=$(dirname $0)conf=${bin}/../confversion=`cat ${co...原创 2020-03-26 17:19:18 · 220 阅读 · 0 评论 -
解决YARN Container分配过于集中的问题
问题引入明明自己集群资源充足,YARN还是会将Spark的executor集中分派到个别的NodeManager?解决方案将YARN配置中的yarn.scheduler.fair.assignmultiple参数设为false;或者手动设定yarn.scheduler.fair.max.assign参数的值为一个较小的正数(如3或4)。方案说明如果assignMultiple(对应...原创 2020-04-08 11:25:50 · 986 阅读 · 0 评论 -
Spark2 QuickStart上手操作 (pyspark2)
[root@bdpcm01 spark2]# hdfs dfs -mkdir /tmp[root@bdpcm01 spark2]# hdfs dfs -put /opt/cloudera/parcels/SPARK2/lib/spark2/README.md /tmp>>> sc‘’’使用textFile 创建一个字符串的RDD‘’’lines = sc.te...原创 2020-03-26 17:13:40 · 515 阅读 · 0 评论