pyspark jieba 集群模型 对文本进行切词

13 篇文章 0 订阅
12 篇文章 0 订阅
当需要在Spark集群上运行涉及jieba分词的任务时,不能直接在每个节点上安装。解决办法是将conda环境打包,并通过`spark.yarn.dist.archives`配置在提交任务时分发到executor。这样,每个executor会使用指定的python环境执行任务。
摘要由CSDN通过智能技术生成

如果是单个机器或者是local模式,简单的方式就是在节点上pip install jieba就完事了。但是在集群上肯定不能安装啊。怎么办呢??

spark可以使用自己的镜像。比如本地有一个conda的envs的环境。可以将这个打包,在提交任务的时候可以分发到各个executor上。

spark-submit \

--name seg_tags \

--queue root.niubi_queue \

--deploy-mode cluster \

--driver-memory 10g \

--executor-memory 10g \

--conf spark.dynamicAllocation.maxExecutors=300\

--conf spark.executor.cores=3\

--conf spark.default.parallelism=2000\

--conf spark.port.maxRetries=200\

--conf spark.yarn.dist.archives=hdfs://dfs4/user/niubi/niubi.tar.gz#mypython \

--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./mypython/myEnvs/bin/python \

./seg_tags.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值