spark分布式调用python算法包注意事项整理

最新推荐文章于 2024-08-01 10:54:58 发布

导演我死哪儿

最新推荐文章于 2024-08-01 10:54:58 发布

阅读量1.6k

点赞数

分类专栏： python 大数据相关文章标签： python/spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yrsg666/article/details/99543439

版权

大数据相关同时被 2 个专栏收录

91 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

项目背景：

算法人员在windows上编写算法并运行，算法包含了从原始数据的解析到最终执行结果的存储或者展示等全套逻辑，随着数据量越来越多已经无法单独写脚本进行数据处理，急需一个数据管理功能，同时单机运行算法较慢，希望能分布式运行调度提高效率。同时数据展示、结果展示等功能

整合与调研中注意事宜整理

1、区分大小写，windows环境不区分大小写，但linux运行环境下区分大小写
2、csv文件解析时候需要如有中文，请指明encoding='gbk'，进行解析

3、当存在多个.py文件互相调用的时候需要将多个py文件打成zip包，在外暴露主函数的py文件即可，其他的包import进入此py文件即可，待测试

https://www.cnblogs.com/SteveWesley/articles/10309757.html
3、参数传递，命令使用--files传入，python脚本中直接调用文件的名字即可，如下：

导演我死哪儿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。