PySpark 中调用 Jar 包

修行修心

已于 2022-11-07 11:29:58 修改

阅读量2.6k

点赞数 1

分类专栏： Spark Python 文章标签： spark 大数据

于 2020-07-30 11:23:07 首次发布

本文链接：https://blog.csdn.net/yitengtongweishi/article/details/107684942

版权

本文介绍了如何在PySpark环境中调用封装好的Scala算法Jar包。首先启动PySpark，然后加载数据，包括读取顶点和边的DataFrame，接着详细阐述了调用Jar包的过程，特别是包中的特定对象和方法，以及参数设置，如误差和迭代次数。最后，提到了后续的数据处理步骤，并提供了相关参考链接。

摘要由CSDN通过智能技术生成

启动PySpark

pyspark2 --driver-class-path GDGraphX.jar --jars GDGraphX.jar

上述 GDGraphX.jar 为封装好的算法 Jar 包（基于 Spark 实现）
进入如下界面

Python 3.5.6 |Anaconda custom (64-bit)| (default, Aug 26 2018, 21:41:56) 
[GCC 7.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

修行修心

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pyspark 加载jar_PySpark调用自定义jar包

weixin_42317115的博客

02-02

250

标签：在开发PySpark程序时通常会需要用到Java的对象，而PySpark本身也是建立在Java API之上，通过Py4j来创建JavaSparkContext。这里有几点是需要注意的1.Py4j只运行在driver也就是说worker目前来说引入不了第三方的jar包。因为worker结点的PySpark是没有启动Py4j的通信进程的，相应的jar包自然也加载不了。之前没有详细看这部分文档，...

pyspark 加载jar_将Jar添加到独立的pyspark

weixin_35029593的博客

01-17

794

I'm launching a pyspark program:$ export SPARK_HOME=$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip$ pythonAnd the py code:from pyspark import SparkContext, SparkConfSpa...

参与评论您还未登录，请先登录后发表或查看评论

pyspark调用java生成的jar

qq_42693848的博客

02-21

2254

spark加载jar并使用示例

pyspark 加载jar_使用笔记本时，将jar添加到pyspark

weixin_29469949的博客

01-14

209

I'm trying the mongodb hadoop integration with spark but can't figure out how to make the jars accessible to an IPython notebook.Here what I'm trying to do:# set up parameters for reading from MongoDB...

pyspark 加载jar_python-将jar添加到独立pyspark

weixin_29439509的博客

01-17

488

对于不同的jar(mongodb connector for spark，mongo spark connector)，我遇到了类似的问题，但需要注意的是，我通过conda中的pyspark安装了spark(conda install pyspark)。因此，所有针对Spark特定答案的帮助都没有真正的帮助。对于那些使用Conda安装的用户，下面是我拼凑起来的过程：1)找到Pyspack/JAR的...

pyspark 加载jar_python – pyspark：使用spark-submit运送jar依赖项

weixin_42186387的博客

01-17

392

我写了一个pyspark脚本,它读取两个json文件,coGroup它们并将结果发送到elasticsearch集群;当我在本地运行它时,一切都按预期工作(大部分),我为org.elasticsearch.hadoop.mr.EsOutputFormat和org.elasticsearch.hadoop.mr.LinkedMapWritable类下载了elasticsearch-hadoop ja...

如何在PySpark中调用Scala/Java代码

Lestat.Z.的博客

05-04

2396

前言虽然有充分的理由使用Python API开发Spark应用程序，但不可否认的是Scala是Spark的原生语言，有一些功能或第三方库并没有直接提供python版本。那么当我们想要使用一些PySpark不支持的功能，或者只是想在Python应用程序中使用Scala库该怎么办呢？下面的示例展示了如何在PySpark应用程序中调用Scala代码。示例 Pyspark在解释器和JVM之间建立了...

《Hadoop大明白》【3】pyspark调用自定义jar

weixin_34375054的博客

01-08

345

为什么80%的码农都做不了架构师？>>> ...

pyspark 加载jar,创建上下文后，将jar文件添加到pyspark

weixin_35651191的博客

01-14

159

I am using pyspark from a notebook and I do not handle the creation of the SparkSession.I need to load a jar containing some functions I would like to use while processing my rdds. This is something w...

pyspark调用python第三方库,如何添加第三方Java jar以在pyspark中使用

weixin_28716723的博客

12-17

342

I have some third party Database client libraries in Java. I want to access them throughjava_gateway.pyE.g: to make the client class (not a jdbc driver!) available to the python client via the java ga...

pyspark调用python第三方库_如何添加第三方Java jar以在pyspark中使用

weixin_39629093的博客

12-17

305

如何在运行pyspark时加载本地jar包？

测试0901-1

03-14

824

某内网项目需要测试spark和mongodb联调，因为不能连接外网，所以下载好了相应的jar包扔进去了。官网给出的事例代码如下： ./bin/pyspark --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPrefer...

PySpark外部包lightgbm的jar依赖文件

fitzgerald0的博客

02-17

1794

PySpark外部包lightgbm的jar依赖文件

pyspark 加载jar_pyspark之输入输出

weixin_42591413的博客

01-14

119

pyspark读写dataframe1. 连接spark2. 创建dataframe2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取2.9.从hdfs读取3. 保存数据3.1. 写到csv3.2. 保存到parquet3.3. 写...

Spark任务运行时依赖jar

Curry_lee_3的博客

08-29

465

可以通过 --jars 添加依赖到executor的运行时环境中还可以通过 --driver-class-path 添加依赖到driver的运行时环境中当然，最省事的办法：把需要的依赖都打进自己的程序jar中命令模板示例： bin/spark-submit \ --class cn.doitedu.data.pre.ApplogPreprocess \ --master yarn \ --deploy-mode client \ --num-executors 3 \ --executor-mem

pyspark 加载jar_创建上下文后，将jar文件添加到pyspark

weixin_35537635的博客

01-14

135

pyspark 加载jar_如何从pyspark中的本地jar导入包装？

weixin_35406877的博客

01-14

296

由于代理问题，我将jar下载到了我的本地 .谁能告诉我引用本地jar的正确用法：这是我使用的代码：pyspark --jars /home/rx52019/data/spark-csv_2.10-1.4.0.jar它将按照预期将我带到pyspark shell，但是，当我运行时：df = sqlContext.read.format('com.databricks.spark.csv').opti...

PySpark 中 调用 Jar 包

目录

启动PySpark

PySpark 中调用 Jar 包