Python大数据
文章平均质量分 83
Python大数据
对许
这个作者很懒,什么都没留下…
展开
-
PySpark开发环境搭建常见问题及解决
版本与Hadoop集群版本不匹配。,并配置了环境变量,但未将。目录中(重启电脑才能生效)各版本下载链接见文末附录。,配置环境变量,并将。原创 2023-12-05 16:28:47 · 1140 阅读 · 0 评论 -
Python大数据之PySpark
在Driver端,Python通过Py4j来调用Java方法,将用户使用Python写的程序映射到JVM中,比如,用户在PySpark中实例化一个Python的SparkContext对象,最终会在JVM中实例化Scala的SparkContext对象。为了不影响现有Spark的运行架构,Spark在外围包装了一层Python的API,借助Py4j实现Python和Java的交互,即通过Py4j将PySpark代码“解析”到JVM中去运行。根据Spark官网,Spark支持Python语言编程。原创 2023-10-21 22:32:44 · 1054 阅读 · 0 评论 -
Python操作Hive数据仓库
sasl模块是Python中用于实现SASL(Simple Authentication and Security Layer)认证的第三方库,提供了对各种SASL机制的支持,例如与Kafka、Hadoop等进行安全通信。Thrift是一个轻量级、跨语言的RPC框架,主要用于服务间的RPC通信。由于Hadoop集群节点间使用RPC通信,所以需要配置Thrift依赖环境。Python连接Hive需要使用Impala查询引擎。查找需要的whl文件,点击下载对应版本。开启Hive的JDBC服务。原创 2023-10-09 21:48:51 · 1191 阅读 · 0 评论