spark
文章平均质量分 77
Kungs8
这个作者很懒,什么都没留下…
展开
-
ScalaLearning从入门到神坑
Spark的设计目的之一就是使程序编写更快更容易,这也是Spark选择Scala的原因所在。总体而言,Scala具有以下突出的优点:- Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统;- Scala语法简洁,能提供优雅的API;- Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中。原创 2022-09-19 14:36:02 · 370 阅读 · 0 评论 -
pyspark写数据到 hbase2.* 的神坑解析
pyspark写数据到 hbase2.* 的神坑解析1. 问题阐述找不到方法: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Putjava.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Put; at org.apach原创 2021-04-07 18:04:28 · 809 阅读 · 3 评论 -
win10的jupyter notebook使用pyspark2.3.2解决的报错问题
1、问题出现:py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.关于windows10下使用jupyter notebook时,对于pyspark版本只能取其spark2.3.2版本,具体简单demo如下:...原创 2019-02-11 15:34:04 · 1162 阅读 · 0 评论 -
python将pandas数据转为spark的dataframe格式保存到hive中
使用python在调用集群跑数据之后,数据以pandas计算,输出的结果保存到hive数据库中,最老套的办法。(注意:这里的spark版本是1.6)步骤:from pyspark.sql import HiveContextfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import functionsconf =...原创 2019-06-04 17:31:21 · 5861 阅读 · 1 评论