spark
重生之我在异世界打工
ok
展开
-
在zeppelin中pyspark使用java的sparkudf
zeppelin pyspark java sparkudf原创 2022-06-16 15:44:34 · 305 阅读 · 2 评论 -
[pyspark]输出多份csv文件
参考文章https://zhuanlan.zhihu.com/p/363821317代码df.repartition(5).write.csv(path,overwrite)原创 2022-04-14 09:46:35 · 335 阅读 · 0 评论 -
记一次spark两个大表join数据倾斜调优
a表7亿条b表1亿条a表aid c1 c2 c3b表bid bvalue需求:分别用a表的c1 c2 c3与b表的bid关联(left join),获取bvalue 来扩充a表1.直接写三个left join 发现数据倾斜2.c1 c2 c3 只关联一次如下,进行查看,发现不会出现数据倾斜 df1=spark.sql("select * from b") df2=spark.sql("select * from a") df3=df2.join(df1,df2.c1=df1.bi原创 2022-03-18 15:06:33 · 2817 阅读 · 1 评论 -
spark读csv文件转成map
代码scala> val a=spark.read.csv("/user/flink/qinghua/myconf.txt").rdd.map(x=> x.getString(0)->x.getString(1)).collectAsMap()a: scala.collection.Map[String,String] = Map(date -> 20220103, name -> haha) scala> a("date")res13: String =原创 2022-03-10 16:13:42 · 2094 阅读 · 0 评论 -
java写好的spark udf 怎么用spark shell 测试
启动的时候spark2-shell --jars hdfs:///xxx/a.jar进入shellimport org.apache.spark.sql.types.StringType;import com.test.udf.MyUdf;spark.sqlContext.udf.register("addressUdf", new MyUdf(),StringType);val a=spark.sql("select addressUdf('xxxx')");a.show();.原创 2022-03-07 18:53:37 · 1917 阅读 · 0 评论 -
【pandas和spark】dataframe对比
原文连接:http://www.lining0806.com/spark%E4%B8%8Epandas%E4%B8%ADdataframe%E5%AF%B9%E6%AF%94/原创 2020-12-11 14:25:22 · 167 阅读 · 0 评论 -
pyspark sql用法
转载:https://www.jianshu.com/p/177cbcb1cb6f转载 2020-09-09 16:08:58 · 711 阅读 · 0 评论