spark
大大盒子
这个作者很懒,什么都没留下…
展开
-
spark dataframe打印宽度限制
现象result_df.show()解决办法result_df.show(10,false)结果全部打印不会阶截断原创 2020-12-14 15:31:14 · 1748 阅读 · 0 评论 -
maven打包中的一些错误
maven打包中的一些错误原创 2020-09-11 17:15:58 · 172 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerException
解决Exception in thread “main” java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerException问题描述spark读取hdfs文件时候报错解决方法 <dependency> <groupId>org.codehaus.janino</groupId> <artifactId>janino</artifactI原创 2020-08-29 10:31:41 · 3641 阅读 · 3 评论 -
Spark创建Dataframe的方法
通过RDD创建dataframe的方式1: 把rdd[T]变成 RDD[case class类型]就可以直接toDF通过RDD[tuple]创建dataframe通过RDD[JavaBean]创建dataframe通过RDD[scala bean] 创建dataframe通过 RDD[Row] 来创建dataframe1.通过RDD创建dataframeimport org.apa...原创 2020-01-02 19:38:15 · 531 阅读 · 0 评论 -
DF保存到mysql中或者保存成.csv .json parquet文件
DataFrame保存到mysqlimport java.util.Propertiesimport cn.doit.sparksql.day01.utils.SparkUtilsimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}/** * @description:DataFrame保存到mysql **...原创 2020-01-02 19:10:11 · 645 阅读 · 0 评论 -
spark用DSL形式和sql形式实现连续三天登录以上用户统计
- 这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打滴滴、连续逾期。- 测试数据:用户ID、登入日期uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-02guid01,2018-03-04guid01,2018-03-05guid01,2018-03-06guid01,2018-03-07...原创 2020-01-02 17:12:40 · 1024 阅读 · 1 评论