- 博客(4)
- 资源 (12)
- 收藏
- 关注
转载 Approximate Algorithms in Apache Spark: HyperLogLog and Quantiles
IntroductionApache Spark is fast, but applications such as preliminary data exploration need to be even faster and are willing to sacrifice some accuracy for a faster result. Since version 1.6, Spark ...
2018-06-29 16:00:45 511
转载 spark streaming updateStateByKey
1、updateStateByKey(updateFun)2、updateFun因为数据量大所以使用HyperLogLogPlusval updateFuc = (values: Seq[String], state: Option[HyperLogLogPlus]) => { if (state.nonEmpty) { val hll = state.get ...
2018-06-29 10:44:37 362
原创 spark 分区类型自动推断
spark 读写分区列的数据类型是自动推断的。目前支持数字数据类型和字符串类型。有时用户可能不希望自动推断分区列的数据类型。对于这些用例,可以使用spark.sql.sources.partitionColumnTypeInference.enabled默认 的自动类型推断来配置true。当禁用类型推断时,字符串类型将用于分区列...
2018-06-25 20:29:20 1330
原创 spark 里from_unixtime等时区问题
spark sql默认会用当前机器的时区,在产线环境下需要设置job的时区,或者直接在conf里配置好。在shell里可加入配置 --conf "park.sql.session.timeZone = UTC"或者在代码里设置spark.conf.set("spark.sql.session.timeZone", "UTC")...
2018-06-06 17:32:46 6592
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人