Spark
文章平均质量分 66
Spark相关
AokCap
这个作者很懒,什么都没留下…
展开
-
spark遇到的坑(一)scala调用json4s报错[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lor
没有引入正确的依赖版本经测试 spark2.4 引入 3.6.7 的版本不会报错<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3.6.7</version></dependency>参考其他回答:https://blog.csdn.n原创 2021-10-22 14:03:51 · 851 阅读 · 0 评论 -
SparkSession、SparkContext、SQLContext和HiveContext之间的区别
转载:https://www.cnblogs.com/lillcol/p/11233456.htmlSparkContext 是什么?驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN 或Mesos)进行协调。使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext。使用SparkContext,我们可以为Spark作业设置配置参数。如果您在spark-shell中,那么SparkContex转载 2020-10-04 12:12:47 · 1107 阅读 · 0 评论 -
Spark SQL的selectExpr用法
转载:http://ddrv.cn/a/248617两者等价,可看作把sql语句直接拿来使用df1.selectExpr("*","(DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME) as withincountry").show(5)spark.sql("select * ,(DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME) as withincountry from dfTable limit 5")...原创 2020-10-03 16:33:24 · 2824 阅读 · 0 评论 -
解决scala.collection.mutable.WrappedArray$ofRef cannot be cast to [D的问题(Spark)
Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [D at cn.doitedu.ml.demo.MyKnnDemo$$anonfun$1.apply(MyKnnDemo.scala:53) ... 21 more原因:类型转换问题解决:原创 2020-09-18 08:39:19 · 4841 阅读 · 0 评论 -
Spark中的笛卡尔积crossjoin
a1,a,1002,b,803,c,70babc,200,12bbb,100,23ccc,300,35a.crossjoin(b)的结果是1,a,100, abc,200,122,b,80 , abc,200,123,c,70 , abc,200,121,a,100, bbb,100,232,b,80 , bbb,100,233,c,70 , bbb,100,231,a,100, ccc,300,352,b,80 , ccc,300,353,c,70 , ccc,300原创 2020-09-17 22:25:51 · 1789 阅读 · 0 评论 -
Spark运用布隆过滤器(示例代码)
spark默认使用jdk的序列化器(ObjectOutputStream,而这个类对被序列化的对象要求实现Serializable标记接口有时需要广播的对象不是自定义类,无法实现Serializable接口,也就是无法使用jdk的序列化,此时就需要使用spark中的第三方序列化器:kryo序列化器import org.apache.hadoop.util.bloom.{BloomFilter, Key}import org.apache.spark.SparkConfimport org.apa.原创 2020-09-05 22:44:53 · 1013 阅读 · 0 评论 -
SparkStreaming聚合类操作写入Redis数据库
相较于写入MySQL中,原创 2020-08-29 17:43:28 · 776 阅读 · 0 评论 -
SaprkStreaming整合kafka(获取偏移量和异步提交偏移量)
package cn._51doit.spark.day13import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream, Rece原创 2020-08-28 21:46:46 · 415 阅读 · 0 评论 -
Spark SQL自定义函数案例(拼接字符串)
实现一个功能,拼接字符串,传入的第一个参数是分隔符my_concat_ws(",",f1,f2,f3)结果f1,f2,f3原创 2020-08-21 21:13:00 · 2816 阅读 · 0 评论 -
Spark案例之流量统计(三种方法)
数据集1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,2020-02-18 14:18:24,2020-原创 2020-08-13 11:13:15 · 1721 阅读 · 0 评论 -
Spark案例 统计出连续三天登录的用户(两种方法)
使用Spark的RDD统计连续登陆的三天及以上的用户这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打滴滴、连续逾期。测试数据:用户ID、登入日期guid01,2018-02-28guid01,2018-03-01guid01,2018-03-02guid01,2018-03-04guid01,2018-03-05guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-02gui原创 2020-08-10 23:20:02 · 1481 阅读 · 0 评论