Spark
好色仙人的徒弟
这个作者很懒,什么都没留下…
展开
-
SparkSql连接数据库报错:py4j.protocol.Py4JJavaError
检查连接数据库的参数是否写错,包括驱动名,账号,密码等等。原创 2021-04-06 19:44:45 · 277 阅读 · 0 评论 -
SparkStreaming面试题
1. SparkStreaming第一次运行不丢失数据kafka参数auto.offset.reset设置为earliest从最初的偏移量开始消费数据。2. SparkStreaming精准一次性消费导致非精准一次性消费的原因:- 偏移量写入,但消费数据时宕机(丢失数据)- 消费数据,但写入偏移量时宕机(重复消费数据)解决:事务。将消费数据和偏移量写入绑定为原子性操作,一起成功或失败。3. SparkStreaming控制每秒消费数据的速度设置spark.streaming.kafk原创 2020-08-27 11:12:21 · 4417 阅读 · 0 评论 -
Spark在创建RDD时设置分区不起作用
今天在练习Spark代码的时候遇到一个奇怪的现象:这是我的原始数据,在idea中创建一个txt文件:这是我的代码:val rdd: RDD[String] = sc.textFile("input/test.txt", 3) // 设置分区数为3rdd.saveAsTextFile("output")结果出现了四个分区:要想解决这个问题,首先应该明确两个点:分区数量到底是多少?每个分区到底存储什么数据?遇事不决查看源码。点开textFile方法的源码:在代码的最后一行,我看到了原创 2020-07-13 12:14:24 · 372 阅读 · 0 评论