![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark Streaming
就问你吃不吃药
这个作者很懒,什么都没留下…
展开
-
Spark RDD coalesce()方法和repartition()方法
在Spark的RDD中,RDD是分区的。有时候需要重新设置RDD的分区数量,比如RDD的分区中,RDD分区比较多,但是每个RDD的数量比较小,需要设置一个比较合理的分区。或者需要把RDD的分区数量调大。还有就是通过设置一个RDD的分区来达到设置生成的文件的数量。 有这两种方法是可以重设RDD分区:分别是coalesce()方法和repartition()。 这两个方法有什么区别,看看源码就知道了转载 2017-12-01 10:48:35 · 5417 阅读 · 0 评论 -
Spark将大量分区写入HDFS报错
对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区(170W条数据,因此每个分区数量只有几百条),此时使用parquet命令,将会往一个hdfs文件中同时写入了大量的碎文件。 提示(省略无用信息):WARN TaskSetManager: Lost task: org.apache.spark.SparkException: Task failed while writing r转载 2017-12-01 10:59:32 · 1646 阅读 · 0 评论 -
Spark Streaming——Checkpoint
转载:源文连接 一个Streaming Application往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要checkpoint足够多信息至一个具有容错设计的存储系统才能让Application从失败中恢复。Spark Streaming会checkpoint两种类型的数据。 Metadata(转载 2017-12-04 16:16:24 · 433 阅读 · 0 评论