CountOnce(spark)

最新推荐文章于 2024-10-13 16:12:28 发布

心随梦动

最新推荐文章于 2024-10-13 16:12:28 发布

阅读量502

点赞数

分类专栏： bigdata_spark 文章标签：异或运算 spark countOnce

本文链接：https://blog.csdn.net/wfyhewfy/article/details/50889015

版权

bigdata_spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

假设HDFS都每份数据一共存储两份，其中以一块数据有错，那么收集所有块数据的ID，则如下：

5 5 6 6 7 7 8 8 9

在大数据下如何找到9这块数据是错误的。

可以利用异或的数据，求出答案9

异或性质：

1、交换律 a^b=b^a

2、结合律（即(a^b)^c == a^(b^c)）

3、对于任何数x，都有x^x=0，x^0=x

4、自反性 A XOR B XOR B = A xor 0 = A

假如spark的任务分区有三个：

分区1：

5 ^ 6 ^ 7

1 0 1 5

1 1 0 6

1 1 1 7

1 0 0 4

分区2：

5 ^ 6 ^ 8

1 0 1 5

1 1 0 6

1 0 0 0 8

1 0 1 1 11

分区3：

7 ^ 8 ^ 9

1 1 1 5

1 0 0 0 6

1 0 0 1 7

0 1 1 0 6

计算结果：

将4，11，6再次进行异或运算

4 ^ 11 ^ 6

1 0 0 4

1 0 1 1 11

1 1 0 6

1 0 0 1 9

模拟spark计算，结果能得到正确的答案9，这是由于满足结合律和交换律。

spark程序（1）：

package com.dt.spark.cores.scala
import org.apache.spark.{SparkContext, SparkConf}

object CountOnce {
  def main (args: Array[String]) {
    val conf = new SparkConf().setAppName("CountOnce").setMaster("local")
    val sc = new SparkContext(conf)
    val data = sc.textFile("E:\\workspases\\data\\CountOnce.txt")
    val word = data.map(line => line.toInt)
    val result =word.reduce(_^_)
     println(result)
  }
}

spark程序（2）：