Spark GraphX 中的 pregel函数

最新推荐文章于 2024-05-01 18:47:11 发布

子清.

最新推荐文章于 2024-05-01 18:47:11 发布

阅读量250

点赞数 1

分类专栏： # GraphX 文章标签： spark

本文链接：https://blog.csdn.net/zmzdmx/article/details/110200897

版权

GraphX 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

pregel函数源码与各个参数介绍

  def pregel[A: ClassTag](
      initialMsg: A,
      maxIterations: Int = Int.MaxValue,
      activeDirection: EdgeDirection = EdgeDirection.Either)(
      vprog: (VertexId, VD, A) => VD,
      sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)],
      mergeMsg: (A, A) => A)
    : Graph[VD, ED] = {
    Pregel(graph, initialMsg, maxIterations, activeDirection)(vprog, sendMsg, mergeMsg)
  }

参数	说明
initialMsg	图初始化的时候，开始模型计算的时候，所有节点都会先收到一个消息
maxIterations	最大迭代次数
activeDirection	规定了发送消息的方向
vprog	节点调用该消息将聚合后的数据和本节点进行属性的合并
sendMsg	激活态的节点调用该方法发送消息
mergeMsg	如果一个节点接收到多条消息，先用mergeMsg 来将多条消息聚合成为一条消息，如果节点只收到一条消息，则不调用该函数

案例：求顶点5 到其他各顶点的最短距离

在理解案例之前，首先要清楚关于顶点的两点知识：

顶点的状态有两种：
(1)、钝化态【类似于休眠，不做任何事】
(2)、激活态【干活】
顶点能够处于激活态需要有条件：
(1)、成功收到消息或者
(2)、成功发送了任何一条消息

案例源码如下：

package graphx
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.graphx._
object PregelDemo {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[3]").setAppName("demo")
    val sc = new SparkContext(conf)

    val vertexRDD= sc.makeRDD(Array(
      (1L, ("Alice", 28)),
      (2L, ("Bob", 27)),
      (3L, ("Charlie", 65)),
      (4L, ("David", 42)),
      (5L, ("Ed", 55)),
      (6L, ("Fran", 50))
    ))

    val edgeRDD = sc.makeRDD(Array(
      Edge(2L, 1L, 7),
      Edge(2L, 4L, 2),
      Edge(3L, 2L, 4),
      Edge(3L, 6L, 3),
      Edge(4L, 1L, 1),
      Edge(2L, 5L, 2),
      Edge(5L, 3L, 8),
      Edge(5L, 6L, 3)
    ))

    val graph = Graph(vertexRDD,edgeRDD)

    /* ************************** 使用pregle算法计算 ，顶点5 到 各个顶点的最短距离 ************************** */

    //被计算的图中，起始顶点id
    val srcVertexId=5L
    val initialGraph: Graph[Double, PartitionID] = graph.mapVertices { case (vid, (name, age)) => if (vid == srcVertexId) 0.0 else Double.PositiveInfinity }

    //调用pregel
    val pregelGraph: Graph[Double, PartitionID] = initialGraph.pregel(
      Double.PositiveInfinity,
      Int.MaxValue,
      EdgeDirection.Out
    )(
      (vid: VertexId, vd: Double, distMsg: Double) => {
        val minDist = math.min(vd, distMsg)
        println(s"顶点${vid},属性${vd},收到信息${distMsg}，合并后的属性${minDist}")
        minDist
      },
      (edgeTriplet: EdgeTriplet[Double, PartitionID]) => {
        if (edgeTriplet.srcAttr + edgeTriplet.attr < edgeTriplet.dstAttr) {
          println(s"顶点${edgeTriplet.srcId} 给 顶点${edgeTriplet.dstId} 发送信息 ${edgeTriplet.srcAttr + edgeTriplet.attr}")
          Iterator[(VertexId, Double)]((edgeTriplet.dstId, edgeTriplet.srcAttr + edgeTriplet.attr))
        } else {
          Iterator.empty
        }
      },
      (msg1: Double, msg2: Double) => math.min(msg1, msg2)
    )
    pregelGraph.vertices.collect.foreach(println)
  }
}

//------------------------------------------ 各个顶点接受初始消息initialMsg ------------------------------------------
顶点4,属性Infinity,收到信息Infinity，合并后的属性Infinity
顶点5,属性0.0,收到信息Infinity，合并后的属性0.0
顶点6,属性Infinity,收到信息Infinity，合并后的属性Infinity
顶点2,属性Infinity,收到信息Infinity，合并后的属性Infinity
顶点1,属性Infinity,收到信息Infinity，合并后的属性Infinity
顶点3,属性Infinity,收到信息Infinity，合并后的属性Infinity
//------------------------------------------ 第一次迭代 ------------------------------------------
顶点5 给 顶点3 发送信息 8.0
顶点5 给 顶点6 发送信息 3.0
顶点6,属性Infinity,收到信息3.0，合并后的属性3.0
顶点3,属性Infinity,收到信息8.0，合并后的属性8.0
//------------------------------------------ 第二次迭代 ------------------------------------------
顶点3 给 顶点2 发送信息 12.0
顶点2,属性Infinity,收到信息12.0，合并后的属性12.0
//------------------------------------------ 第三次迭代 ------------------------------------------
顶点2 给 顶点1 发送信息 19.0
顶点2 给 顶点4 发送信息 14.0
顶点4,属性Infinity,收到信息14.0，合并后的属性14.0
顶点1,属性Infinity,收到信息19.0，合并后的属性19.0
//------------------------------------------ 第四次迭代 ------------------------------------------
顶点4 给 顶点1 发送信息 15.0
顶点1,属性19.0,收到信息15.0，合并后的属性15.0
(6,3.0)
(3,8.0)
(4,14.0)
(1,15.0)
(5,0.0)
(2,12.0)

pregel原理分析

调用pregel方法之前，先把图的各个顶点的属性初始化为如下图所示：顶点5到自己的距离为0，所以设为0，其他顶点都设为正无穷大Double.PositiveInfinity。见代码44行

当调用pregel方法开始：
首先，所有顶点都将接收到一条初始消息initialMsg ，使所有顶点都处于激活态（红色标识的节点）。

第一次迭代开始：

所有顶点以EdgeDirection.Out的边方向调用sendMsg方法发送消息给目标顶点，如果源顶点的属性+边的属性<目标顶点的属性，则发送消息。否则不发送。
发送成功的只有两条边：

5—>3(0+8<Double.Infinity , 成功),
5—>6(0+3<Double.Infinity , 成功)
3—>2(Double.Infinity+4>Double.Infinity , 失败)
3—>6(Double.Infinity+3>Double.Infinity , 失败)
2—>1(Double.Infinity+7>Double.Infinity , 失败)
2—>4(Double.Infinity+2>Double.Infinity , 失败)
2—>5(Double.Infinity+2>Double.Infinity , 失败)
4—>1(Double.Infinity+1>Double.Infinity , 失败)

sendMsg方法执行完成之后，根据顶点处于激活态的条件，顶点5 成功地分别给顶点3 和顶点6 发送了消息，顶点3 和顶点6 也成功地接受到了消息。所以此时只有5，3，6 三个顶点处于激活态，其他顶点全部钝化。然后收到消息的顶点3和顶点6都调用vprog方法，将收到的消息与自身的属性合并。如下图2所示。到此第一次迭代结束。
在这里插入图片描述