Spark得到两个RDD值集合有包含关系的映射

最新推荐文章于 2023-03-11 11:58:41 发布

wuzqchom

最新推荐文章于 2023-03-11 11:58:41 发布

阅读量2.1k

点赞数 1

分类专栏：研发相关

本文链接：https://blog.csdn.net/wuzqChom/article/details/83280813

版权

研发相关专栏收录该内容

9 篇文章 0 订阅

订阅专栏

问题场景

有两个RDD的数据集A和B（暂且分别称为新、老RDD）以及一组关于这两个RDD数据的映射关系，如下图所示：

以及A和B的各元素映射关系的RDD，如下图所示：

上述映射关系，代表元素a和c同义，若为url，则表示指向同一个页面，元素b和d同理。

以第一列所组成的元素作为关键字，第二列作为值的集合。现要求映射对，使得在该映射关系下，B的值集合可以覆盖A的值几何的元素。如上结果应该为：（b, d）。因为A中以b为键的集合为B中以d为键的值集合的子集。
受到单机编程的思维定势，使用HashMap实现，虽然可以运行，但是太慢啦啦，所以改用另一种思路，可以充分利用分布式的优点。

解决方案

val data = sc.textFile("/user/wuzhongqiang/clean_data/baidubaike_source.20180801/").cache()
//1.以左边的为key，进行分组，统计每一个key所对应的值集合
val groupData = data.map(item => {
    val key = item._1 
    val value = item._1
    (key, value)
}).groupByKey

//2. 读取链接映射文件至map
//(AKey, BKey) 
val projectionMap = sc.textFile("hdfs://projection").cache()
// (AKey, BKey) 
val aData = projectionMap.map(item => (item._1, item._2))
// (BKey, AKey) 
val bData = projectionMap.map(item => (item._2, item._1))
// (AKey, (BKey, AValueSet)) 
val aKeyJoinData = aData.join(groupData)
// (BKey, (AKey, BValueSet)) 
var bKeyJoinData = bData.join(groupData)
// 交换新老键的位置，为后面的join做准备 (AKey, (BKey, BValueSet) )
bKeyJoinData = nbKeyJoinData.map(item => {(item._2._1, (item._1, item._2._2))})
//结果形式为(AKey, ((BKey, AValueSet), (BKey, BValueSet)))
val aBData = aKeyJoinData.join(bKeyJoinData)
aKeyJoinData.take(1).foreach(println)
// oldUrl -> newUrl
val resultMap = aBData.map(item => {
    val aValueSet = item._2._1._2.to[Set]
    val bValueAttrSet = item._2._2._2.to[Set]
    val subtractSet = aValueSet -- bValueAttrSet
    //若新的URL属性可以完全覆盖旧的url属性， 即 oldAttrSet与newAttrSet的差集为空
    if(subtractSet.isEmpty)
    	(item._1, item._2._1._1)
    else ("", "")
}).filter(_._1 != "")
resultMap.take(1).foreach(println)

wuzqchom

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark得到两个RDD值集合有包含关系的映射

问题场景：有两个RDD的数据集A和B以及一组关于这两个RDD数据的映射关系，如下图所示：以及A和B的各元素映射关系的RDD，如下图所示：上述映射关系，代表元素a和c同义，若为url，则表示只想同一个页面，元素b和d同理。以第一列所组成的元素作为关键字，第二列作为值的集合。现要求映射对，使得在该映射关系下，B的值集合可以覆盖A的值几何的元素。如上结果应该为：（b, d）。因为A中以b为键...
复制链接

扫一扫

专栏目录