One ID中的核心技术ID-Mapping究竟是怎么实现的？by彭文华

最新推荐文章于 2023-12-08 15:44:42 发布

大数据架构师Evan

最新推荐文章于 2023-12-08 15:44:42 发布

阅读量1k

点赞数 1

文章标签：数据库百度大数据人工智能编程语言

本文链接：https://blog.csdn.net/weixin_52346300/article/details/116022680

版权

本文介绍了ID Mapping在解决数据孤岛问题中的应用，通过图数据库和图计算技术实现不同系统间用户ID的打通。作者彭文华分享了从传统数据清洗到互联网ID Mapping的方法，并详细阐述了ID Mapping的6步流程，强调其在构建数据中台、用户画像中的重要性。

摘要由CSDN通过智能技术生成

这是彭文华的第153篇原创

网上 ID Mapping 的技术文章不多，我正好经历过传统数据清洗和互联网 ID Mapping 两种场景，今天就把具体方法总结分享一下。欢迎大家加我微信：shirenpengwh ，一起探讨大数据相关技术。每天一篇原创，分享给大家，我们一起学习，共同进步。

为啥要做ID Mapping？

其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题，也就不会有这波澜壮阔的数字技术发展和改革。

在 10 多年前的时候，当时IT界都还在做“四库十二金”的项目。我就接了这么一个活，就是把一个地区的所有地址给弄干净。这可就费劲了，因为同一个地址有 N 多种写法，比如说“大裤衩”，全称叫“中央电视台总部大楼”，门牌号是“北京市朝阳区东三环中路32号”，也有别称叫“中央电视台新址”，而且还有具体经纬度。

这么乱的情况，一不小心就给弄错了。我们当时接的项目就是把这乱七八糟的地址给统一了，给地理信息库提供基础数据。这上那弄去啊？太费劲了好么！

我们当时是怎么弄的呢？说来也很简单，就是比对。写规则比对，简单规则对不上，就用复杂规则对，复杂规则还对不上，就肉眼雷达看。先对大厦、门牌号啥的做清洗，把错别字等都清洗好。然后以相对比较精准的数据源为准，匹配一波，相同的先打上标记。然后把类似的也放一边，最后把都匹配不上的放一边，最后把经纬度也加上一起看。最后再人工肉眼雷达过两遍，最后剩下的就不管了。

这太痛苦了！不过我那时候技术不行，不知道用高技术。百度这边就用图数据库解决这个问题，现在在百度上搜索啥都给你弄出来：

在互联网场景中，这种例子到处都是。数据中台盛行之前，在 DSP （互联网广告投放平台）中就有 ID Mapping 的应用场景。他们必须要识别在不同端（家里电脑、公司电脑）登录的同一个用户。他们拿不到很多详细的数据，只能靠浏览器的 Cookie 数据来识别，所以 DSP 系统中的 ID Mapping 是基于 cookie 来做的，同一个客户，在不同端登录的