图计算与ID-Mapping

目录

一、图计算:

图计算起源:

图计算特点:

图计算的应用:

Spark GraphX图处理库

ID-Mapping

二、总结:


一、图计算:

图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,分为有向图跟无向图,使用节点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。可抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。

大数据时代,数据之间存在关联关系。由于图是表达事物之间复杂关联关系的组织结构,因此现实生活中的诸多应用场景都需要用到图,例如,淘宝用户好友关系图、道路图、电路图、病毒传播网、国家电网、文献网、社交网和知识图谱。 为了从这些数据之间的关联关系中获取有用信息,大量图算法层出不穷。它们通过对大型图数据的迭代处理,获得图数据中隐藏的重要信息。

简单地来讲,在图中最基本的单元是:

1.节点(Vertex)

2.边(Edge)

那什么是节点,什么是边呢?

一位女士在天猫买了一只口红,这位女士、商铺都可以是节点,而购买行为则是边。

图计算起源:

图计算的起源于哥尼斯堡(现俄罗斯的加里宁格勒市)的“七桥问题”。

在18世纪初,哥尼斯堡的一个公园里,有七座桥将普雷格尔河中的两个岛及岛与河岸连接起来。人们提出了一个问题:是否可能从这四块陆地中任一块出发,恰好通过每座桥一次,再回到起点呢?这个问题看似简单,但实际上却引发了一系列关于图论和拓扑学的深入思考。

数学家欧拉(Leonhard Euler)在1736年研究了这个问题,并将它归结为一个图论问题。他把陆地抽象为图中的节点,把桥抽象为图中的边,通过分析和计算,证明了这样的路径是不存在的。欧拉的这项研究被认为是图论和拓扑学的开创性工作之一,也为后来的图计算奠定了重要的理论基础。

图计算特点:

图计算在处理复杂数据上显现出其优异的性能优势,具体表现在以下方面:

1.表达复杂的关联关系: 图计算能够有效地表达和处理有复杂关联关系的数据上,比如说警察办案会在墙上绘制一个关系图(网),也就是将犯罪嫌疑人有关的对象的关系标注出来形成一张关系网,有利于表达犯罪嫌疑人与其他人之间的关联关系,能够进行清晰地思考和判断。而在计算机上的图数据也是如此。这种结构能够清晰地展现事物之间的关联性和交互性。 
2.高效存储和处理: 图计算基于节点和边方式存储图数据和进行计算,能够高效以及大规模地处理图数据,并且通过图算法系统能够快速地遍历、分析与查询数据,从而获得想要的结果。 
3.迭代计算: 图计算要经过许多轮的迭代,每次迭代则需要重新计算和更新节点和边之间的关系,直到达到收敛值,这种迭代计算的方式以保证图数据的正确性和逐步达到问题的最优解。

图计算的应用:

图计算有着广泛的应用前景:

1.信用卡欺诈:图计算破获银行贷款诈骗
2.新冠肺炎患者溯源:还原确诊病例的轨迹和关联关系
3.识别洗钱账户:结合亲友关系、转账关系、通讯关系等使用挖掘算法分析可疑交易
4.犯罪分子社会关系:犯罪组织内部成员之间的关联关系。
5.推荐系统:用户和物品的表示、特征提取和表示学习、社交关系分析等等
图计算作为下一代人工智能的核心技术,已被广泛应用于医疗、教育、军事、金融等多个领域

Spark GraphX图处理库

GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上, GraphX 通过引入 Spark RDD来扩展 新的图抽象:具有属性的有向多图 附加到每个顶点和边。为了支持图计算,GraphX 公开了一组基本 运算符(例如,subgraph、joinVertics 和 aggregateMessages)以及 Pregel API 的优化变体。此外,GraphX 还包括越来越多的图算法和构建器,以简化图分析任务。

属性图:

属性图是有向多图 将用户定义的对象附加到每个顶点和边。有向多图是有向的 具有可能共享同一源和目标顶点的多个平行边的图形。这 支持并行边的能力简化了可以有多个边的建模方案 相同顶点之间的关系(例如,同事和朋友)。每个顶点都由一个唯一的 64 位长标识符 进行键控。GraphX 不会对 顶点标识符。同样,边具有相应的源顶点和目标顶点 标识符。VertexId

属性图在顶点和边类型上进行参数化。这些 分别是与每个顶点和边关联的对象的类型。VDED

属性图示例:

属性图

Spark GraphX的主要功能和用途包括: 1、图构建和操作:Spark GraphX允许用户构建和操作大规模图数据结构,包括添加和删除顶点、边,以及遍历图数据。 2、图算法:GraphX提供了一系列图算法,包括最短路径算法、图遍历算法、连通性分析、PageRank、社区检测等,用于解决图相关问题,例如路由规划、社交网络分析、网络拓扑分析等。 3、顶点属性和边属性:用户可以为图的顶点和边附加属性,以存储关于实体的额外信息,例如顶点的属性可以表示用户的属性,边的属性可以表示关系的权重。 4、分布式计算:Spark GraphX利用Spark的分布式计算能力,可以处理大规模的图数据,从而实现高性能的图处理。 5、图切割:Spark GraphX支持将大型图切分成较小的子图,以便更容易处理。 6、可视化工具:可以使用可视化工具来绘制和可视化图,以更好地理解图的结构和特性。 Spark GraphX通常用于处理图数据的大规模分析和挖掘,包括社交网络分析、推荐系统、网络拓扑分析、生物信息学等领域。它为开发人员提供了处理图数据的强大工具和库,可以在分布式Spark集群上进行高性能的图处理。

下面举一个例子如何使用Spark GraphX来加载、处理和分析社交网络图数据,并计算出图中顶点的PageRank值:

import org.apache.spark.graphx.GraphLoader
​
// 加载用户数据
val users = (sc.textFile("data/graphx/users.txt")
  .map(line => line.split(",")).map( parts => (parts.head.toLong, parts.tail) ))
​
// 加载关注者关系数据
val followerGraph = GraphLoader.edgeListFile(sc, "data/graphx/followers.txt")
​
// 附加用户属性,对于没有属性的顶点,我们为它们分配一个空数组。
val graph = followerGraph.outerJoinVertices(users) {
  case (uid, deg, Some(attrList)) => attrList
  case (uid, deg, None) => Array.empty[String]
}
​
// 限制图到具有特定属性的用户
val subgraph = graph.subgraph(vpred = (vid, attr) => attr.size == 2)
​
// 计算PageRank,0.01是阻尼因子
val pagerankGraph = subgraph.pageRank(0.001)
​
// 获取PageRank最高的用户的属性
val userInfoWithPageRank = subgraph.outerJoinVertices(pagerankGraph.vertices) {
  case (uid, attrList, Some(pr)) => (pr, attrList.toList)
  case (uid, attrList, None) => (0.0, attrList.toList)
}
​
println(userInfoWithPageRank.vertices.top(5)(Ordering.by(_._2._1)).mkString("\n"))

ID-Mapping

在构建精准用户画像时,面临着这样一个问题: 日志采集不能成功地收集用户的所有ID, 且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。所以要使用ID-Mapping进行用户画像的“拼图”。

ID-Mapping主要用于解决用户身份信息的混乱问题,比如说相同设备、不同账号间切换,相同用户、不同渠道下账号不相同等。ID-Mapping通俗地说,就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等。

ID-Mapping标识符

由于用户的行为信息、属性数据分散在多个不同的数据来源中,假设一个人在手机上使用百度地图, 在ipad上观看百度爱奇艺视频,在第二个手机上使用手机百度app, 在pc电脑上使用百度搜索,那应该如何将这些信息聚合起来呢?答案是标识符。

具体来说,ID-Mapping标识符可以将各种ID(如用户ID、设备ID、账号ID等)进行映射和关联,从而形成一个统一的用户实体数据。通过ID-Mapping,我们可以将用户在不同平台、不同设备、不同渠道下的行为信息进行整合和串联,形成一个完整的用户画像。这个用户画像可以帮助我们更好地了解用户的行为、兴趣、需求等信息,从而提供更加精准的服务和推荐。

标识符的种类也有很多,简单划分为Android 与 ios:

ios设备常见标识符:
IMEI:国际移动设备识别码(International Mobile Equipment Identity,IMEI),即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备,相当于移动电话的身份证。IMEI是写在主板上的,重装APP不会改变IMEI。Android 6.0以上系统需要用户授予read_phone_state权限,如果用户拒绝就无法获得;
IDFA:于iOS 6 时面世,可以监控广告效果,同时保证用户设备不被APP追踪的折中方案。可能发生变化,如系统重置、在设置里还原广告标识符。用户可以在设置里打开“限制广告跟踪”;
MAC地址:硬件标识符,包括WiFi mac地址和蓝牙mac地址。iOS 7 之后被禁止;OpenUDID:在iOS 5发布时,UDID被弃用了,这引起了广开发者需要寻找一个可以替代
UDID,并且不受苹果控制的方案。由此OpenUDID成为了当时使用最广泛的开源UDID替代方案。OpenUDID在工程中实现起来非常简单,并且还支持一系列的广告提供商;
​
Android设备常见的标识符:
IMEl (International Mobile Equipment ldentity),即通常所说的手机序列号、手机“串号”用于在移动电话网络
中识别每一部独立的手机等行动通讯装置;序列号共有15位数字,前6位(TAC)是型号核准号码,代表手机类型。接
着2位(FAC)是最后装配号,代表产地。后6位(SNR)是串号,代表生产顺序号。最后1位(SP)一般为0,是检验
码,备用。
MAC(Media Access Control)一般代指MAC位址,为网卡的标识,用来定义网络设备的位置。
IMSl(International Mobile Subscriberldentification Number),储存在SIM卡中,可用于区别移动用户的有效信
息;其总长度不超过15位,同样使用0~9的数字。其中MCC是移动用户所属国家代号,占3位数字,中国的MCC规定
为460;MNC是移动网号码,最多由两位数字组成,用于识别移动用户所归属的移动通信网:MSIN是移动用户识别码
用以识别某一移动通信网中的移动用户。
Android_ID:在设备首次启动时,系统会随机生成一个64位的数字,并把这个数字以16进制字符串的形式保存下来,这个16进制的字符串就是Android_ID,当设备被wipe后该值会被重置;

依据标识符可以找出同一用户的标识,从而实现多方面数据的聚合,以达到使用用户使用不同应用或设备数据的目的。

二、总结:

在ID-Mapping的过程中,可以利用图计算技术来找到各种ID标识之间的关联关系,从而识别出哪些ID标识属于同一个人或实体。通过构建包含各种ID的图结构,并应用图算法进行迭代处理,可以获取图数据中隐藏的重要信息,从而实现实现用户画像的构建、精准营销、个性化推荐等功能。

(以上为自学笔记,侵删。)

  • 10
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
课程简介:  本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。  拒绝demo,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从0开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝demo化的实现。并且会穿插大量的原创解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。   跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建......逐渐展开整个项目的宏大视,构建起整个项目的摩天大厦。  由于本课程不光讲解项目的实现,还会在实现过程中反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER课程模块: 1. 数据采集:涉及到埋点日志flume采集系统,sqoop业务数据抽取系统等; 2. 数据预处理:涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据的用户身份标识打通:ID-MAPPING等;3. 数据仓库:涉及到hive数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,ETL任务脚本开发,ETL任务调度,数据生命周期管理等;4. 数据治理:涉及数据资产查询管理,数据质量监控管理,atlas元数据管理系统,atlas数据血缘管理等;5. 用户画像系统:涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. OLAP即席分析平台:涉及OLAP平台的整体架构设计,技术选型,底层存储实现,Presto查询引擎搭建,数据服务接口开发等;7. 数据服务:涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的restapi开发等;课程所涉及的技术: 整个项目课程中,将涉及到一个大型数据系统中所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件:l Hadoopl Hivel HBasel SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllibl Sqoopl Azkabanl Flumel lasal Kafkal Zookeeperl Solrl Prestop
ThingsBoard网关是一个开源的物联网边缘计算平台,它可以收集和处理来自设备的数据,并将其发送到ThingsBoard服务器进行存储和分析。在网关上,可以使用MAPPING规则来对设备数据进行转换和映射。 ThingsBoard网关的MAPPING规则是使用JavaScript编写的脚本,它允许你在数据传输过程中对数据进行处理和转换。以下是一些常见的MAPPING规则示例: 1. 数据筛选:你可以使用MAPPING规则来仅传输满足特定条件的数据。例如,你可以根据设备ID或数据内容来筛选数据,并只将满足条件的数据发送到ThingsBoard服务器。 2. 数据转换:你可以使用MAPPING规则将设备发送的原始数据转换为特定的格式或单位。例如,如果设备发送的温度数据是以摄氏度为单位,你可以使用MAPPING规则将其转换为华氏度。 3. 数据映射:你可以使用MAPPING规则将设备发送的数据映射到ThingsBoard服务器上已定义的属性或遥测。例如,如果设备发送的数据字段名称与ThingsBoard服务器上的属性名称不匹配,你可以使用MAPPING规则将其映射到正确的属性。 4. 数据聚合:你可以使用MAPPING规则将多个设备发送的数据合并为单个消息,并将其发送到ThingsBoard服务器。例如,如果你有多个传感器发送的温度数据,你可以使用MAPPING规则将其聚合为一个平均值,并将其发送到服务器。 这些只是MAPPING规则的一些示例,你可以根据自己的需求编写自定义的规则来处理和转换数据。要在ThingsBoard网关上配置MAPPING规则,请参考ThingsBoard官方文档中的相关部分。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值