自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(262)
  • 收藏
  • 关注

原创 CS224W6.3——图深度学习

在这篇中,将介绍图神经网络的架构。关键思想是,在GNNs中,根据局部网络邻域生成节点嵌入。gnn通常由任意数量的层组成,而不是单层,以集成来自更大上下文的信息。介绍了如何使用gnn来解决优化问题,以及它强大的归纳能力。我们可以简单认为图卷积网络分为两个步骤:与经典神经网络不同的是,图神经网络中,每个节点都可以定义自己的神经网络架构。但这样,我们就需要同时训练多个架构。核心问题是,如何聚合邻域?基础方法:要想训练我们的模型生成embeddings,我们需要定义损失函数。确定参数:

2023-11-13 14:00:30 355

原创 CS224W6.2——深度学习基础

在本文中,我们回顾了深度学习的概念和技术,这些概念和技术对理解图神经网络至关重要。从将机器学习表述为优化问题开始,介绍了目标函数、梯度下降、非线性和反向传播的概念。这篇我们主要讲第一部分深度学习的基础。我们将机器学习问题、监督学习问题看作是优化问题:我们需要学习这样一个映射函数:将输入xxx映射为输出的预测标签yyy。将这样的函数学习表述为一个优化过程。有两件重要的是:交叉熵损失函数:讨论多分类问题:比如5分类问题,表示5种颜色,我们用one-hot编码表示。我们要在某种意义上对它进行建模,使用f(x)f(

2023-11-12 14:41:53 691

原创 CS224W6.1——介绍图神经网络GNN

之前我们讨论了一些节点嵌入技术,它们可以通过随机游走的过程学习与任务无关的特征。从这篇开始,我们介绍了令人兴奋的,该技术。图神经网络在各种任务中表现出非凡的性能,并可以驯服图的复杂性质。

2023-11-12 12:54:56 214

原创 CS224W5.3——信念传播

此文中,我们介绍信念传播,这是一种回答图中概率查询的动态规划方法。通过迭代传递消息给邻居节点,如果达成共识,则计算最终的信念值。然后,我们通过示例和泛化树结构展示消息传递。最后讨论了循环信念传播算法及其优缺点。集体分类的前两种方法在上篇文章中也说了:CS224W5.2——Relational and Iterative Classification这里主要讲集体分类的最后一种方法。

2023-11-12 11:08:58 258

原创 CS224W5.2——Relational and Iterative Classification

本节中,我们介绍用于节点分类的关系分类器和迭代分类。此时,不需要节点特征信息。如何去做更新:举例:初始化:更新节点3:在更新节点3之后更新节点4:再更新节点5:经过第一轮迭代更新后:经过第2轮迭代更新后:经过第3轮迭代更新后:经过第4轮迭代:收敛:以上是关系分类,它仅仅基于每个节点的标签,而没有用到每个节点的特征信息。迭代分类的架构:举例:第一步:第二步:第三步:继续迭代直至收敛:

2023-11-11 14:54:36 86

原创 CS224W5.1——消息传递和节点分类

从之前的文中,学习了如何使用图表示学习进行节点分类。在这节中,将讨论另一种方法,消息传递。将引入半监督学习,利用网络中存在的相关性来预测节点标签。其中一个关键概念是集体分类,包括分配初始标签的局部分类器、捕获相关性的关系分类器和传播相关性的集体推理3个步骤。举例而言,半监督学习的节点分类任务:

2023-11-11 13:11:42 197

原创 LightGCN:Simplifying and Powering Graph Convolution Network for Recommendation【论文精读】

NCF全称:Neural Collaborative Filtering。当时(2017年),深度神经网络在语音识别、计算机视觉和自然语言处理方面取得了巨大成功。然而,深度神经网络在推荐系统上的探索相对较少。在这项工作中,作者开发基于神经网络的技术来解决推荐中的关键问题——基于隐式反馈的协同过滤。通过将内积(传统MF)替换为可以从数据中学习任意函数的神经架构,作者提出了一个通用框架NCF,称基于神经网络的协同过滤。NGCF全称:NeuralGraph用户和项目的学习向量表示(即Embedding。

2023-11-08 14:13:40 637

原创 CS224W4.4——矩阵分解和节点Embeddings

我们稍微切换一下方向,讨论生成节点嵌入的矩阵分解方法。具体来说,我们讨论了前面提到的学习节点嵌入的方法如何与矩阵分解的方法联系起来。基于这些直觉,我们提出了基于矩阵分解和随机游走的嵌入方法的3个局限性。在接下来,我们将介绍针对这些限制的具体解决方案:深度表示学习和图神经网络。与矩阵分解的联系:最简单的定义相似度:

2023-11-01 14:54:25 95

原创 CS224W4.3——Random Walk with Restarts

我们讨论了个性化PageRank,它对节点与查询节点S的给定子集(即teleportation set)的接近程度进行排名,以及随机行走(Random Walk),它对从单个起始节点到对节点接近程度进行随机行走建模。我们将演示这些算法是如何与PageRank的原始定义相关联的,在原始定义中,我们对一个随机surfer进行建模,该surfer在图的链接上移动,同时随机传送到图中的任何节点、所有节点的子集或单个节点。节点近邻策略:

2023-11-01 14:18:18 93

原创 CS224W4.2——计算PageRank

在介绍了PageRank及其公式之后,我们讨论了求解PageRank的方法。我们提出了求解图的随机邻接矩阵(即PageRank)的主特征向量的幂次迭代方法。此外,我们在之前的PageRank实现中引入了两个问题:死角(dead ends)(没有外部链接的节点)和蜘蛛陷阱(spider traps)(没有外部链接的节点组)。为了解决这些问题,我们提出了随机均匀传送(random uniform teleportation)的想法,并揭示了谷歌矩阵,用于利用功率迭代来解决PageRank,同时避免了所提出的问题

2023-11-01 11:34:00 106

原创 CS224W4.1——PageRank

在这篇中,我们将关注如何将图表示为矩阵,并讨论我们可以探索的后续属性。我们定义了PageRank的概念,进一步探索随机游走,并引入矩阵分解作为生成节点嵌入的视角。在第一部分,我们将介绍PageRank作为在图中对节点重要性进行排序的方法。在这样做时,我们提出了PageRank的矩阵公式,并展示了与解决图上随机游走的平稳分布的联系。将网页看作有向图,以链接指向作为边的方向(这个网页/节点能直接跳转到的网页就作为其下一个节点successor)将网页看作有向图,以链接指向作为边的方向(这个网页/节点能直接跳转到

2023-11-01 01:45:00 107

原创 CS224W3.3——整图Embedding

在某些情况下,重要的是不仅要学习节点的嵌入,还要学习整个图。在这篇中,我们介绍了几种可以有效地学习整个图嵌入的方法,包括节点嵌入的聚合(aggregation of node embeddings),以及匿名行走嵌入方法( anonymous walk embedding approach)。

2023-10-30 13:54:09 57

原创 CS224W3.2——随机游走(Random Walk)

我们要怎样定义相似性和概率的概念?首先,我们需要通过随机游走策略(后面会说)估计出,从节点u到节点v的概率。然后我们要优化embedding,用这种方式来编码随机游走统计。

2023-10-29 13:31:08 288

原创 CS224W3.1——节点Embedding

encoder/decoder...

2023-10-29 11:26:56 113

原创 CS224W2.3——传统基于特征的方法(图层级特征)

前两篇中我们讨论了节点层级的特征表示、边层级的特征表示:在这篇中,我们将重点从整个图中提取特征。换句话说,我们想要描述整个图结构的特征。具体来说,我们感兴趣的是测量两个图之间相似性的图核方法。我们将描述提取这种图核的不同方法,包括Graphlet特性和WL核。目标是:我们想要一个特征来描述整个图的结构。这种核方法广泛应用于传统的图层级预测上。这种方法的思想是:设计核(kernels)代替特征向量。核矩阵K=(K(G,G′))K=(K(G,G'))K=(K(G,G′))必须有正的特征值,可以表示为两个向量的

2023-10-28 20:34:56 87

原创 CS224W2.2——传统基于特征的方法(边层级特征)

在这篇中,我们介绍了链接预测的重要任务,以及如何提取链接级特征来更好地解决这类问题。这在我们需要预测缺失的边或预测将来会出现的边的情况下很有用。我们将讨论的链路级功能包括基于距离的功能,以及本地和全局邻域重叠。任务是:基于已有的图结构,预测新的边。这意味着在测试时,我们必须计算所有尚未链接的节点对,对它们进行排序,然后,宣布我们的算法预测的最前面的k个注释对,是网络中将要发生的链接。而现在的关键,是对每一对节点(边)设计特征。正如上一篇中说到的节点层级的任务,是给节点设计特征,那我们能否直接拼接两个节点的特

2023-10-28 15:25:02 78

原创 CS224W2.1——传统基于特征的方法(节点层级特征)

这篇主要讲传统的基于特征方法的节点层级任务。我们将讨论节点级特性及其应用。节点级特征关注图中节点的特征,可分为基于重要性和基于结构两种。

2023-10-28 11:40:54 114

原创 CS224W1.3——图表示的选择

这小节主要讲图表示的选择。

2023-10-28 00:15:12 179

原创 CS224W1.2——图机器学习应用

这节我们讲讨论图机器学习的应用。

2023-10-27 10:54:16 98

原创 CS224W1.1——图机器学习介绍

首先,介绍一下什么是图:简单来说,图是一种描述和分析实体之间关系的通用表达形式。图的种类也有很多,比如:事件图、计算机网络图、疾病传播图、食物链图、分子图、地铁路线图。社交网络图、金融图、沟通图、论文引用图、因特网、神经元网络。知识图谱、监管网络图、场景图、代码结构图、分子结构图、3D图形。

2023-10-27 00:27:01 495 2

原创 【PinSage】Graph convolutional neural networks for web-scale recommender systems【论文精读】

总的来说,这篇论文是在2017年提出的GraphSAGE基础上的一个延伸,将其采样方式进行改变,并在工业级的数据上进行部署。能完成这样一份工业级数据上进行推荐的任务是不容易的。在dgl的库中也有这个算法的一个demo,但是与本文的一些方法会有差异,我想大概是因为dgl库中要到的数据集(ml-1m)无法达到Pinterest那样的量级,所以我觉得使用了PinSage也不一定会比传统的GCN效果要好。但通过代码也可以更好的理解这个模型。这也是我的一次论文分享,如果问题请指正。

2023-10-17 15:02:31 493

原创 图神经网络详细内容

图神经网络中还有一个重要概念,即图采样。如果数据量过大,则是否可以仿照传统深度学习的小批量训练方式呢?答案是不可以,因为普通深度学习中的训练样本之间并不依赖,但是图结构的数据中,节点与节点之间有依赖关系,如下图:普通深度学习的训练样本在空间中是一些散点,可以随意小批量采样,无论如何采样得到的训练样本并不会丢失什么信息。而图神经网络训练样本之间存在边的依赖,也正是因为有边的依赖,也正是因为有边的依赖,所以才被称为图结构数据,这样才可用图神经网络的模型算法来训练,如果随意采样,则破坏了样本之间的关系信息。

2023-09-25 16:06:49 291

原创 基于图的基础推荐方式

路径是从某一个节点到另一个节点之间经过的边与节点组成的子图,包含头尾节点,如下图:上图中,由节点1开始游走,到到达节点4可以经过节点2或者节点3,所以节点1与节点4之间存在路径1–>2–>4和1–>3–>4这两条路径,而节点1到节点5只有1条路径,所以该路径是1–>5。一条路径上的边数被称为路径的阶数。例如1–>2–>4和1–>3–>4属于二阶路径。1–>5属于一阶路径,所以又可以把节点2、3、5称为节点1的一阶邻居,节点4称为节点1的二阶邻居。

2023-09-22 10:41:53 238

原创 Wide&Deep模型介绍

Wide&Deep模型是和的综合,是谷歌在2016年提出的。正如其名,Wide&Deep模型是由和组成的混合模型。这样的结构特点,使模型兼具了和的优点——能够快速处理并记忆大量历史行为特征,并且具有强大的表达能力。

2023-09-03 13:41:19 238

原创 计算机网络实验4:HTTP、DNS协议分析

若本地域名服务器不能找到,则会向上级根域名服务器发出域名解析请求,根域名服务器会返回一个 IP 地址告诉本地域名服务器应该到哪里请求所需域名的解析,本地域名服务器根据得到的 IP 向对应的域名服务器发出请求,最终获得域名和对应的 IP。HTTP 协议是无状态的协议,即当服务器收到某个客户端发送的 HTTP 请求报文时, 并不清楚该客户端是否曾经发送过相同的 HTTP 请求报文,即 HTTP 协议本身不会维护客户端和服务器端的状态。在 HTTP 的请求和应答标准中,客户端是终端用户,服务器端是网站。

2023-08-10 22:15:30 1648

原创 计算机网络实验3:双绞线跳线的制作和测试

文章目录1. 主要教学内容2. 双绞线跳线的制作和测试1. 主要教学内容实验内容:掌握双绞线制作过程中的剥线、理线、插线、压线以及测线。所需学时:2。重难点:双绞线的类别及其用途周次:第2周。教材相关章节:第5章(142页)。注意事项:实验过后要记得保持环境的整洁,保护爱惜设备,培养职业素养,为工作打下良好的职业品质。2. 双绞线跳线的制作和测试

2023-08-09 15:25:06 400

原创 计算机网络实验2:网络嗅探

Wireshark 是常用的网络包分析工具。网络包分析工具的主要作用是尝试捕获网络包, 并尽可能详细的显示包的情况。Wireshark 是Etheral 更高级的版本,包含WinPcap。它具有方便易用的图形界面和众多分类信息及过滤选项,是一款免费、开源的网络协议检测软件。Wireshatk通常运行在路由器或有路由功能的主机上,这样就能对大量的数据进行监控,几乎能得到以太网上传送的任何数据包。Wireshark 不是人侵侦测软件。对于网络上的异常流量行为,Wireshark 不会产生警示或任何提示。

2023-08-09 15:24:04 248

原创 计算机网络实验1:网络命令学习

netstat 命令可以显示当前活动的TCP 连接、计算机侦听的端口、以太网统计信息、IP路由表、IPv4统计信息(对于IP、ICMP、TCP和UDP协议)以及IPv6统计信息(对于IPv6、ICMPv6、通过IPv6的TCP以及UDP协议 )。ipconfig 命令可以显示所有当前的TCP/IP网络配置值(如IP地址、网关、子网掩码)、刷新动态主机配置协议(DHCP)和域名系统(DNS)设置。通过ping百度的域名我们知道了百度的IP地址,此例说明,可以利用ping命令从域名中查找对应的IP 地址。

2023-08-09 15:19:12 280

原创 推荐系统中的深度学习模型演化关系

从技术角度讲,深度学习推荐模型大量借鉴并融合了深度学习在图像、语音及自然语言处理方向的成果,在模型结构上进行了快速的演化。时至今日,深度学习推荐模型已经成为推荐和广告领域当之无愧的主流。进入深度学习时代之后,推荐模型主要在以下。等一大批优秀的深度学习推荐模型在2016年被提出,推荐系统和计算广告领域全面进入。,能够根据业务场景和数据特点,灵活调整模型结构,使模型与应用场景完美契合。(1)与传统的机器学习模型相比,深度学习模型的。下图为主流深度学习推荐模型的演化图谱。之后再学习每个模型的细节。

2023-07-24 11:54:22 255

原创 FM算法介绍

中, ESPN 的隐向量也可以通过(ESPN, Gucci)样本进行更新, Adidas的隐向量也可以通过 (NBC, Adidas)样本进行更新,这大幅降 低了模型对数据稀疏性的要求。甚至对于 一个从未出现过的特征组合 (NBC,Gucci),由于模型之前已经分别学习过 NBC和 Gucci的隐向量, 具备了计算该特征组合权重的能力,这是 POLY2无法实现的。针对特征交叉的问题,算法工程师经常采用先于动组合特征,再通过各种分析手段筛选特征的方法,但该方法无疑是低效的。取代了单一的权重系数W。

2023-07-20 21:41:03 85

原创 推荐模型——逻辑回归

圄于工程团队的限制,即使其他复杂模型的效果有所提升,在没有明显击败逻辑回归模型之前, 公司也不会贸然加大计算资源的投入,升级推荐模型或 CTR 模型,这是逻辑回归持续流行的另一重要原因。使用各种特征的加权是为了综合不同特征对CTR的影响,而不同的特征的重要程度不同,所以为不同特征制定不同的权重,代表不同的重要程度。因此,在优化某模型的目标函数时,只需要对魔表函数进行求导,得到梯度的方向,沿梯度的反方向下降,并迭代此过程直到寻找到局部最小点。那么,在寻找最低点的过程中,沿哪个方向才是下降最快的方向呢?

2023-07-19 13:18:44 546

原创 基于知识图谱的医药问答系统实战项目

首先,执行build_medicalgraph.py文件,将数据导入Neo4j数据库中。该项目来自中国科学院,数据来源于网络,不过没有实现前端页面,只有后端的展示。之后执行chatbot_graph.py文件即可开启对话!这里设置的密码为:“12345678”

2023-07-16 11:01:27 228

原创 基于知识图谱的电影推荐系统——Neo4j&Python

也可直接从这里下载:链接: https://pan.baidu.com/s/1l6wjwcUzy5G_dIlVDbCkpw 提取码: pkq6。修改main.py中的driver,输入自己数据库的用户名与密码。系统会询问是否需要重新加载并创建知识图谱,在第一次时输入1。

2023-06-17 16:03:35 4001 6

原创 推荐常用的排序学习算法——BPR(贝叶斯个性化排序)

U代表所有用户user集合;I代表所有物品item集合;S代表所有用户的隐式反馈。可知,𝑆⊆𝑈×𝐼。,所有样本构成了S。那些为观察到的数据(即用户没有产生行为的数据)标记为?。因为是基于贝叶斯的 Pairwise 方法,BPR 有两个基本假设一是每个用户之间的偏好行为相互独立,即用户u在商品i和j之间的偏好和其他用户无关。二是同一用户对不同物品的偏序相互独立,也就是用户u在商品i和j之间的偏好和其他的商品无关。

2023-06-06 19:31:25 1755 1

原创 显示反馈与隐式反馈

本文来介绍一下显示反馈与隐式反馈,作为我学习推荐系统的笔记以便日后忘记了可以回过头来温习。

2023-06-06 10:39:09 1004

原创 常用推荐系统评测指标

本文作为我学习推荐算法时的学习笔记,来总结一些推荐系统中的评测指标通常推荐系统的评测方法有四种:。本文主要介绍线下评测,线下评测是推荐系统的,通常有两种评测方式,一种是,一种是。(1)是一种军事演习式的测试。模拟测试当然无法代替真实数据,但是也能暴露一些问题。通常做法是先收集业务数据,也就是根据业务场景特点,构造用户访问推荐接口的参数。这些参数要尽量还原当时场景,然后拿这些参数数据去实时访问推荐推荐,产生推荐结果日志,收集这些结果日志并计算评测指标,就是离线模拟测试。

2023-06-05 15:03:28 2438

原创 Neo4j图数据库介绍及简单入门

电影里有这样的片段,警察抓捕凶手时,在墙上会画一个图:这里也有一个demo可以让我们看到一个做好的图数据库:这个demo也是用Neo4j来做的。

2023-06-03 10:23:41 365

原创 知识图谱涉及技术点分析

根据用户关系(通讯录)建立算法模型(Deep walk),获得用户向量。有了特征编码能做的事情就多了,预测,分析等一些ML任务都能干活了。这件事是AI最核心的内容,如何让计算机读懂咱们得数据。难点在于如何编码(算法)才能更准确体现这个用户的情况。主要因为知识图谱中涉及文本数据较多,,那么就能让计算机进行训练和推理任务。

2023-06-02 17:15:07 500

原创 知识图谱简介

本质上,知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,因此可以认为是一种语义网络。主要作用:通过,建立,通过解决实际带的问题。

2023-06-02 14:51:30 264

原创 音乐推荐系统实战

本文选择了音乐数据集来进行个性化推荐任务,首先对数据进行预处理和整合,选择两种方法分别完成推荐任务。在相似度计算中根据用户所听过的歌曲在候选集中选择与其最相似的歌曲,存在的问题就是计算时间消耗太多,每一个用户都需要重新计算一遍才能得出推荐结果。在SVD矩阵分解的方法中,我们首先构建评分矩阵,对其进行SVD分解,然后选择待推荐用户,还原得到其对所有歌曲的估测评分值,最后排序返回结果即可。

2023-05-31 15:47:19 2570 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除