阿牛大牛中-CSDN博客

原创 CS224W6.3——图深度学习

在这篇中，将介绍图神经网络的架构。关键思想是，在GNNs中，根据局部网络邻域生成节点嵌入。gnn通常由任意数量的层组成，而不是单层，以集成来自更大上下文的信息。介绍了如何使用gnn来解决优化问题，以及它强大的归纳能力。我们可以简单认为图卷积网络分为两个步骤：与经典神经网络不同的是，图神经网络中，每个节点都可以定义自己的神经网络架构。但这样，我们就需要同时训练多个架构。核心问题是，如何聚合邻域？基础方法：要想训练我们的模型生成embeddings，我们需要定义损失函数。确定参数：

2023-11-13 14:00:30 355

原创 CS224W6.2——深度学习基础

在本文中，我们回顾了深度学习的概念和技术，这些概念和技术对理解图神经网络至关重要。从将机器学习表述为优化问题开始，介绍了目标函数、梯度下降、非线性和反向传播的概念。这篇我们主要讲第一部分深度学习的基础。我们将机器学习问题、监督学习问题看作是优化问题：我们需要学习这样一个映射函数：将输入xxx映射为输出的预测标签yyy。将这样的函数学习表述为一个优化过程。有两件重要的是：交叉熵损失函数：讨论多分类问题：比如5分类问题，表示5种颜色，我们用one-hot编码表示。我们要在某种意义上对它进行建模，使用f(x)f(

2023-11-12 14:41:53 691

原创 CS224W6.1——介绍图神经网络GNN

之前我们讨论了一些节点嵌入技术，它们可以通过随机游走的过程学习与任务无关的特征。从这篇开始，我们介绍了令人兴奋的，该技术。图神经网络在各种任务中表现出非凡的性能，并可以驯服图的复杂性质。

2023-11-12 12:54:56 214

原创 CS224W5.3——信念传播

此文中，我们介绍信念传播，这是一种回答图中概率查询的动态规划方法。通过迭代传递消息给邻居节点，如果达成共识，则计算最终的信念值。然后，我们通过示例和泛化树结构展示消息传递。最后讨论了循环信念传播算法及其优缺点。集体分类的前两种方法在上篇文章中也说了：CS224W5.2——Relational and Iterative Classification这里主要讲集体分类的最后一种方法。

2023-11-12 11:08:58 258

原创 CS224W5.2——Relational and Iterative Classification

本节中，我们介绍用于节点分类的关系分类器和迭代分类。此时，不需要节点特征信息。如何去做更新：举例：初始化：更新节点3：在更新节点3之后更新节点4：再更新节点5：经过第一轮迭代更新后：经过第2轮迭代更新后：经过第3轮迭代更新后：经过第4轮迭代：收敛：以上是关系分类，它仅仅基于每个节点的标签，而没有用到每个节点的特征信息。迭代分类的架构：举例：第一步：第二步：第三步：继续迭代直至收敛：

2023-11-11 14:54:36 86

原创 CS224W5.1——消息传递和节点分类

从之前的文中，学习了如何使用图表示学习进行节点分类。在这节中，将讨论另一种方法，消息传递。将引入半监督学习，利用网络中存在的相关性来预测节点标签。其中一个关键概念是集体分类，包括分配初始标签的局部分类器、捕获相关性的关系分类器和传播相关性的集体推理3个步骤。举例而言，半监督学习的节点分类任务：

2023-11-11 13:11:42 197

原创 LightGCN：Simplifying and Powering Graph Convolution Network for Recommendation【论文精读】

NCF全称：Neural Collaborative Filtering。当时（2017年），深度神经网络在语音识别、计算机视觉和自然语言处理方面取得了巨大成功。然而，深度神经网络在推荐系统上的探索相对较少。在这项工作中，作者开发基于神经网络的技术来解决推荐中的关键问题——基于隐式反馈的协同过滤。通过将内积（传统MF）替换为可以从数据中学习任意函数的神经架构，作者提出了一个通用框架NCF，称基于神经网络的协同过滤。NGCF全称：NeuralGraph用户和项目的学习向量表示（即Embedding。

2023-11-08 14:13:40 637

原创 CS224W4.4——矩阵分解和节点Embeddings

我们稍微切换一下方向，讨论生成节点嵌入的矩阵分解方法。具体来说，我们讨论了前面提到的学习节点嵌入的方法如何与矩阵分解的方法联系起来。基于这些直觉，我们提出了基于矩阵分解和随机游走的嵌入方法的3个局限性。在接下来，我们将介绍针对这些限制的具体解决方案:深度表示学习和图神经网络。与矩阵分解的联系：最简单的定义相似度：

2023-11-01 14:54:25 95

原创 CS224W4.3——Random Walk with Restarts

我们讨论了个性化PageRank，它对节点与查询节点S的给定子集(即teleportation set)的接近程度进行排名，以及随机行走(Random Walk)，它对从单个起始节点到对节点接近程度进行随机行走建模。我们将演示这些算法是如何与PageRank的原始定义相关联的，在原始定义中，我们对一个随机surfer进行建模，该surfer在图的链接上移动，同时随机传送到图中的任何节点、所有节点的子集或单个节点。节点近邻策略：

2023-11-01 14:18:18 93

原创 CS224W4.2——计算PageRank

在介绍了PageRank及其公式之后，我们讨论了求解PageRank的方法。我们提出了求解图的随机邻接矩阵(即PageRank)的主特征向量的幂次迭代方法。此外，我们在之前的PageRank实现中引入了两个问题:死角（dead ends）(没有外部链接的节点)和蜘蛛陷阱（spider traps）(没有外部链接的节点组)。为了解决这些问题，我们提出了随机均匀传送（random uniform teleportation）的想法，并揭示了谷歌矩阵，用于利用功率迭代来解决PageRank，同时避免了所提出的问题

2023-11-01 11:34:00 106

原创 CS224W4.1——PageRank

在这篇中，我们将关注如何将图表示为矩阵，并讨论我们可以探索的后续属性。我们定义了PageRank的概念，进一步探索随机游走，并引入矩阵分解作为生成节点嵌入的视角。在第一部分，我们将介绍PageRank作为在图中对节点重要性进行排序的方法。在这样做时，我们提出了PageRank的矩阵公式，并展示了与解决图上随机游走的平稳分布的联系。将网页看作有向图，以链接指向作为边的方向（这个网页/节点能直接跳转到的网页就作为其下一个节点successor）将网页看作有向图，以链接指向作为边的方向（这个网页/节点能直接跳转到

2023-11-01 01:45:00 107

原创 CS224W3.3——整图Embedding

在某些情况下，重要的是不仅要学习节点的嵌入，还要学习整个图。在这篇中，我们介绍了几种可以有效地学习整个图嵌入的方法，包括节点嵌入的聚合（aggregation of node embeddings），以及匿名行走嵌入方法（ anonymous walk embedding approach）。

2023-10-30 13:54:09 57

原创 CS224W3.2——随机游走（Random Walk）

我们要怎样定义相似性和概率的概念?首先，我们需要通过随机游走策略（后面会说）估计出，从节点u到节点v的概率。然后我们要优化embedding，用这种方式来编码随机游走统计。

2023-10-29 13:31:08 288

原创 CS224W3.1——节点Embedding

encoder/decoder...

2023-10-29 11:26:56 113

原创 CS224W2.3——传统基于特征的方法(图层级特征)

前两篇中我们讨论了节点层级的特征表示、边层级的特征表示：在这篇中，我们将重点从整个图中提取特征。换句话说，我们想要描述整个图结构的特征。具体来说，我们感兴趣的是测量两个图之间相似性的图核方法。我们将描述提取这种图核的不同方法，包括Graphlet特性和WL核。目标是：我们想要一个特征来描述整个图的结构。这种核方法广泛应用于传统的图层级预测上。这种方法的思想是：设计核（kernels）代替特征向量。核矩阵K=(K(G,G′))K=(K(G,G'))K=(K(G,G′))必须有正的特征值，可以表示为两个向量的

2023-10-28 20:34:56 87

原创 CS224W2.2——传统基于特征的方法(边层级特征)

在这篇中，我们介绍了链接预测的重要任务，以及如何提取链接级特征来更好地解决这类问题。这在我们需要预测缺失的边或预测将来会出现的边的情况下很有用。我们将讨论的链路级功能包括基于距离的功能，以及本地和全局邻域重叠。任务是：基于已有的图结构，预测新的边。这意味着在测试时，我们必须计算所有尚未链接的节点对，对它们进行排序，然后，宣布我们的算法预测的最前面的k个注释对，是网络中将要发生的链接。而现在的关键，是对每一对节点（边）设计特征。正如上一篇中说到的节点层级的任务，是给节点设计特征，那我们能否直接拼接两个节点的特

2023-10-28 15:25:02 78

原创 CS224W2.1——传统基于特征的方法(节点层级特征)

这篇主要讲传统的基于特征方法的节点层级任务。我们将讨论节点级特性及其应用。节点级特征关注图中节点的特征，可分为基于重要性和基于结构两种。

2023-10-28 11:40:54 114

原创 CS224W1.3——图表示的选择

这小节主要讲图表示的选择。

2023-10-28 00:15:12 179

原创 CS224W1.2——图机器学习应用

这节我们讲讨论图机器学习的应用。

2023-10-27 10:54:16 98

原创 CS224W1.1——图机器学习介绍

首先，介绍一下什么是图：简单来说，图是一种描述和分析实体之间关系的通用表达形式。图的种类也有很多，比如：事件图、计算机网络图、疾病传播图、食物链图、分子图、地铁路线图。社交网络图、金融图、沟通图、论文引用图、因特网、神经元网络。知识图谱、监管网络图、场景图、代码结构图、分子结构图、3D图形。

2023-10-27 00:27:01 495 2

原创【PinSage】Graph convolutional neural networks for web-scale recommender systems【论文精读】

总的来说，这篇论文是在2017年提出的GraphSAGE基础上的一个延伸，将其采样方式进行改变，并在工业级的数据上进行部署。能完成这样一份工业级数据上进行推荐的任务是不容易的。在dgl的库中也有这个算法的一个demo，但是与本文的一些方法会有差异，我想大概是因为dgl库中要到的数据集（ml-1m）无法达到Pinterest那样的量级，所以我觉得使用了PinSage也不一定会比传统的GCN效果要好。但通过代码也可以更好的理解这个模型。这也是我的一次论文分享，如果问题请指正。

2023-10-17 15:02:31 493

原创图神经网络详细内容

图神经网络中还有一个重要概念，即图采样。如果数据量过大，则是否可以仿照传统深度学习的小批量训练方式呢？答案是不可以，因为普通深度学习中的训练样本之间并不依赖，但是图结构的数据中，节点与节点之间有依赖关系，如下图：普通深度学习的训练样本在空间中是一些散点，可以随意小批量采样，无论如何采样得到的训练样本并不会丢失什么信息。而图神经网络训练样本之间存在边的依赖，也正是因为有边的依赖，也正是因为有边的依赖，所以才被称为图结构数据，这样才可用图神经网络的模型算法来训练，如果随意采样，则破坏了样本之间的关系信息。

2023-09-25 16:06:49 291

原创基于图的基础推荐方式

路径是从某一个节点到另一个节点之间经过的边与节点组成的子图，包含头尾节点，如下图：上图中，由节点1开始游走，到到达节点4可以经过节点2或者节点3，所以节点1与节点4之间存在路径1–>2–>4和1–>3–>4这两条路径，而节点1到节点5只有1条路径，所以该路径是1–>5。一条路径上的边数被称为路径的阶数。例如1–>2–>4和1–>3–>4属于二阶路径。1–>5属于一阶路径，所以又可以把节点2、3、5称为节点1的一阶邻居，节点4称为节点1的二阶邻居。

2023-09-22 10:41:53 238

原创 Wide&Deep模型介绍

Wide&Deep模型是和的综合，是谷歌在2016年提出的。正如其名，Wide&Deep模型是由和组成的混合模型。这样的结构特点，使模型兼具了和的优点——能够快速处理并记忆大量历史行为特征，并且具有强大的表达能力。

2023-09-03 13:41:19 238

原创计算机网络实验4：HTTP、DNS协议分析

若本地域名服务器不能找到,则会向上级根域名服务器发出域名解析请求，根域名服务器会返回一个 IP 地址告诉本地域名服务器应该到哪里请求所需域名的解析，本地域名服务器根据得到的 IP 向对应的域名服务器发出请求，最终获得域名和对应的 IP。HTTP 协议是无状态的协议，即当服务器收到某个客户端发送的 HTTP 请求报文时，并不清楚该客户端是否曾经发送过相同的 HTTP 请求报文，即 HTTP 协议本身不会维护客户端和服务器端的状态。在 HTTP 的请求和应答标准中，客户端是终端用户，服务器端是网站。

2023-08-10 22:15:30 1648

原创计算机网络实验3：双绞线跳线的制作和测试

文章目录1. 主要教学内容2. 双绞线跳线的制作和测试1. 主要教学内容实验内容：掌握双绞线制作过程中的剥线、理线、插线、压线以及测线。所需学时：2。重难点：双绞线的类别及其用途周次：第2周。教材相关章节：第5章（142页）。注意事项：实验过后要记得保持环境的整洁，保护爱惜设备，培养职业素养，为工作打下良好的职业品质。2. 双绞线跳线的制作和测试

2023-08-09 15:25:06 400

原创计算机网络实验2：网络嗅探

Wireshark 是常用的网络包分析工具。网络包分析工具的主要作用是尝试捕获网络包, 并尽可能详细的显示包的情况。Wireshark 是Etheral 更高级的版本，包含WinPcap。它具有方便易用的图形界面和众多分类信息及过滤选项，是一款免费、开源的网络协议检测软件。Wireshatk通常运行在路由器或有路由功能的主机上，这样就能对大量的数据进行监控，几乎能得到以太网上传送的任何数据包。Wireshark 不是人侵侦测软件。对于网络上的异常流量行为，Wireshark 不会产生警示或任何提示。

2023-08-09 15:24:04 248

原创计算机网络实验1：网络命令学习

netstat 命令可以显示当前活动的TCP 连接、计算机侦听的端口、以太网统计信息、IP路由表、IPv4统计信息(对于IP、ICMP、TCP和UDP协议)以及IPv6统计信息(对于IPv6、ICMPv6、通过IPv6的TCP以及UDP协议 )。ipconfig 命令可以显示所有当前的TCP/IP网络配置值(如IP地址、网关、子网掩码)、刷新动态主机配置协议(DHCP)和域名系统(DNS)设置。通过ping百度的域名我们知道了百度的IP地址，此例说明，可以利用ping命令从域名中查找对应的IP 地址。

2023-08-09 15:19:12 280

原创推荐系统中的深度学习模型演化关系

从技术角度讲，深度学习推荐模型大量借鉴并融合了深度学习在图像、语音及自然语言处理方向的成果，在模型结构上进行了快速的演化。时至今日，深度学习推荐模型已经成为推荐和广告领域当之无愧的主流。进入深度学习时代之后，推荐模型主要在以下。等一大批优秀的深度学习推荐模型在2016年被提出，推荐系统和计算广告领域全面进入。，能够根据业务场景和数据特点，灵活调整模型结构，使模型与应用场景完美契合。(1)与传统的机器学习模型相比，深度学习模型的。下图为主流深度学习推荐模型的演化图谱。之后再学习每个模型的细节。

2023-07-24 11:54:22 255

原创 FM算法介绍

中， ESPN 的隐向量也可以通过(ESPN， Gucci)样本进行更新， Adidas的隐向量也可以通过 (NBC， Adidas)样本进行更新，这大幅降低了模型对数据稀疏性的要求。甚至对于一个从未出现过的特征组合 (NBC，Gucci)，由于模型之前已经分别学习过 NBC和 Gucci的隐向量，具备了计算该特征组合权重的能力，这是 POLY2无法实现的。针对特征交叉的问题，算法工程师经常采用先于动组合特征，再通过各种分析手段筛选特征的方法，但该方法无疑是低效的。取代了单一的权重系数W。

2023-07-20 21:41:03 85

原创推荐模型——逻辑回归

圄于工程团队的限制，即使其他复杂模型的效果有所提升，在没有明显击败逻辑回归模型之前，公司也不会贸然加大计算资源的投入，升级推荐模型或 CTR 模型，这是逻辑回归持续流行的另一重要原因。使用各种特征的加权是为了综合不同特征对CTR的影响，而不同的特征的重要程度不同，所以为不同特征制定不同的权重，代表不同的重要程度。因此，在优化某模型的目标函数时，只需要对魔表函数进行求导，得到梯度的方向，沿梯度的反方向下降，并迭代此过程直到寻找到局部最小点。那么，在寻找最低点的过程中，沿哪个方向才是下降最快的方向呢？

2023-07-19 13:18:44 546

空空如也

空空如也