图机器学习基础知识——CS224W（11-reasoning）

最新推荐文章于 2024-05-16 22:32:24 发布

XaiverZ

最新推荐文章于 2024-05-16 22:32:24 发布

阅读量571

点赞数 14

分类专栏：图机器学习基础知识文章标签：机器学习人工智能深度学习图卷积神经网络图机器学习

本文链接：https://blog.csdn.net/windgrin_/article/details/137889996

版权

图机器学习基础知识专栏收录该内容

22 篇文章 0 订阅

订阅专栏

CS224W: Machine Learning with Graphs

Stanford / Winter 2021

11-reasoning

Query Types

KG Query Types

One-hop Queries

One-hop Queries

Defination: Is $t$ an answer to query $(h, (r))$ ?

Path Queries

Path Queries

An n-hop query $q$ can be represented by

$q=\left(v_{a},\left(r_{1}, \ldots, r_{n}\right)\right)$

Conjunctive Queries

Conjunctive Queries

Logic Conjunction Operation

在这里插入图片描述

Answering Predictive Queries on Knowledge Graphs

如何回答知识图谱的推理问题

Traversing Knowledge Graphs

遍历知识图谱

通过遍历知识图谱的节点与边来获取answer
但知识图谱本身可能不完整，缺失大量关系，这会造成答案不完整
Question: 先通过前述知识图谱补全任务补全知识图谱而后进行遍历？
- 不可行
- 知识图谱补全任务中，很多关系都会有非零的概率（网络预测输出的值大多都是非0的，很少有真的等于0的），这会导致知识图谱在补全后非常密集
- 遍历密集图的时间复杂度是指数级别的

Traversing KG in Vector Space

Paper : Traversing Knowledge Graphs in Vector Space

在向量空间内遍历KG，隐式估计缺失边

Key Idea: Embed queries
- 利用TransE等进行知识图谱推理
Insight
- 可以在KG Completion Task上训练TransE
- 因为TransE可以建模Composition Relations，所以它可以被用在Path Queries上（向量加和就是一种组合的关系）
- 对于TransR、DistMult、ComplEx，由于它们不能建模Composition Relations。所以不能用在Path Queries上

Query2box

Paper : QUERY2BOX: REASONING OVER KNOWLEDGE GRAPHS IN VECTOR SPACE USING BOX EMBEDDINGS

Query2box

Box Embeddings
- Embed queries with hyper-rectangles (boxes)
- Entity Embeddings
  - Entities are seen as zero-volume boxes
- Relation Embeddings
  - Each relation takes a box and produces a new box
- Intersection operator $f$
  - New operator, inputs are boxes and output is a box
  - Intuitively models intersection of boxes
- Projection Operator
  - Take the current box as input and use the relation embedding to project and expand the box
Example
- Use projection operator
Intersection Operator
- boxes相交部分的中心点应该位于如图所示红色区域内，而且与三个box的中心点相关
$\begin{gathered} \operatorname{Cen}\left(q_{\text {inter }}\right)=\sum_{i} \boldsymbol{w}_{i} \odot \operatorname{Cen}\left(q_{i}\right) \\ \boldsymbol{w}_{i}=\frac{\exp \left(f_{\text {cen }}\left(\operatorname{Cen}\left(q_{i}\right)\right)\right)}{\sum_{j} \exp \left(f_{\text {cen }}\left(\operatorname{Cen}\left(q_{j}\right)\right)\right)} \quad \begin{array}{c} \operatorname{Cen}\left(q_{i}\right) \in \mathbb{R}^{d} \\ \boldsymbol{w}_{i} \in \mathbb{R}^{d} \end{array} \end{gathered}$
其中， $f_{cen}$ 表示一个神经网络
- boxes相交部分的偏移量应该比任意一个输入的box都小，所以我们使用min取得输入box最小的偏移量，再乘以一个由Sigmoid缩放到[0,1]之间的数，以保证偏移量一定比原先任一个box小
$\begin{aligned} &\operatorname{Off}\left(q_{\text {inter }}\right) \\ &=\min \left(\operatorname{Off}\left(q_{1}\right), \ldots, \operatorname{Off}\left(q_{n}\right)\right) \\ &\odot \sigma\left(f_{\text {off }}\left(\operatorname{Off}\left(q_{1}\right), \ldots, \operatorname{Off}\left(q_{n}\right)\right)\right) \end{aligned}$
$f_{off}$ 表示一个神经网络
Entity-to-Box Distance
- Entity到Box中心点（q到v）的距离可以定义为
$d_{\text {box }}(\mathbf{q}, \mathbf{v})=d_{\text {out }}(\mathbf{q}, \mathbf{v})+\alpha \cdot d_{\text {in }}(\mathbf{q}, \mathbf{v})$
其中 $0<\alpha<1$
- 若点在box内，则距离应该被降低权重（？？？）
$f_{q}(v)=-d_{b o x}(\mathbf{q}, \mathbf{v})$
$f_{q}(v)$ captures inverse distance of a node $v$ as answer to $q$
AND-OR Queries
- Conjunctive queries + disjunction = Existential Positive First-order (EPFO) queries = AND-OR queries
- 能否在向量空间定义AND-OR Queries？
  - 不行！
- 通过将AND-OR逻辑条件等价转换成DNF（Disjunction of conjunctive queries），将所有的并集操作都放在最后
  - Given any AND-OR query $q$
    
    $q=q_{1} \vee q_{2} \vee \cdots \vee q_{m}$
    $q_i$ 为conjunctive query
- Distance between entity embedding and a DNF $q=q_{1} \vee q_{2} \vee \cdots \vee q_{m}$ is defined as
  
  $d_{\text {box }}(\mathbf{q}, \mathbf{v})=\min \left(d_{\text {box }}\left(\mathbf{q}_{1}, \mathbf{v}\right), \ldots, d_{\text {box }}\left(\mathbf{q}_{m}, \mathbf{v}\right)\right)$
  - $v$ 到 $q$ 的距离定义为 $v$ 到各 $q_i$ 距离的最小值
  - 若 $v$ 是某个conjunctive query $q_i$ 的answer，那么 $v$ 也是 $q$ 的answer
  - 若 $v$ 距离某个conjunctive query $q_i$ 距离很近，那么 $v$ 也应在向量空间中距离 $q$ 很近
- AND-OR的embedding过程（并不像交集那样定义了明确的embedding，并集无法定义明确的embedding过程，所以通过转换DNF分别对各个子query求）
Training
- 注意此处 $f_q(v)$ 为negative distance