文献阅读
Iterative rule-guided reasoning over sparse knowledge graphs with deep reinforcement learning
基于深度强化学习的稀疏知识图谱迭代规则引导推理
Xia Y, Lan M, Luo J, et al. Iterative rule-guided reasoning over sparse knowledge graphs with deep reinforcement learning[J]. Information Processing & Management, 2022, 59(5): 103040.
1 简介
知识图谱广泛应用于检索系统、推荐系统和问答系统。由于缺乏到达目标实体的证据路径,近期的推理方法应用在不完整或稀疏知识图谱时性能不佳。为了解决这个问题,论文提出了强化学习的混合多跳推理模型SparKGR,它实现了动态路径补全和迭代规则指导策略,提升了在稀疏知识图谱上的推理性能。
1.1 创新点
- 使用规则指导动态补全缺少的路径,增加RL智能体的动作空间,可以有效降低知识图谱的稀疏度,提高路径搜索效率
- 设计了规则归纳和事实推理的迭代优化方法,结合知识图谱的全局信息指导智能体的搜索,提高了整体的训练性能
- 结合了表示学习、规则推理和路径的方法。主要是路径推理和强化学习;表示学习用来生成实体向量,方便机器处理,KG环境产出命中奖励;规则引导用来关键稀疏性的问题,对缺失的路径进行动态补全。
1.2 实验
在Freebase、Wikidata和NELL上提取的5个数据集上通过不同任务评估了SparKGR模型,在保持推理可解释行的情况下优于其它基线
1.3 现有问题
大多数知识图谱是稀疏的,并且有严重的不完备性(Li & Madden, 2019)
Freebase中75%的个人实体(约300万)缺少国籍信息(Bollacker, Evans, Paritosh, Sturge, & Taylor, 2008),
DBpedia中60%的个人实体(约180万)缺少出生地信息(vrande iki & Krötzsch, 2014)。
知识图谱不完整性影响下游应用(如信息检索)(Qiao & Hu, 2020;Shin, Jin, Jung, & Lee, 2019),会出现中间检索截断,导致用户无法获得想要查询的信息(Wang, Li and Zeng, 2021)。
1.4 研究现状
-
表示学习方法
基于向量嵌入或矩阵/张量分解的方式,从关系和实体中学习向量或稠密矩阵/张量表示,从这些表示中进行推理。这种方式性能优越,但是缺乏可解释行,在小规模知识图谱(数据集样本数过少)中不容易习得良好的表示
DistMult
定义了一个双线性评分函数来模拟对称关系,把双线性模型的关系矩阵限制为了对角矩阵,用 embedding-based 的方法做了规则挖掘
Yang B, Yih S W, He X, et al. Embedding Entities and Relations for Learning and Inference in Knowledge Bases[C]//Proceedings of the International Conference on Learning Representations (ICLR) 2015. 2015.
RESCAL
最早提出双线性模型,用向量表示实体,用矩阵表示关系,三维张量分解,11知识图谱年还未正式提出,这个
Nickel, M., Tresp, V., & Kriegel, H. (2011). A three-way model for collective learning on multi-relational data. In Proceedings of the 28th international conference on machine learning, ICML 2011, Bellevue, Washington, USA, June 28 - July 2, 2011 (pp. 809–816). Omni Press.
TransE
定义了基于向量转换的关系模式,建模了逆关系模式和复合关系模式
Bordes, A., Usunier, N., Garcia-Durán, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In NIPS’13, Proceedings of the 26th international conference on neural information processing systems - Volume 2 (pp. 2787–2795). Red Hook, NY, USA: Curran Associates Inc…
RotatE
进一步将每个关系定义为复杂空间中的旋转变换,以建模多个关系模式。
Sun, Z., Deng, Z., Nie, J., & Tang, J. (2019). Rotate: Knowledge graph embedding by relational rotation in complex space. In 7th international conference on learning representations, ICLR 2019, New Orleans, la, USA, May 6-9, 2019. OpenReview.net.
InteractE <= ConvE
Vashishth, S., Sanyal, S., Nitin, V., Agrawal, N., & Talukdar, P. P. (2020). InteractE: Improving convolution-based knowledge graph embeddings by increasing feature interactions. In The thirty-fourth AAAI conference on artificial intelligence, AAAI 2020, New York, NY, USA, February 7-12, 2020 (pp. 3009–3016). AAAI Press.
HAKE
将实体映射到极坐标系统
Wang, S., Fu, K., Sun, X., Zhang, Z., Li, S., & Jin, L. (2021). Hierarchical-aware relation rotational knowledge graph embedding for link prediction. Neurocomputing, 458, 259–270.
综述
Wang, Q., Mao, Z., Wang, B., & Guo, L. (2017). Knowledge graph embedding: A survey of approaches and applications. IEEE Transactions on Knowledge and Data
Engineering, 29(12), 2724–2743. -
基于规则的方法
从知识图谱的事实中推断出一般的逻辑规则,基于规则进行推理。这种方式可解释性强,但效率降低,健壮性差。
早期通过专家系统结合硬逻辑规则进行推理,这种方法很难对不确定性进行建模,并且在相对复杂的推理情况下往往是矛盾的
Galárraga, L. A., Teflioudi, C., Hose, K., & Suchanek, F. M. (2013). AMIE: association rule mining under incomplete evidence in ontological knowledge bases. In The 22nd international world wide web conference, WWW ’13, Rio de Janeiro, Brazil, May 13-17, 2013 (pp. 413–422). International World Wide Web Conferences Steering Committee / ACM.
后来的工作对逻辑规则中的不确定性进行建模
将硬逻辑模型中的一阶谓词逻辑和概率图结合在一起的形成马尔可夫逻辑网模型,基于图的语义网络和概率论结合形成的概率图模型。这种方法不适合大规模的KG,因为三元组之间复杂的逻辑连接限制了方法的性能。同时,知识图谱的不完备导致三元组没有被规则覆盖,降低了适用性
Ho, V. T., Stepanova, D., Gad-Elrab, M. H., Kharlamov, E., & Weikum, G. (2018). Rule learning from knowledge graphs guided by embedding models. In Lecture notes in computer science: vol. The semantic web - ISWC 2018 - 17th international semantic web conference, Monterey, CA, USA, October 8-12, 2018, Proceedings, Part I (pp. 72–90). Springer.
Meilicke, C., Chekol, M. W., Fink, M., & Stuckenschmidt, H. (2020). Reinforced anytime bottom up rule learning for knowledge graph completion. arXiv preprint arXiv:2004.04412.
-
强化学习方法
基于路径的方法,可以提高知识图谱推理的效率和可解释性,其路径即表示了推理过程
动态辩论的强化学习算法,采用两个agent的对抗,一个找真命题相关路径,一个找假命题相关路径,使用知识图中的路径作为参数生成特征,最终由判别器做出判断推理的真伪
Hildebrandt, M., Serna, J. A. Q., Ma, Y., Ringsquandl, M., Joblin, M., & Tresp, V. (2020). Reasoning on knowledge graphs with debate dynamics. In The 34th AAAI conference on artificial intelligence, AAAI 2020, New York, NY, USA, February 7-12, 2020 (pp. 4123–4131). AAAI Press.
RuleGuider提出了一种结合规则的知识图谱多跳推理模型,利用基于符号的方法生成的高质量规则为基于游走的代理提供奖励监督
Lei, D., Jiang, G., Gu, X., Sun, K., Mao, Y., & Ren, X. (2021). Learning collaborative agents with rule guidance for knowledge graph reasoning. In Proceedings of the 2020 conference on empirical methods in natural language processing, EMNLP 2020, Online, November 16-20, 2020 (pp. 8541–8547). Association for Computational Linguistics.
GaussianPath,基于贝叶斯的强化学习多跳推理框架
Wan, G., & Du, B. (2021). GaussianPath: A Bayesian multi-hop reasoning framework for knowledge graph reasoning. In Thirty-fifth AAAI conference on artificial intelligence, AAAI 2021, Virtual Event, February 2-9, 2021 (pp. 4393–4401). AAAI Press.
强化学习方法的问题
- 稀疏知识图谱中的边不足以进行知识推理,相比于实验环境,实际领域中的知识图谱大多是稀疏的,会导致搜索路径被截断,推理链中断,使得强化学习方法中的智能体难以与KG环境进行交互
- 大多数RL的多跳模型都是基于当前状态信息进行推理,没有考虑整体的KG环境,最终的命中奖励较少。只有到达尾实体,才能获得奖励,会导致延迟奖励。
2 方法
包括基于规则的规则引导模块、基于嵌入的奖励形成模块、基于路径的强化学习模块和知识图谱环境
-
规则引导模块,通过对知识图谱进行归纳学习,习得规则,然后在规则引导下,每当智能体遇到缺失路径时,采取动态补全的策略对缺失的关系进行补全。当智能体选择的路径匹配规则时,会获得额外的规则奖励,可以避免延迟奖励,同时在训练过程中,每次迭代结束将智能体推断的新事实进一步加入规则挖掘器,这种迭代策略可以优化规则归纳和事实推理
-
奖励形成模块,首先通过预训练模型对知识图谱进行向量嵌入,论文使用了现有的ConvE。通过这个模块计算智能体是否搜索到最终的目标节点从而形成命中奖励。
-
强化学习模块,使用RL作为序列决策模型的训练算法,将KG中的多跳推理过程建模为马尔可夫决策过程。用5元组 ( S , A , σ , R , π ) (S,A,\sigma,R,\pi) (S,A,σ,R,π)表示。其中状态S,动作A,转移 σ \sigma σ,奖励R,策略网络 π \pi π。这几个设置基本和DeepPath一致。
在状态上,为了尽可能多地对观察到的信息进行编码,考虑了历史的搜索路径,将状态改为 s t = ( r q , e t , h t ) s_{t}=\left(r_{q},e_{t},h_{t}\right) st=(rq,et,ht) ,其中 h t h_t ht是历史路径,通过LSTM对序列的历史信息进行编码, h t h_t ht使LSTM的输出 h t = L S T M ( h t − 1 , [ r t , e t ] ) h_{t}=\mathrm{LSTM}\left(h_{t-1},\left[r_{t},e_{t}\right]\right) ht=LSTM(ht−1,[rt,et])
动作和转移上,设置了一个终止的最大时间 T T T,若在 T T T内不能到达最终节点,则直接停止
奖励包括两部分,规则奖励 R r R_{r} Rr和命中奖励 R h R_{h} Rh,如果推理路径与规则挖掘器中的一个规则匹配,则将该规则对应的分数作为 R r R_r Rr。为了衡量命中正确性未知实体的软奖励,使用了 ϵ \epsilon ϵ的嵌入函数
R h = I ( ϵ ∈ K G ) + ( 1 − I ( ϵ ∈ K G ) ) f ( ϵ ) R_h=\mathbb{I}(\epsilon\in KG)+(1-\mathbb{I}(\epsilon\in KG))f(\epsilon) Rh=I(ϵ∈KG)+(1−I(ϵ∈KG))f(ϵ)
3 规则归纳
使用了规则归纳算法AnyBURL (Meilicke et al, 2020)从KG中挖掘规则及其相应的置信度分数
置信度计算公式
conf
(
B
⃗
⇒
r
(
x
,
y
)
)
=
#
(
x
,
y
)
:
∃
b
1
,
…
,
b
m
:
B
⃗
∧
r
(
x
,
y
)
#
(
x
,
y
)
:
∃
b
1
,
…
,
b
m
:
B
⃗
,
\operatorname{conf}(\vec{B}\Rightarrow r(x,y))=\frac{\#(x,y):\exists b_1,\ldots,b_m:\vec{B}\land r(x,y)}{\#(x,y):\exists b_1,\ldots,b_m:\vec{B}},
conf(B⇒r(x,y))=#(x,y):∃b1,…,bm:B#(x,y):∃b1,…,bm:B∧r(x,y),
其中
#
(
x
,
y
)
\#(x,y)
#(x,y)表示与条件相对应的事实数。
B
⃗
⇒
r
(
X
,
Y
)
\vec{B}\Rightarrow r(X,Y)
B⇒r(X,Y)是霍恩规则,表示为
b
1
(
X
,
A
2
)
∧
…
∧
b
n
(
A
n
,
Y
)
⇒
r
(
X
,
Y
)
b_{1}\left(X,A_{2}\right)\wedge\ldots\wedge b_{n}\left(A_{n},Y\right)\Rightarrow r(X,Y)
b1(X,A2)∧…∧bn(An,Y)⇒r(X,Y),
b
b
b是原子规则,大写字母是变量,
r
(
c
i
,
c
j
)
r\left(c_{i},c_{j}\right)
r(ci,cj)相当于kg中的事实三元组
(
c
i
,
r
,
c
j
)
\left(c_{i},r,c_{j}\right)
(ci,r,cj)
4 训练过程
(1)初始化实体和关系嵌入。
(2)应用规则挖掘器检索规则和它对应的置信度分数。
(3)让智能体在KG中探索路径,当缺失路径时,通过规则引导进行动态地补全路径。
(4)计算总奖励。使用挖掘的规则来评估路径并根据规则置信度得分计算规则奖励 R r R_r Rr,利用奖励形成模型来计算命中奖励 R h R_h Rh。总奖励 R t o t a l R_{total} Rtotal包括 R r R_r Rr和 R h R_h Rh与一个常数因子 λ \lambda λ∶ R t o t a l = λ R r + ( 1 − λ ) R h R_{total}=\lambda R_{r}+(1-\lambda)R_{h} Rtotal=λRr+(1−λ)Rh。
(5)通过对
K
G
\mathcal{KG}
KG中的所有查询最大化预期奖励
R
R
R来训练策略网络:
J
(
θ
)
=
E
(
e
s
,
r
q
,
e
o
)
∈
K
G
[
E
a
1
,
…
,
a
T
∼
π
θ
[
R
t
o
t
a
l
(
s
T
∣
e
s
,
r
q
)
]
]
.
J(\theta)=\mathbb{E}_{\left(e_{s},r_{q},e_{o}\right)\in\mathcal{K}G}\left[\mathbb{E}_{a_{1},\ldots,a_{T}\sim\pi_{\theta}}\left[R_{total}\left(s_{T}\mid e_{s},r_{q}\right)\right]\right].
J(θ)=E(es,rq,eo)∈KG[Ea1,…,aT∼πθ[Rtotal(sT∣es,rq)]].
使用强化算法(Williams, 1992)来最大化
R
t
o
t
a
l
R_{total}
Rtotal,对
G
\mathcal{G}
G中的所有三元组
(
e
s
,
r
q
,
e
o
)
(e_{s},r_{q},e_{o})
(es,rq,eo)进行迭代,并使用以下随机梯度更新参数
θ
\theta
θ:
∇
θ
J
(
θ
)
≈
∇
θ
∑
t
R
t
o
t
a
l
(
s
T
∣
e
s
,
r
q
)
log
π
θ
(
a
t
∣
s
t
)
,
θ
=
θ
+
β
∇
θ
J
(
θ
)
.
\begin{aligned}\nabla_\theta J(\theta)&\approx\nabla_\theta\sum_tR_{total}\left(s_T\mid e_s,r_q\right)\log\pi_\theta\left(a_t\mid s_t\right),\\\\\theta&=\theta+\beta\nabla_\theta J(\theta).\end{aligned}
∇θJ(θ)θ≈∇θt∑Rtotal(sT∣es,rq)logπθ(at∣st),=θ+β∇θJ(θ).
(6)按照迭代规则引导策略进行迭代学习和推理。
5 实验
使用基于FB15K-237 (Toutanova et al ., 2015)的三个数据集,即FB15K-237%-10%、FB15K-237%-20%和FB15K-237%-50%。数据集分别随机保留10%、20%和50%,来模拟稀疏图谱环境。
此外,还使用更稀疏的NELL23K数据集和WD-singer数据集来评估模型。
- ent实体数量
- rel关系数量
- fac事实数量
- degree节点平均和中值度数
评价指标
- 所有正确尾实体(MRR)的平均倒数排名
- 所有正确尾实体在前K名中的比例(Hits@K)
M R R = 1 N ∑ i 1 r a n k i , H i t @ K = ∑ i 1 ( r a n k i < K ) / N \begin{aligned} &MRR=\frac{1}{N}\sum_{i}\frac{1}{\mathrm{rank}_{i}}, \\ &Hit@K=\sum_{i}1\left(\mathrm{rank}_{i}<K\right)/N \end{aligned} MRR=N1i∑ranki1,Hit@K=i∑1(ranki<K)/N
与三种不同类型的方法进行了比较,基于规则的,基于嵌入的,基于路径的
与基于路径的模型中的最新基线相比,该模型的改进较好,Hit@10分别增加了4.5%,2.3%和1.6%
链路预测结果表明,该策略在稀疏KG环境下可以有更好的结果,SparKGR利用动态路径补全策略来补偿KG的不完备性和稀疏性,从而有效地进行了搜索
6 问题
为什么不直接在稀疏图谱中做补全