学习笔记之知识图谱三元组抽取模型

最新推荐文章于 2024-04-13 20:59:52 发布

听寒哥的话

最新推荐文章于 2024-04-13 20:59:52 发布

阅读量3.5k

点赞数

文章标签：知识图谱

本文链接：https://blog.csdn.net/weixin_49528551/article/details/120388556

版权

文章目录

前言
一、模型整体思路
二、模型建立
三、训练阶段
四、解码阶段
总结

前言

这里使用一个多任务模型抽取三元组。任务1是抽取subjects, 任务2是同时抽取objects 和 predictions。抽取的方式并不是BIO标注的方式而是采用半指针半标注的方法。

一、模型整体思路

1、模型大体描述如下：基于Bert编码器，利用半指针半标注的方式，先抽取subjects，再同时抽取objects和predictions。
2、模型具体描述如下：
step1 利用Bert等编码器将输入文本编码成词向量。
step2 将词向量经过一个dense层变化成两维的向量。
step3 将得到的2维向量分别过一个sigmoid激活函数，分别代表是否是subject的起始，是否是subject的结束。最终可以得到1or多个subjects.
step4 将得到的subjects过一个dense层转化成词向量维度与step1得到的词向量相加
step5 再将step4得到的结果经过一个dense层输出一个2关系量的向量。
step6 最后再将2关系量的向量转化成【关系量，2】的矩阵，代表对于每一个可能的prediction对应的objects标识。

二、模型建立

1、SubjectModel 流程如下：

2 、ObjectModel 流程如下：

三、训练阶段

四、解码阶段

对于验证集，先输入input_ids，attention_mask得到subject_output，设定两个阈值（比如0.5，0.6）决定subject的起始和结尾，进而得到subject。再将subject_output，input_ids, attention_mask再导入objectModel得到obejct_output，同理设定两个阈值（比如0.2，0.3）得到objects和predicate。如此得到的三元组和验证集的labels比对，计算F1。

总结

知识图谱的构建是知识图谱的核心。我们这里介绍的方法是一个baseline的方法，有很多可以改进的空间。

听寒哥的话

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
学习笔记之知识图谱三元组抽取模型

文章目录前言一、模型整体思路二、总结前言这里使用一个多任务模型抽取三元组。任务1是抽取subjects, 任务2是同时抽取objects 和 predictions。抽取的方式并不是BIO标注的方式而是采用半指针半标注的方法。一、模型整体思路1、模型大体描述如下：基于Bert编码器，利用半指针半标注的方式，先抽取subjects，再同时抽取objects和predictions。2、模型具体描述如下：step1 利用Bert等编码器将输入文本编码成词向量。step2 将词向量经过一个den.
复制链接

扫一扫