【论文解读】《类目式文档语义特征 AND-OR 逻辑表达式生成方法》论文解读

【论文解读】《类目式文档语义特征 AND-OR 逻辑表达式生成方法》

该系列仅作为自己的学习记录



前言

论文链接:类目式文档语义特征 AND-OR 逻辑表达式生成方法
本文作为自身学习的解读,仅供参考,可能后序添加代码复现部分。


1. 研究目标

将类目式文档中的类目单元表示成语义特征AND-OR 逻辑表达式,使类目文档实现语义化的表示,为类目语义匹配、语义检索等应用提供语义化数据。

1.1 类目式文档解释

一种表示知识分类体系的结构化文档,常以类目作为基本结构单元,内含分类号、类 名、描述/注释等信息,类目之间具有明确的层次关系,呈树形结构。常见的类目式文档有植物分类表、 专利分类表、限制目录等。
例如下图,E,E01,E01B,E01B 1/00分别代表了不同的类目,但其中有层级之分。E01B 1/00 就表示为综合多个上位层级语义特征逻辑表达式集合。
在这里插入图片描述

2. 研究问题

发现在对类目特征进行匹配时忽略了特征词之间存在的AND/OR逻辑组合特征。
例如:E01C 21/02 现场熔化、煅烧或焙烧土壤”时,出现 “现场” “熔化” “煅烧”等同于出现“现场” “熔化” “土壤”,而实际后者的匹配程度应高于前者。

3. 研究方法

3.1 表述特征

在语言表述上AND/OR逻辑有以下的表述特征

  • 标点符号:“类目注释常以“、” “;”等标点符号分隔组织特征词,显式地表征特征词间的逻辑关系” 。例如,,用“、”分隔的特征词“瓦” “石板瓦” “木瓦”之间存在 OR 关系。
  • 特定连词:类目注释中的“和、或、以及”等连词在语义上与逻辑“与 、或”关系存在一定对应 ,而“其、及其”等连词显式地表示继承了紧邻的上文特征词。例如,“固定堰 ;其上部结构或闸板 ”中“ 其 ”代表 “固定堰”,逻辑表达结果应为“固定堰 OR(固定堰 AND(上部结构 OR 闸板))”。
    AND/OR组合特征

3.2 研究框架

通过递归组合的方式,将上位类的语义融合到当前类目单元中,从而使每个类目单元形成一个具有完整语义特征的结构单元。如下图所示。
在这里插入图片描述

3.3 类目单元 AND-OR 逻辑语义表达式生成

3.3.1 生成模型

 使用UniLM模型作为生成模型,在Seq2Seq Mask机制的基础上进行标注数据微调训练。模型结构如下图所示。

在这里插入图片描述

3.3.2 特征学习

  • 利用jieba分词得到词性标注结果。
  • 分析专利类目数据,得到包括标点符号在内的19个显式语法逻辑特征词。
  • 将上述的两类特征信息融入预训练的字向量中,方法如下。拼接三种向量,然后通过一个转换矩阵还原维度,得到Ef。
  • 为了避免对预训练的参数调整过多,借鉴残差网络的思想,降低了Ef的权重后与原Etoken进行sum操作。
    在这里插入图片描述

3.3.3 改进的Beam Search

  • Beam Search(集束搜索)算法能降低搜索空间范围,降低解码的复杂度,通过设置参数 Beam Size 的值,在每个时间步保留固定个数的预测输出,同时基于上个时间步的输出序列,挑选当前所有组合中条件概率最大的前 size 个候选输出序列,即始终保持 size 个候选,迭代以上的操作直到预测到结束字符,返回概率最大的候选序列作为最终预测结果。
  • 在每时间步都判断当前预测字前一预测字是否存在组合关系,能与前一预测字成词且在输入序列中出现的预测字增加概率得分 Ws,Ws的分值可适当调整,经多次实验, 选择增加得分为 0.15 时对结果性能提升较好。
  • 使用jieba分词对类目注释的内容进行分词,去除停用词之后的结果集作为字词之间的先验组合关系

3.4 上下文层次语义融合

本文提出的 AND-OR 逻辑表达式生成方法分上下文层次结构语义识别类目单元语义组合两部分。

  • 前者主要分析类目分类号的结构特征
  • 后者则是采用递归方式将上位类的语义特征融合到类目单元语义表达式中。
  • 例如,在国际专利分类表(IPC)中,根据类目分类号的长度及标识符(·)等文本特征制定抽取规则,解析出层级及父节点,如下图所示。
    在这里插入图片描述

4. 实验结果

使用BLEU作为评价指标,与BiLSTM+AttentionBiLSTM+CNNBERT-Seq2Seq三种模型进行对比,实验结果如下,该文的结果有了显著的提升。
在这里插入图片描述
模型生成结果实例
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值