18-DRTE:面向基础教育的术语抽取方法

李思良,许斌,杨玉基。DRTE:面向基础教育的术语抽取方法,《中文信息学报》,2018,vol. 32(3):101-109

关键词
term extraction; term definition; term relation

目标:从非结构化文本中自动抽取专业术语。

问题

  1. 长尾特性:以数学学科为例,术语“三角形”在初高中课本中共出现1779次,而术语“切点圆”则仅仅出现3次。毕竟教材中仅有少部分重要术语被反复使用,所以长尾特性会造成低频词的遗漏。
  2. 一些基础性术语如“面”“线”也被广泛地使用在其他领域,这会导致通用性高的术语会因为逆向文件频率而被误认为是领域无关的词语。

贡献

  1. 提出DRTE。F1值达到82.7%,相比目前的方法提高了40.8% 。
  2. 通过利用术语的定义与关系的背景信息,避免了基础教育的长尾特性。即DRTE对术语的词频依赖很低。
  3. 针对因中文分词误差导致的长术语抽取困难现象,提出了迭代式的术语抽取方法。即DRTE避免因分词误差而带来的术语遗漏。
    (综上三点其实就是一点:我们的DRTE很好,并解释都哪里好)

笔记目录:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值