李思良,许斌,杨玉基。DRTE:面向基础教育的术语抽取方法,《中文信息学报》,2018,vol. 32(3):101-109
关键词:
term extraction; term definition; term relation
目标:从非结构化文本中自动抽取专业术语。
问题:
- 长尾特性:以数学学科为例,术语“三角形”在初高中课本中共出现1779次,而术语“切点圆”则仅仅出现3次。毕竟教材中仅有少部分重要术语被反复使用,所以长尾特性会造成低频词的遗漏。
- 一些基础性术语如“面”“线”也被广泛地使用在其他领域,这会导致通用性高的术语会因为逆向文件频率而被误认为是领域无关的词语。
贡献:
- 提出DRTE。F1值达到82.7%,相比目前的方法提高了40.8% 。
- 通过利用术语的定义与关系的背景信息,避免了基础教育的长尾特性。即DRTE对术语的词频依赖很低。
- 针对因中文分词误差导致的长术语抽取困难现象,提出了迭代式的术语抽取方法。即DRTE避免因分词误差而带来的术语遗漏。
(综上三点其实就是一点:我们的DRTE很好,并解释都哪里好)
笔记目录: