基于词表和N-gram算法的新词识别实验

曹  艳  杜慧平  刘  竟  侯汉清(南京农业大学信息管理系  210095)摘  要  目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典
摘要由CSDN通过智能技术生成

曹  艳  杜慧平  刘  竟  侯汉清

(南京农业大学信息管理系  210095)

摘  要  目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。

关键词  N-gram算法  未登录词  新词识别  停用词典  过滤词典

 

1 引言

随着社会的飞速发展,大量新词语不断涌现。其中,有中文人名、地名、产品名、机构名、外国译名、时间词等专有名词,“一次性用品”等派生词,“八荣八耻”、“买单”、 “秀”、“APEC”等简称、方言词语、行业用词、音译词、外来字母词、港台用词及其他与领域相关的术语,这些词语为未登录词或新词。

目前,大多数检索系统都是基于模式匹配的,这都需要多个词典作为匹配规则库,所以词典的规模和更新完善情况在很大程度上影响标引和检索的质量。汉语分词是中文信息处理的基础,在汉语分词方法里,简单的模式匹配算法、基于规则的方法和基于统计的方法,大部分都需要利用词典进行匹配,但这些词典覆盖率有限,而且对具体的应用领域变化的适应性较差,所以要及时补充新词、更新词典。另外,语法分析、主题词表的更新、自动标引和自动分类中分类知识库的完善都需要及时发现新词,这些仅靠人工识别无论在速度上、时间上还是在数量上都是远远不够的,因此需要计算机自动去发现新词。

国内现阶段对未登录词的研究主要集中在专有名词识别上,如利用隐马尔可夫模型(如HMM Tool)、角色定义、语料库训练等1方法识别中外人名和地名,一般都利用对语料库的学习,提出专用字的规律和统计数据进行未登录词的识别。但是在真实文本中,非专名的未登录词占了相当大的比例2。在非专名问题上,中科院计算所3利用大规模网页作为语料库进行重复串查找,在建立的背景词串集合基础上,通过评价函数、过滤规则库处理得到新词。刘建舟、何婷婷等4提出一种定期从网络上自动下载HTML页面组成动态语料库,采用统计的方法,并改进两个传统参数(互信息和log-likelihood ratio)进行新词识别。这些方法大部分是基于Web的,虽然能够及时发现数量比较多的新词,但也存在诸多不足之处,第一,web上内容的真实性本身就是一个值得讨论的问题,重复的网页比较多(为了提高排名,人为重复引用);第二,web页面内容(包括文本、图片等)用词没有经过规范,随意性非常大,这些严重影响着提取出的新词质量;三是都用到了传统的或改进的互信息和log-likelihood ratio两个参数或设定权值进行词加权处理,计算量比较大而且复杂;第四,要求大规模网页作为语料库,对全文文本进行切分工作量非常庞大,处理时间长,很难付诸实际应用。

本文主要从信息检索的角度,提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名新词的识别方法。

2 N-gram算法识别新词的设计思路

2.1  训练文本的选择

本文使用的数据源是上海图书馆全国报刊索引数据库收录的2004-2006年期刊论文MARC记录,从中选择经济大类的1000条数据作为第一轮测试文本。主要是因为期刊品种多,内容丰富,发行快、流通面广,连续性也强5,伴随着期刊的发行,必出现大量的新词;同时,期刊论文内容成熟可靠,格式也比较规范,通常作者会随文给出摘要、关键词、分类号、文献标识号等,所以被学术界视为权威性的知识来源,从中提取的新词具有可靠性和稳定性,经常被用于词典编纂、汉语分词、语法分析、自动标引和信息检索等方面。

本文没有选择期刊全文作为训练文本,主要是考虑到N元切分本身时间复杂度就很高,全文切分工作量太大,处理时间太长。而一篇完整的论文都随文提供题名、摘要。摘要是以提供文献内容梗概为目的,拥有与文献同等量的主要信息。张琪玉6认为,如果从针对文献整体的检准率的角度看,文献题名中的词最有效,依次为文献中的小标题和章节名、文献摘要、文献正文中的词;文献摘要对文献整体而言,检索效率大致与文献中的小

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值