自然语言处理在化工的应用

随着互联网的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务得到了发展,像百度、Google等综合性的搜索技术已经能够很好的满足一般用户的需求。对于搜索引擎来说,最重要的并不是找到所有结果,而是把最相关的结果排在前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果相关度排序,在英文的行文中,单词之间是空格,作为自然分界符的,而中文只是字、句和段都可以通过明显的分界符来简单划界,唯独词没有一个形式上分界符,所以当面对短语的划分问题时,在词这一层面上,中文比英文要复杂得多而且困难得多。中文分词技术属于自然语言处理技术范畴,是语义理解过程中最初的一个环节。它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当的提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
为满足特定专业科学研究的需要,开发针对特定专业的信息检索系统被提到了工作日程。对于化工专业来说,化工专家们需要能够通过网络来查找资料,化工企业需要通过网络来查找所需产品的信息,所有这些都涉及到化工信息资源,因此建立面向化工领域的专业搜索引擎就为必要。
信息检索是根据用户的查询要求从存有多达数百万份文档的文本数据库中搜索出相关的文档来。由于文本中的实词是信息的有效载体,一次以词或短语作为文档标引项或者检索项更合理。为了在保证查全率的同时提高查准率和检测速度,中文分词技术非常重要。
自80年代初中文信息处理领域提出了中文分词以来,一些实用性的分词系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响。
CDWS分词系统是我国第一个实用的中文自动分词系统,由北京航空航天大学计算机系于1983年设计实现,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。其分词速度为5-10字/秒,切分精度约为1/625,基本满足了词频统计和其他一些应用的需要,这是中文自动分词实践的首次尝试,具有很大的启发作用和理论意义。ABWS是山西大学计算机系研制的中文自动分词系统,系统使用的分词方法称为“两次扫描联想-回溯”方法,用联想-回溯来解决引起组合切分歧义。系统词库运用了较多的词法、句法等知识。其切分正确率为98.6%,运行速度为48词/分钟。书面中文自动分词专家系统是由北京师范大学现代教育研究所于1991年前后研制实现的,它首次将专家系统方法完整地引入到分词技术中。系统使知识库与推理机保持相对独立,知识库包括尝识性知识库和启发性知识库,词典使用首字索引数据结构。这个系统的一个重要理论意义是进一步研究清楚了歧义切分字段,即把歧义字段分为词法级、句法级、语义级和语用级,并且统计出它们的分布分别为84.1%、10.8%、3.4%和1.7%,还给出了每一种歧义的处理策略,从而比较彻底地剖析了中文歧义切分字段的性质,影响了众多后继系统的开发。
中文分词是进行中文自然语言处理的基础,到目前为止,已有的自动分词研究成果仍不能完全满足应用的需要,在一些关键问题上仍然值得继续探讨,如分词的规范性、切分歧义、未登录词识别、分词与理解的先后等。
到目前为止,化工领域中还没有一个比较好的专用的分词系统面世,希望能够在分词算法上有所改进,从而使中文分词系统能够在专业性、高效性、稳定性等方面取得突破。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值