知识工程作业2:知识工程相关领域介绍

自然语言处理

知识工程是源于专家系统建造而形成的一个研究领域,目前已经成为一个跨学科的综合学科。其主要研究领域有软计算、自然语言处理、逻辑与推理等[1]。本文主要聚焦自然语言处理领域进行相关介绍说明。
一、自然语言处理概述
自然语言处理简称NLP,它是一门融语言学、计算机科学、艺术学于一体的科学。因此,它与语言学的研究有着非常密切的联系,但又有重要的区别。自然语言处理的研究对象并不是日常中的自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分[2]。
目前,自然语言处理领域主要有如下几种经典的任务:词干提取、词形还原、词向量化、词性标注、命名实体消歧、命名主体识别、情感分析、文本语义相似分析和文本总结等。
二、词干提取
本文主要选取词干提取进行详细介绍。词干提取是将词语去除变化或衍生形式,将原词语转化为词干的过程[3]。(例如,英文中:“beautiful”和“beautifully”的词干同为“beauti”;“stemmer”、“stemming”和“stemmed”是基于词干“stem”。)
三、波特词干提取法
该任务的经典做法要属Martin Porter的波特词干算法。Porter 博士也因为其在词干提取和信息检索中的成就获得了2000年的托尼·肯特思奖。
在这里插入图片描述该做法首先需要我们定义一个含有用来存待词干提取单词的数组的类,然后才能开始进行算法的正式处理过程。算法的第一步是处理复数,以及“ed”和“ing”结尾的单词。第二步,查找是否有包含元音,并且以“y”结尾是单词;找到后将其“y”改为“i”。第三步是将双后缀的单词,比如preferential;将其映射为单后缀。第四步,处理“-ic”,“-full”,“-ness”等后缀。然后是在相应的情形下去掉词语末尾的“-ant”、“-ence”、“-e”等。最后,通过一个stem()方法得到词语转化得到的词干。

四、最新方法
自波特词干提取法问世后,一直有新的词干提取方法在不断问世,有基于波特词干提取法进行改进的方法[4];还其他有一些全新的更加智能的方法,比如n元语法分析的方法。该方法利用一个词的语境来提取正确的词干,这毫无疑问大大提高了实用性。

参考文献
[1]黄荣怀,李茂国,沙景荣,知识工程学:一个新的重要研究领域[E],电化教育研究,2004,(10):1-7
[2]李长云,王志兵,智能感知技术及在电气工程中的应用,电子科技大学出版社,2017.05,第163页)
[3]常见10种自然语言处理技术,2021年9月2日, https://blog.csdn.net/Harrytsz/article/details/120053267
[4] Widjaja M, Seng H. Implementation of Modified Porter Stemming Algorithm to Indonesian Word Error Detection Plugin Application[J]. Int J Hum Cult Stud, 2015, 6(2):139.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值