NLP实验五:形态分析

一、 实验目的

  1. 掌握限自动机的状态转移过程
  2. 学会编写程序完成对单词的形态分析

二、 实验内容

请实现以下有限自动机的状态转移过程,通过它的状态转移过程可以识别happy的原型, 比较级happier, 最高级happiest,可以将单词的比较级和最高级转换为“原型+后缀”的形式,进行单词形态的还原,其中为输入输出标签对,即输入i不仅进行状态转移,同时会输出y,可以理解为把i转换为y,另外ε为空输入,即不需要输入,可以输出+,可以理解为这一步转移不需要识别字符,直接输出+。状态转移过程需要自己实现。

图1 happy的状态转移过程

三、 实验环境

操作系统:macOS Monterey 12.4
IDE:CLion 语言:C++

四、 解析

nextStates记录了一个状态的后继所有状态,output储存了状态转移的输出,start储存了
初始状态Q。
 
图2  全局变量

在Init函数中构建了对应的确定的有限自动机。
 
图3  构建DFA



图4的代码根据输入的单词和先前构建的DFA,计算了状态转移过程,并输出,实现了形态分析的功能。
 
图4  计算并输出形态分析结果
五、	结果展示
程序运行结果如下图:
 
图5  实验结果展示
形容词的比较级和最高级:
输入happier,输出happier-->happy+er
输入happiest,输出happiest-->happy+est
输入easier,输出easier-->easy+er
输入easiest,输出easiest-->easy+est
结果正确。

ed结尾的过去时:
输入studied,输出studied-->study+ed
结果正确。

ing结尾的现在分词:
输入developing,输出developing-->develop+ing
结果正确。

ly结尾的副词:
输入hardly,输出hardly-->hard+ly
结果正确。

代码

#include <iostream>
#include <vector>
#include <cstring>
#include <map>
#include <set>
using namespace std;
map<char, vector<char>> nextStates; //给定一个状态,后继所有状态
map<pair<char,char>,string> output;//状态转换的输;
set<char> start;
void init(){
    start.insert('i');
    start.insert('e');
    start.insert('l');

    nextStates['i']= (vector<char>){'e','n'};
    output[(pair<char,char>){'i','e'}]= "y+";
    output[(pair<char,char>){'i','n'}]= "+i";

    nextStates['l']= (vector<char>){'y'};
    output[(pair<char,char>){'l','y'}]= "+ly";

    nextStates['n']= (vector<char>){'g'};
    output[(pair<char,char>){'n','g'}]= "ng";

    nextStates['e']= (vector<char>){'r','s','d'};
    output[(pair<char,char>){'e','r'}]= "er";
    output[(pair<char,char>){'e','s'}]= "es";
    output[(pair<char,char>){'e','d'}]= "ed";

    nextStates['s']= (vector<char>){'t'};
    output[(pair<char,char>){'s','t'}]= "t";
}
string str;
int n=9;
int main() {
    init();
    while(n--){
        char pre=0;
        printf("input:   ");
        cin>>str;
        cout<<"output:  "<<str<<"-->";
        for(char c:str){
            if(pre!=0){
                vector<char> tp=nextStates[pre];
                for(char nx:tp){
                    if(nx == c){
                        cout<<output[(pair<char,char>){pre,c}];
                        pre=c;
                        break;
                    }
                }
                if(pre!=c) cout<<pre<<c,pre=0;
            }else if(pre==0&&start.count(c)&&str[0]!=c){
                pre=c;
            }else{
                cout<<c;
            }
        }
        cout<<endl;
    }
    return 0;
}
//happy
//happier
//happiest
//easy
//easier
//easiest
//studied
//developing
//hardly
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值