规则法消解交集型歧义

最新推荐文章于 2021-10-29 23:12:42 发布

Zoohua

最新推荐文章于 2021-10-29 23:12:42 发布

阅读量1.4k

点赞数

分类专栏：中文信息处理文章标签： function 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zoohua/article/details/4691403

版权

中文信息处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

通过前人的不断研究和实验结果数据，我们可以得出下面的一些规则：

1.语料库中词频越高的越易于成词；

2.尽量不切分长词；

3.无论对真歧义还是假歧义，最准确的和最有意义的切分是依赖语境、上下文的切分；

4.逆向最大匹配优先；

5.链长大于2的交集型歧义字段的切分取决于第一个交集型歧义字段的切分；

基于这些规则，吉林大学几位老师提出了一种称为RemoveAmb的消解算法，算法的ADL描述如下：

算法 RemoveAmb（STR, len)

输入：歧义字段 STR，歧义字段链长 len

输出：用“/”分割的歧义字段消解结果 new sen

FUNCTION MULTY_1（STR)

{

AJB ← STR.

IF ( flag == FAlSE) THEN [应用规则 1] //极高频词优先

( // f(x)表示 x 在语料库中词频，设 f(AJ) ≥f(JB) ,

// f(AJ) < f(JB)的处理方法是相对应的

Fc ← ( f(AJ) – f(JB) ) / max( f(AJ), f(JB) ).

IF( fc ≥ α) THEN

//α 可以取0.98

New sen ← AJ/B. flag ← TRUE. RETURN.) )

IF( flag == FALSE) THEN [应用规则2] //长词优先

// size(x) 表示 x的长度

( IF( size(AJ/B) > size(JB) ) THEN

( new sen ← AJ/B. flag ← TRUE RETURN. )

ELSE IF ( size(AJ) < size(JB) ) THEN

(new sen ← A/JB. Flag ← TRUE. RETURN.) )

IF( flag == FALSE) THEN [应用规则3] //语境内词频比较

// t(x) 表示 x在语境中词频，γ可以取0.4

( IF( t(AJ) – t(JB) /max( t(AJ), t(JB) ) > γ) THEN

(new sen ← AJ/B. flag ← TRUE. RETURN. )

ELSE IF( ( t(JB) – t(AJ) ) /max( t(AJ), t(JB) ) > 0 ) THEN

(flag ← TRUE new sen ← A/JB. RETURN.) )

IF( flag == FALSE) THEN [应用规则1] //语料库高频词优先

( // f(x) 表示 x在语料库中词频，设 f(AJ) ≥ f(JB)

// f(AJ) < f(JB) 的处理方法是相对的

fc ←( f(AJ) – f(JB) ) /max( f(AJ), f(JB)).

IF( fc≥β) THEN

//β 可以取0.40

(new sen ← AJ/B. flag ← TRUE RETURN.) )

IF(flag == FALSE) THEN [应用规则4]

(new sen ← A/JB. RETURN. )

}

FUNCTION MULTY_5(STR) [应用规则5]

{

ABCDEFG = STR.

// RMM(BCDEFG)返回 BCDEFG的逆向最大匹配结果

IF(flag == FALSE && MULTY1(ABC) == A/BC) THEN RETURN（A/RMM(BCDEFG)）

IF( flag == FALSE && MULTY1(ABC) == AB/C THEN RETURN (AB/MULTY_3(CDEFG).

}

FUNCTION MAN()

{

Flag == FALSE

CASE DO

(len == 1):ETURN　MULTY_1(ABC).

(len == 3):ETURN　MULTY_3(ABC).

(len == 5):ETURN　MULTY_3(ABC).

}

)END RemoveAmb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。