规则法消解交集型歧义

    通过前人的不断研究和实验结果数据,我们可以得出下面的一些规则:

    1.语料库中词频越高的越易于成词;

    2.尽量不切分长词;

    3.无论对真歧义还是假歧义,最准确的和最有意义的切分是依赖语境、上下文的切分;

    4.逆向最大匹配优先;

    5.链长大于2的交集型歧义字段的切分取决于第一个交集型歧义字段的切分;

 

基于这些规则,吉林大学几位老师提出了一种称为RemoveAmb的消解算法,算法的ADL描述如下:

 

算法 RemoveAmb(STR, len)

输入:歧义字段 STR,歧义字段链长 len

输出:用“/”分割的歧义字段消解结果 new sen

FUNCTION MULTY_1STR)

{

     AJB STR.

IF ( flag == FAlSE) THEN [应用规则 1] //极高频词优先

   ( // f(x)表示 x 在语料库中词频, f(AJ) ≥f(JB) ,

    // f(AJ) < f(JB)的处理方法是相对应的

    Fc ( f(AJ) – f(JB) ) / max( f(AJ), f(JB) ).

   IF( fc ≥ α) THEN

    //α 可以取0.98

    New sen AJ/B. flag TRUE. RETURN.) )

IF( flag == FALSE) THEN [应用规则2] //长词优先

   // size(x) 表示 x的长度

  ( IF( size(AJ/B) > size(JB) ) THEN

  ( new sen AJ/B. flag TRUE RETURN. )

  ELSE IF ( size(AJ) < size(JB) ) THEN

  (new sen A/JB. Flag TRUE. RETURN.) )

IF( flag == FALSE) THEN [应用规则3] //语境内词频比较

  // t(x) 表示 x在语境中词频,γ可以取0.4

  ( IF( t(AJ) – t(JB) /max( t(AJ), t(JB) ) > γ) THEN

  (new sen AJ/B. flag TRUE. RETURN. )

   ELSE IF( ( t(JB) – t(AJ) ) /max( t(AJ), t(JB) ) > 0 ) THEN

   (flag TRUE new sen A/JB. RETURN.) )

IF( flag == FALSE) THEN [应用规则1] //语料库高频词优先

  ( // f(x) 表示 x在语料库中词频,设 f(AJ) ≥ f(JB)

   // f(AJ) < f(JB) 的处理方法是相对的

   fc ←( f(AJ) – f(JB) ) /max( f(AJ), f(JB)).

   IF( fc≥β) THEN

   //β 可以取0.40

   (new sen ← AJ/B. flag ← TRUE RETURN.) )

IF(flag == FALSE) THEN [应用规则4]

   (new sen ← A/JB. RETURN. )

}

 

FUNCTION MULTY_5(STR) [应用规则5]

{

ABCDEFG = STR.

// RMM(BCDEFG)返回 BCDEFG的逆向最大匹配结果

IF(flag == FALSE && MULTY1(ABC) == A/BC) THEN RETURNA/RMM(BCDEFG)

IF( flag == FALSE && MULTY1(ABC) == AB/C THEN RETURN (AB/MULTY_3(CDEFG).

 }

 

FUNCTION MAN()

{

   Flag == FALSE

   CASE DO

   (len == 1):ETURN MULTY_1(ABC).

   (len == 3):ETURN MULTY_3(ABC).

   (len == 5):ETURN MULTY_3(ABC).

}

)END RemoveAmb

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值