英文单词词干提取算法

最新推荐文章于 2024-07-19 13:59:11 发布

candice廷

最新推荐文章于 2024-07-19 13:59:11 发布

阅读量2.5k

点赞数

分类专栏：推荐系统&机器学习文章标签：算法

推荐系统&机器学习专栏收录该内容

33 篇文章 3 订阅

订阅专栏

http://www.cnblogs.com/xiaoxiangfeizi/archive/2011/12/30/2307810.html

Lucene里面的分词器里面有一个PorterStemFilter类，里就用到了著名的词干提取算法。所谓Stemming，就是词干，在英语中单词有多种变形。比如单复数加s，进行时加ing等等。在分词的时候，如果能够把这些变形单词的词根找出了，对搜索结果是很有帮助的。Stemming算法有很多了，三大主流算法是Porter stemming algorithm、Lovins stemming algorithm、Lancaster (Paice/Husk) stemming algorithm，还有一些改进的或其它的算法。这个PorterStemFilter里面调用的一个PorterStemmer就是Porter Stemming algorithm的一个实现。其主页为http://tartarus.org/~martin/PorterStemmer/，也可查看其论文http://tartarus.org/~martin/PorterStemmer/def.txt。通过以下网页可以进行简单的测试：Porter's Stemming Algorithm Online[http://facweb.cs.depaul.edu/mobasher/classes/csc575/porter.html]。

网上找了好久，才找到一个对此算法解释的文章，它用的是Java版的代码，这里我改成用.net版的。主要是把里面的函数作了一下注释，个人没做什么分析，本身是想的，结果看着就头痛。下面的东西都是来自这篇博文波特词干算法，我只是把这里的代码改成了.net的。

接下来，是一系列工具函数。首先先介绍一下它们：

cons(i)：参数i：int型；返回值bool型。当i为辅音时，返回真；否则为假。

 
  /// <summary> 
  /// cons(i) 为真 <=> b[i] 是一个辅音  
  /// </summary> 
  private bool cons(int i) 
  { 
      switch (b[i]) 
      { 
          case 'a': 
          case 'e': 
          case 'i': 
          case 'o': 
          case 'u': 
              return false; 
          case 'y': 
              return (i == k0) ? true : !cons(i - 1);//y开头，为辅；否则看i-1位，如果i-1位为辅，y为元，反之亦然。  
          default: 
              return true; 
      } 
  } 
 

m()：返回值：int型。表示单词b介于0和j之间辅音序列的个度。现假设c代表辅音序列，而v代表元音序列。<..>表示任意存在。于是有如下定义；
- <c><v> 结果为 0
- <c>vc<v> 结果为 1
- <c>vcvc<v> 结果为 2
- <c>vcvcvc<v> 结果为 3
- ....

 
  /// <summary> 
  /// m() 用来计算在0和j之间辅音序列的个数 
  /// </summary> 
  /// <returns></returns> 
  private int m() 
  { 
      int n = 0;//辅音序列的个数，初始化  
      int i = k0;//偏移量  
      while (true) 
      { 
          if (i > j)//如果超出最大偏移量，直接返回n  
              return n; 
          if (!cons(i))//如果是元音，中断  
              break; 
          i++;//辅音移一位，直到元音的位置  
      } 
      i++;//移完辅音，从元音的第一个字符开始  
      while (true)//循环计算vc的个数  
      { 
          while (true)//循环判断v  
          { 
              if (i > j) 
                  return n; 
              if (cons(i)) 
                  break;//出现辅音则终止循环  
              i++; 
          } 
          i++; 
          n++; 
          while (true)//循环判断c  
          { 
              if (i > j) 
                  return n; 
              if (!cons(i)) 
                  break; 
              i++; 
          } 
          i++; 
      } 
  } 
 

vowelinstem()：返回值：bool型。从名字就可以看得出来，表示单词b介于0到i之间是否存在元音。

 
  /// <summary> 
  ///  vowelinstem() 为真 <=> 0,...j 包含一个元音  
  /// </summary> 
  /// <returns>[To be supplied.]</returns> 
  private bool vowelinstem() 
  { 
      int i; 
      for (i = k0; i <= j; i++) 
          if (!cons(i)) 
              return true; 
      return false; 
  } 
 

doublec(j)：参数j：int型；返回值bool型。这个函数用来表示在j和j-1位置上的两个字符是否是相同的辅音。

 
  /// <summary> 
  ///  doublec(j) 为真 <=> j,(j-1) 包含两个一样的辅音  
  /// </summary> 
  /// <param name="j"></param> 
  /// <returns></returns> 
  private bool doublec(int j) 
  { 
      if (j < k0 + 1) 
          return false; 
      if (b[j] != b[j - 1]) 
          return false; 
      return cons(j); 
  } 
 

cvc(i)：参数i：int型；返回值bool型。对于i，i-1，i-2位置上的字符，它们是“辅音-元音-辅音”的形式，并且对于第二个辅音，它不能为w、x、y中的一个。这个函数用来处理以e结尾的短单词。比如说cav(e)，lov(e)，hop(e)，crim(e)。但是像snow，box，tray就辅符合条件。

 
  /* cvc(i) is 为真 <=> i-2,i-1,i  
   * 有形式： 辅音 - 元音 - 辅音    
   * 并且第二个c不是 w,x 或者 y.  
   * 这个用来处理以e结尾的短单词。 
   * e.g.      cav(e), lov(e), hop(e), crim(e),  
   * 但不是    snow, box, tray.   */ 
  private bool cvc(int i) 
  { 
      if (i < k0 + 2 || !cons(i) || cons(i - 1) || !cons(i - 2)) 
          return false; 
      else 
      { 
          int ch = b[i]; 
          if (ch == 'w' || ch == 'x' || ch == 'y') return false; 
      } 
      return true; 
  } 
 

ends(s)：参数：String；返回值：bool型。顾名思义，判断b是否以s结尾。

 
  private bool ends(string s) 
  { 
      int l = s.Length; 
      int o = k - l + 1; 
      if (o < k0) 
          return false; 
      for (int i = 0; i < l; i++) 
          if (b[o + i] != s[i]) 
              return false; 
      j = k - l; 
      return true; 
  } 
 

setto(s)：参数：String；void类型。把b在(j+1)...k位置上的字符设为s，同时，调整k的大小。

 
  // setto(s) 设置 (j+1),...k 到s字符串上的字符, 并且调整k值  
   void setto(string s) 
   { 
       int l = s.Length; 
       int o = j + 1; 
       for (int i = 0; i < l; i++) 
           b[o + i] = s[i]; 
       k = j + l; 
       dirty = true; 
   } 
 

r(s)：参数：String；void类型。在m()>0的情况下，调用setto(s)。

 
  void r(string s) { if (m() > 0) setto(s); } 
 

接下来，就是分六步来进行处理的过程。

第一步，处理复数，以及ed和ing结束的单词。

 
  private void step1() 
  { 
      if (b[k] == 's') 
      { 
          if (ends("sses")) k -= 2;//以“sses结尾”  
          else if (ends("ies")) setto("i");//以ies结尾，置为i  
          else if (b[k - 1] != 's') k--;//两个s结尾不处理  
      } 
      if (ends("eed"))//以“eed”结尾，当m>0时，左移一位  
      { 
          if (m() > 0) 
              k--; 
      } 
      else if ((ends("ed") || ends("ing")) && vowelinstem()) 
      { 
          k = j; 
          if (ends("at")) setto("ate"); 
          else if (ends("bl")) setto("ble"); 
          else if (ends("iz")) setto("ize"); 
          else if (doublec(k))//如果有两个相同辅音  
          { 
              int ch = b[k--]; 
              if (ch == 'l' || ch == 's' || ch == 'z') 
                  k++; 
          } 
          else if (m() == 1 && cvc(k)) 
              setto("e"); 
      } 
  } 
 

第二步，如果单词中包含元音，并且以y结尾，将y改为i。代码很简单：

 
  //如果单词中包含元音，并且以y结尾，将y改为i 
   private void step2() 
   { 
       if (ends("y") && vowelinstem()) 
       { 
           b[k] = 'i'; 
           dirty = true; 
       } 
   } 
 

第三步，将双后缀的单词映射为单后缀。

 
  /* step3() 将双后缀的单词映射为单后缀。  
   * 所以 -ization ( = -ize 加上    -ation) 被映射到 -ize 等等。 
   * 注意在去除后缀之前必须确保    m() > 0. */ 
  private void step3() 
  { 
      if (k == k0) return; /* For Bug 1 */ 
      switch (b[k - 1]) 
      { 
          case 'a': 
              if (ends("ational")) { r("ate"); break; } 
              if (ends("tional")) { r("tion"); break; } 
              break; 
          case 'c': 
              if (ends("enci")) { r("ence"); break; } 
              if (ends("anci")) { r("ance"); break; } 
              break; 
          case 'e': 
              if (ends("izer")) { r("ize"); break; } 
              break; 
          case 'l': 
              if (ends("bli")) { r("ble"); break; } 
              if (ends("alli")) { r("al"); break; } 
              if (ends("entli")) { r("ent"); break; } 
              if (ends("eli")) { r("e"); break; } 
              if (ends("ousli")) { r("ous"); break; } 
              break; 
          case 'o': 
              if (ends("ization")) { r("ize"); break; } 
              if (ends("ation")) { r("ate"); break; } 
              if (ends("ator")) { r("ate"); break; } 
              break; 
          case 's': 
              if (ends("alism")) { r("al"); break; } 
              if (ends("iveness")) { r("ive"); break; } 
              if (ends("fulness")) { r("ful"); break; } 
              if (ends("ousness")) { r("ous"); break; } 
              break; 
          case 't': 
              if (ends("aliti")) { r("al"); break; } 
              if (ends("iviti")) { r("ive"); break; } 
              if (ends("biliti")) { r("ble"); break; } 
              break; 
          case 'g': 
              if (ends("logi")) { r("log"); break; } 
              break; 
      } 
  } 
 

第四步，处理-ic-，-full，-ness等等后缀。和步骤3有着类似的处理。

 
  /* step4() deals with -ic-, -full, -ness etc. similar strategy to step3. */ 
  //处理-ic-，-full，-ness等等后缀。和步骤3有着类似的处理。 
  private void step4() 
  { 
      switch (b[k]) 
      { 
          case 'e': 
              if (ends("icate")) { r("ic"); break; } 
              if (ends("ative")) { r(""); break; } 
              if (ends("alize")) { r("al"); break; } 
              break; 
          case 'i': 
              if (ends("iciti")) { r("ic"); break; } 
              break; 
          case 'l': 
              if (ends("ical")) { r("ic"); break; } 
              if (ends("ful")) { r(""); break; } 
              break; 
          case 's': 
              if (ends("ness")) { r(""); break; } 
              break; 
      } 
  } 
 

第五步，在<c>vcvc<v>情形下，去除-ant，-ence等后缀。

 
  //step5() takes off -ant, -ence etc., in context <c>vcvc<v>.  
  //在<c>vcvc<v>情形下，去除-ant，-ence等后缀。 
  private void step5() 
  { 
      if (k == k0) return; /* for Bug 1 */ 
      switch (b[k - 1]) 
      { 
          case 'a': 
              if (ends("al")) break; 
              return; 
          case 'c': 
              if (ends("ance")) break; 
              if (ends("ence")) break; 
              return; 
          case 'e': 
              if (ends("er")) break; return; 
          case 'i': 
              if (ends("ic")) break; return; 
          case 'l': 
              if (ends("able")) break; 
              if (ends("ible")) break; return; 
          case 'n': 
              if (ends("ant")) break; 
              if (ends("ement")) break; 
              if (ends("ment")) break; 
              /* element etc. not stripped before the m */ 
              if (ends("ent")) break; 
              return; 
          case 'o': 
              if (ends("ion") && j >= 0 && (b[j] == 's' || b[j] == 't')) break; 
              /* j >= 0 fixes Bug 2 */ 
              if (ends("ou")) break; 
              return; 
          /* takes care of -ous */ 
          case 's': 
              if (ends("ism")) break; 
              return; 
          case 't': 
              if (ends("ate")) break; 
              if (ends("iti")) break; 
              return; 
          case 'u': 
              if (ends("ous")) break; 
              return; 
          case 'v': 
              if (ends("ive")) break; 
              return; 
          case 'z': 
              if (ends("ize")) break; 
              return; 
          default: 
              return; 
      } 
      if (m() > 1) 
          k = j; 
  } 
 

第六步，也就是最后一步，在m()>1的情况下，移除末尾的“e”。

 
  // step6() removes a final -e if m() > 1.  
  //也就是最后一步，在m()>1的情况下，移除末尾的“e”。 
  private void step6() 
  { 
      j = k; 
      if (b[k] == 'e') 
      { 
          int a = m(); 
          if (a > 1 || a == 1 && !cvc(k - 1)) 
              k--; 
      } 
      if (b[k] == 'l' && doublec(k) && m() > 1) 
          k--; 
  } 
 

在了解了步骤之后，我们写一个stem()方法，来完成得到词干的工作。

 
  public bool stem(int i0) 
  { 
      k = i - 1; 
      k0 = i0; 
      if (k > k0 + 1) 
      { 
          step1(); step2(); step3(); step4(); step5(); step6(); 
      } 
      // Also, a word is considered dirty if we lopped off letters 
      // Thanks to Ifigenia Vairelles for pointing this out. 
      if (i != k + 1) 
          dirty = true; 
      i = k + 1; 
      return dirty; 
  } 
 

最后要提醒的就是，传入的单词必须是小写。关于Porter Stemmer的实现就是这些.

需要测试数据这里是样本文件。而相应的输出文件在这里。更多内容请参考官方网站。

另外，波特词干算法有第二个版本，它的处理结果要比文中所介绍的算法准确度高，但是，相应地也就更复杂，消耗的时间也就更多。本文就不作解释，详细参考官方网站The Porter2 stemming algorithm。

这里有一个关于此算法的应用:WordCloud - A Squarified Treemap of Word Frequency

以上的解释转自前面所说的博客,你可以在本文最后的参考资料中找到链接.

这是整个PorterStemmer类的代码：

参考资料：

1.Porter stemming algorithm

2.波特词干算法

3.Lucene源码及自带的注释

candice廷

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
英文单词词干提取算法

Lucene里面的分词器里面有一个PorterStemFilter类，里就用到了著名的词干提取算法。所谓Stemming，就是词干，在英语中单词有多种变形。比如单复数加s，进行时加ing等等。在分词的时候，如果能够把这些变形单词的词根找出了，对搜索结果是很有帮助的。Stemming算法有很多了，三大主流算法是Porter stemming algorithm、Lovins stemming a
复制链接

扫一扫