接[搜索]波特词干(Porter Streamming)提取算法详解(1),
http://blog.csdn.net/zhanghaiyang9999/article/details/41624007
条件也包含下面一些规则:
*S -词干以S结束 (同样适用于其他字符).
*v* - 词干包含一个元音.
*d - 词干以两个相同辅音结束(如. -TT, -SS).
*o - 词干以cvc的形式结束, 但是第二个c(辅音)不是 W, X 或者Y (如 -WIL, -HOP).
这些条件可以用AND,OR和NOT来运算,如:
(m>1 and (*S or *T))
表示判断词干m>a并且以S或T结束。
再看看 下面的这一组规则
SSES -> SS
IES -> I
SS -> SS
S ->
但是只有一个会被用到,就是最长匹配的那个,例如:
CARESSES会被替换成 CARESS ,因为SSES->SS是最长的匹配。