高性能的敏感词过滤算法 可以忽略大小写、全半角、简繁体、特殊符号干扰 (二)
改进主要有几点: 用BitArray取代Dictionary用空间换时间 性能进一步提升 大概会增加词库的 6k*字符数的内存开销 按1000个词库平均长度为4 30MB左右。
增加防HTML标签的过滤干扰、特殊符号突破ASIIC范围。
添加一个极限优化的unsafe类FilterKeyWordsFast 用指针取代原有的char[]数组 性能大概提高2-3倍左右。目测已优化到极致了。
转载
2015-07-28 14:38:47 ·
4222 阅读 ·
0 评论