敏感词过滤算法

最新推荐文章于 2024-01-18 19:29:56 发布

Residual Mark

最新推荐文章于 2024-01-18 19:29:56 发布

阅读量1k

点赞数

分类专栏： algorithm python

本文链接：https://blog.csdn.net/weixin_43933475/article/details/89892704

版权

一：需求

基于网站中用户进行输入的地方恶意使用敏感词等，在用户输入之后进行敏感词屏蔽，相比于网络上的大多数算法，DFA算法属于效率比较高的一种，以下是具体实现。

二：实现

（1）：目录结构

[root@rainsty DirtyWordOfFilter]# ll
total 20
-rw-r--r-- 1 root root 1398 Apr 20 21:39 api.py
-rw-r--r-- 1 root root   45 Apr 20 21:39 __init__.py
drwxr-xr-x 2 root root 4096 Apr 22 22:47 __pycache__
drwxr-xr-x 2 root root 4096 Apr 20 21:39 static
-rw-r--r-- 1 root root  220 Apr 20 21:39 __version__.py
[root@rainsty DirtyWordOfFilter]#

（2）：词库

将需要过滤的词，做成json文件，利用python的dict数据结构，实现快速查询。
实例如下：WordLibrary.json
{
    "一":{
        "夜":{
            "情":{
                "\u0000":0
            },
            "欢":{
                "\u0000":0
            }
        },
        "本":{