中文文本字符集分析过滤工具_字符集工具-CSDN博客

本文链接：https://blog.csdn.net/xmxoxo/article/details/102544975

介绍一款中文文本字符集分析过滤工具，能有效识别并过滤文本中的不可见字符，提升NLP领域的数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文文本字符集分析过滤工具

Tag: chatset 字符集过滤

困扰之缘起

凡是涉及到文本处理的童鞋都知道，文本数据拿到后最麻烦的就是处理。数据的来源有很多种，可能是网上采集的，也可能是数据库导出的。文本的内容上可能是用户注册的昵称，也可能是用户写的评论，总之是五花八门。在这些文本内容中，最讨厌的就是“不可见字符”，用记事本，用EditPlus,用NotePad++,各种工具…，一般都无法快速地找到识别，只有HEX编辑类工具才有可能“看”得到。我曾经处理一个数据集，由于几个不可见字符，导致模型无法训练，光用二分法定位这些字符就花了一整天的时间。

搞烦了好多次了，就在想用什么方法可能快速、方便地处理呢？于是想做一个关于“字符集分析及过滤的工具”，就有了这个小工具。

关于字符集分析过滤工具

我查找了有关UTF8字符集的资料，其实字符集存放是有一定规律的，当然这里就涉及到什么标准啊之类的很多内容，这里不详细展开。如果能够把各类的字符归一下类，那么就能够把这些不可见的字符找出来了。这里把UTF8字符集分成了40类。

其中有几类要特别说明一下：

0号类：尚未识别除了其它标识出来的范围之外的字符。也就是基本可认为是不可见的没用的字符了。
1号类：系统字符包括换行，制表，回车等
2号类：英文半角包含数字，字母，符号，空格等

其它更详细的请见后文中的清单

概要说明

UTF-8字符集分析过滤工具 CharsetFilter
版本: V 1.0.1
更新：xmxoxo 2019/10/14

项目代码GitHub地址： https://github.com/xmxoxo/CharsetFilter

工具说明：本工具把UTF8字符集分成了40个子集，可对文本文件中的字符集进行分析，
统计各类字符的总数以及出现的种类数。同时还可以方便地过滤或者保留的字符，
特别适合NLP等领域中对不可见字符的过滤分析等处理。

注: 被分析的文本文件需要是UTF8格式

使用案例说明：

分析文本字符集，输出简要信息

python CharsetFilter.py --file ./111.txt

分析文本字符集，输出详细信息，详细信息会保存到 xxx_report.txt 文件中

python CharsetFilter.py --file ./111.txt --detail 1

分析文本字符集，按默认值过滤(过滤 “尚未识别 0”, “控制字符 3”)，并保存过滤结果(自动命名)

python CharsetFilter.py --file ./111.txt --filter 1

分析文本字符集，仅保留 1,2,36,39，并保存过滤结果(自动命名为 xxx_out.txt)

python CharsetFilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39

使用截图

以下是使用的一些截图：

字符集分析结果截图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xocoLjU9-1571024581088)(https://github.com/xmxoxo/CharsetFilter/blob/master/0.jpg?raw=true)]
在这里插入图片描述

字符集分析详细结果输出文件截图（部分）:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qA9S04tp-1571024581089)(https://github.com/xmxoxo/CharsetFilter/blob/master/1.jpg?raw=true)]

在这里插入图片描述

字符集清单

'尚未识别',  #0 除以下标识的范围之外的字符，基本可认为是没有用的字符
'系统字符',  #1 包括换行，制表，回车等
'英文半角',  #2 包含数字，字母，符号，空格
'控制字符',  #3 可删除，会影响文本处理
'扩展半角',  #4 一些半角符号
'韩文字符',  #5
'傣文字符',  #6
'新傣文字',  #7
'标点字符',  #8
'上标下标',  #9
'字母符号',  #10
'数字符号',  #11 
'箭头字符',  #12
'数学符号',  #13 全角数学符号
'工程符号',  #14
'控制图符',  #15
'识别符号',  #16
'序号字符',  #17 带圆圈的序号字符
'制表字符',  #18
'方块元素',  #19
'杂项符号',  #20
'装饰符号',  #21
'盲文符号',  #22
'部首补充',  #23
'康熙部首',  #24
'汉字结构',  #26
'标点符号',  #27
'日文字符',  #28
'韩文字母',  #29
'笔划字符',  #30
'日文拼音',  #31
'带框月份',  #32
'日期单位',  #33
'扩展汉字',  #34
'易经字符',  #35 
'基础汉字',  #36 基本汉字
'彝文字符',  #37
'韩文字符',  #38
'全角字符',  #39 全角的标点符号