中文文本字符集分析过滤工具
Tag: chatset 字符集 过滤
困扰之缘起
凡是涉及到文本处理的童鞋都知道,文本数据拿到后最麻烦的就是处理。数据的来源有很多种,可能是网上采集的,也可能是数据库导出的。文本的内容上可能是用户注册的昵称,也可能是用户写的评论,总之是五花八门。 在这些文本内容中,最讨厌的就是“不可见字符”,用记事本,用EditPlus,用NotePad++,各种工具…,一般都无法快速地找到识别,只有HEX编辑类工具才有可能“看”得到。我曾经处理一个数据集,由于几个不可见字符,导致模型无法训练,光用二分法定位这些字符就花了一整天的时间。
搞烦了好多次了,就在想用什么方法可能快速、方便地处理呢?于是想做一个关于“字符集分析及过滤的工具”,就有了这个小工具。
关于字符集分析过滤工具
我查找了有关UTF8字符集的资料,其实字符集存放是有一定规律的,当然这里就涉及到什么标准啊之类的很多内容,这里不详细展开。 如果能够把各类的字符归一下类,那么就能够把这些不可见的字符找出来了。这里把UTF8字符集分成了40类。
其中有几类要特别说明一下:
-
0号类:尚未识别 除了其它标识出来的范围之外的字符。也就是基本可认为是不可见的没用的字符了。
-
1号类:系统字符 包括换行,制表,回车等
-
2号类:英文半角 包含数字,字母,符号,空格等
其它更详细的请见后文中的清单
概要说明
UTF-8字符集分析过滤工具 CharsetFilter
版本: V 1.0.1
更新:xmxoxo 2019/10/14
项目代码GitHub地址: https://github.com/xmxoxo/CharsetFilter
工具说明:本工具把UTF8字符集分成了40个子集,可对文本文件中的字符集进行分析,
统计各类字符的总数以及出现的种类数。同时还可以方便地过滤或者保留的字符,
特别适合NLP等领域中对不可见字符的过滤分析等处理。
注: 被分析的文本文件需要是UTF8格式
使用案例说明:
分析文本字符集,输出简要信息
python CharsetFilter.py --file ./111.txt
分析文本字符集,输出详细信息,详细信息会保存到 xxx_report.txt 文件中
python CharsetFilter.py --file ./111.txt --detail 1
分析文本字符集,按默认值过滤(过滤 “尚未识别 0”, “控制字符 3”),并保存过滤结果(自动命名)
python CharsetFilter.py --file ./111.txt --filter 1
分析文本字符集,仅保留 1,2,36,39,并保存过滤结果(自动命名为 xxx_out.txt)
python CharsetFilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39
使用截图
以下是使用的一些截图:
字符集分析结果截图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xocoLjU9-1571024581088)(https://github.com/xmxoxo/CharsetFilter/blob/master/0.jpg?raw=true)]
字符集分析详细结果输出文件截图(部分):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qA9S04tp-1571024581089)(https://github.com/xmxoxo/CharsetFilter/blob/master/1.jpg?raw=true)]
字符集清单
'尚未识别', #0 除以下标识的范围之外的字符,基本可认为是没有用的字符
'系统字符', #1 包括换行,制表,回车等
'英文半角', #2 包含数字,字母,符号,空格
'控制字符', #3 可删除,会影响文本处理
'扩展半角', #4 一些半角符号
'韩文字符', #5
'傣文字符', #6
'新傣文字', #7
'标点字符', #8
'上标下标', #9
'字母符号', #10
'数字符号', #11
'箭头字符', #12
'数学符号', #13 全角数学符号
'工程符号', #14
'控制图符', #15
'识别符号', #16
'序号字符', #17 带圆圈的序号字符
'制表字符', #18
'方块元素', #19
'杂项符号', #20
'装饰符号', #21
'盲文符号', #22
'部首补充', #23
'康熙部首', #24
'汉字结构', #26
'标点符号', #27
'日文字符', #28
'韩文字母', #29
'笔划字符', #30
'日文拼音', #31
'带框月份', #32
'日期单位', #33
'扩展汉字', #34
'易经字符', #35
'基础汉字', #36 基本汉字
'彝文字符', #37
'韩文字符', #38
'全角字符', #39 全角的标点符号