中文文本字符集分析过滤工具

6 篇文章 0 订阅

中文文本字符集分析过滤工具

Tag: chatset 字符集 过滤

困扰之缘起

凡是涉及到文本处理的童鞋都知道,文本数据拿到后最麻烦的就是处理。数据的来源有很多种,可能是网上采集的,也可能是数据库导出的。文本的内容上可能是用户注册的昵称,也可能是用户写的评论,总之是五花八门。 在这些文本内容中,最讨厌的就是“不可见字符”,用记事本,用EditPlus,用NotePad++,各种工具…,一般都无法快速地找到识别,只有HEX编辑类工具才有可能“看”得到。我曾经处理一个数据集,由于几个不可见字符,导致模型无法训练,光用二分法定位这些字符就花了一整天的时间。

搞烦了好多次了,就在想用什么方法可能快速、方便地处理呢?于是想做一个关于“字符集分析及过滤的工具”,就有了这个小工具。

关于字符集分析过滤工具

我查找了有关UTF8字符集的资料,其实字符集存放是有一定规律的,当然这里就涉及到什么标准啊之类的很多内容,这里不详细展开。 如果能够把各类的字符归一下类,那么就能够把这些不可见的字符找出来了。这里把UTF8字符集分成了40类。

其中有几类要特别说明一下:

  • 0号类:尚未识别 除了其它标识出来的范围之外的字符。也就是基本可认为是不可见的没用的字符了。

  • 1号类:系统字符 包括换行,制表,回车等

  • 2号类:英文半角 包含数字,字母,符号,空格等

其它更详细的请见后文中的清单

概要说明

UTF-8字符集分析过滤工具 CharsetFilter
版本: V 1.0.1
更新:xmxoxo 2019/10/14

项目代码GitHub地址: https://github.com/xmxoxo/CharsetFilter

工具说明:本工具把UTF8字符集分成了40个子集,可对文本文件中的字符集进行分析,
统计各类字符的总数以及出现的种类数。同时还可以方便地过滤或者保留的字符,
特别适合NLP等领域中对不可见字符的过滤分析等处理。

注: 被分析的文本文件需要是UTF8格式

使用案例说明:

分析文本字符集,输出简要信息

python CharsetFilter.py --file ./111.txt 

分析文本字符集,输出详细信息,详细信息会保存到 xxx_report.txt 文件中

python CharsetFilter.py --file ./111.txt --detail 1

分析文本字符集,按默认值过滤(过滤 “尚未识别 0”, “控制字符 3”),并保存过滤结果(自动命名)

python CharsetFilter.py --file ./111.txt --filter 1

分析文本字符集,仅保留 1,2,36,39,并保存过滤结果(自动命名为 xxx_out.txt)

python CharsetFilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39

使用截图

以下是使用的一些截图:

字符集分析结果截图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xocoLjU9-1571024581088)(https://github.com/xmxoxo/CharsetFilter/blob/master/0.jpg?raw=true)]
在这里插入图片描述

字符集分析详细结果输出文件截图(部分):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qA9S04tp-1571024581089)(https://github.com/xmxoxo/CharsetFilter/blob/master/1.jpg?raw=true)]

在这里插入图片描述

字符集清单

'尚未识别',  #0 除以下标识的范围之外的字符,基本可认为是没有用的字符
'系统字符',  #1 包括换行,制表,回车等
'英文半角',  #2 包含数字,字母,符号,空格
'控制字符',  #3 可删除,会影响文本处理
'扩展半角',  #4 一些半角符号
'韩文字符',  #5
'傣文字符',  #6
'新傣文字',  #7
'标点字符',  #8
'上标下标',  #9
'字母符号',  #10
'数字符号',  #11 
'箭头字符',  #12
'数学符号',  #13 全角数学符号
'工程符号',  #14
'控制图符',  #15
'识别符号',  #16
'序号字符',  #17 带圆圈的序号字符
'制表字符',  #18
'方块元素',  #19
'杂项符号',  #20
'装饰符号',  #21
'盲文符号',  #22
'部首补充',  #23
'康熙部首',  #24
'汉字结构',  #26
'标点符号',  #27
'日文字符',  #28
'韩文字母',  #29
'笔划字符',  #30
'日文拼音',  #31
'带框月份',  #32
'日期单位',  #33
'扩展汉字',  #34
'易经字符',  #35 
'基础汉字',  #36 基本汉字
'彝文字符',  #37
'韩文字符',  #38
'全角字符',  #39 全角的标点符号
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值