正则排除筛选unicode字符

一只特立独行的猪工作室

已于 2023-08-25 11:06:18 修改

阅读量276

点赞数

文章标签： python 开发语言正则表达式

于 2023-08-25 10:52:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43933446/article/details/132490925

版权

对于已经定义的字符串变量来说，是无法使用正则表达式匹配unicode字符的。

原因详情见：Python正则匹配unicode字符_F.Y.Y的博客-CSDN博客

因此我们换一种思路，使用排除法排除掉所有合法字符，那么剩余的就是我们要找到的unicode字符。

给出unicode字符范围表：unicode语言字符范围表_F.Y.Y的博客-CSDN博客

在正则表达式中添加合法的数据，进行正则排除法：

import re


unicode_re_compiler = re.compile(
u"[^"
u"\u4e00-\u9fa5" # 中文
u"\uac00-\ud7af" # 韩文
u"\u0400-\u052f" # 俄文
u"\u3040-\u309f" # 日文平假名
u"\u30a0-\u30ff" # 日文片假名
u"\u0041-\u005A" # 英文字母
u"\u0061-\u007A" # 英文字母
u"\u0030-\u0039" # 数字
u"\u0600-\u06FF" # 阿拉伯文
u"\u0E00-\u0E7F" # 泰文
u"\u0900-\u097F" # 天城文书
u"\u2C80-\u2CFF" # 古埃及语
u"\u3002\uFF1F\uFF01\uFF0C\u3001\uFF1B\uFF1A\u300C\u300D\u300E\u300F\u2018\u2019\u201C\u201D\uFF08\uFF09\u3014\u3015\u3010\u3011\u2014\u2026\u2013\uFF0E\u300A\u300B\u3008\u3009"
u"\!\@\#\$\%\^\&\*\(\)\-\=\[\]\{\}\\\|\;\'\:\"\,\.\/\<\>\?\/\*\+"
u"]+")

正则匹配：

original_text = "\uf0b7\uf0b7onetwothree"
unicode_text_res = unicode_re_compiler.match(original_text.strip())

if unicode_text_res:
    print(unicode_text_res)

输出：

<re.Match object; span=(0, 2), match='\uf0b7\uf0b7'>

一只特立独行的猪工作室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

一只特立独行的猪工作室 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

190万+: 周排名

124万+: 总排名

1561: 访问

: 等级

40: 积分

0: 粉丝

0: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

最新评论

unicode语言字符范围表
CSDN-Ada助手: 非常感谢您分享这篇关于"unicode语言字符范围表"的博客！看到您对Unicode语言范围的研究，我非常欣赏您的专业知识和热情。希望您能继续写下去，分享更多关于Unicode的知识。除了标题和摘要中提到的内容，还有一些与该博文相关的扩展知识和技能可以探索。例如，您可以介绍Unicode编码的历史背景和发展，深入探讨各种字符范围的应用场景，以及Unicode字符编码在不同编程语言中的处理方式等等。此外，您还可以提及Unicode字符编码的标准化组织和最新动态，使读者能够了解到Unicode的最新进展。再次感谢您的分享，期待看到更多关于Unicode字符范围的精彩内容！请继续保持创作的热情，并与读者分享更多有趣的知识。谦逊之心是不断学习和进步的关键，相信您会在博客创作的道路上越走越远！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
正则排除筛选unicode字符
CSDN-Ada助手: 恭喜您撰写第三篇博客！标题“正则排除筛选unicode字符”听起来非常有趣。您对正则表达式的应用以及筛选unicode字符的技巧，无疑会给读者带来更多的收获。在下一步的创作中，我建议您可以进一步探索正则表达式的高级用法，如捕获组、反向引用等。您可以分享一些实用的技巧，或者介绍一些案例来展示正则表达式的强大之处。此外，您也可以考虑与其他编程语言或工具结合使用正则表达式，以扩大读者的应用范围。希望您能保持谦虚的态度，继续分享您的经验和见解。期待您的下一篇博客，祝您写作愉快！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Python self 理解
CSDN-Ada助手: 恭喜您写了第四篇博客！标题为“Python self 理解”，这是一个非常重要的主题。通过深入理解Python中的self关键字，您为读者提供了很有价值的知识。接下来，我希望您能够继续分享更多与Python相关的主题，比如Python中的继承或者异常处理等等。谦虚地说，我相信您对这些主题也有深入的理解。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python正则匹配unicode字符
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来非常有趣和实用。通过学习Python正则匹配unicode字符，您将能够处理各种语言的文本处理任务。接下来，我建议您可以探索更多关于正则表达式的高级用法，例如使用捕获组和反向引用来实现更复杂的匹配模式。同时，您还可以分享一些实际应用案例，展示正则表达式在处理unicode字符方面的价值。期待您下一篇博客的发布！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。