Python提取中文字符

最新推荐文章于 2020-08-24 18:43:50 发布

致Great

最新推荐文章于 2020-08-24 18:43:50 发布

阅读量5.7k

点赞数

本文链接：https://blog.csdn.net/yanqianglifei/article/details/86581299

版权

写这个jupyter的原因是好几次自己爬完新闻之后，发现中间有些是html标签代码或者其他多余的英文字符，自己也不想保留，那么这时候一个暴力简单的方法就是使用 unicode 范围 \u4e00 - \u9fff 来判别汉字

unicode 分配给汉字（中日韩越统一表意文字）的范围为 4E00-9FFF
（目前 unicode 6.3 的标准已定义到 9FCC ）

# 判断字符是否全是中文
def ishan(text):
    # for python 3.x
    # sample: ishan('一') == True, ishan('我&&你') == False
    return all('\u4e00' <= char <= '\u9fff' for char in text)

ishan("asas112中国")

False

# 提取中文字符
import re
def extract_chinese(txt):
    pattern = re.compile("[\u4e00-\u9fa5]")
    return "".join(pattern.findall(txt))
extract_chinese("任命的。</p> <p>3G资本成立于2004年，是")

'任命的资本成立于年是'

还有一个是过滤HTML标签的强大工具

HTMLParser

from html.parser import HTMLParser
def strip_tags(html):
    """
    Python中过滤HTML标签的函数
    >>> str_text=strip_tags("<font color=red>hello</font>")
    >>> print str_text
    hello
    """
    html = html.strip()
    html = html.strip("\n")

    result = []
    parser = HTMLParser()
    parser.handle_data = result.append
    parser.feed(html)
    parser.close()
    result=''.join(result)
    result = result.replace("\n", "")
    return result

strip_tags("<font color=red>hello</font>")

'hello'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

致Great

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Dart 实现字符串进行 gbk编码的 urlencode

断水流--假的蒙面加菲猫

02-18

8186

启发于 https://blog.csdn.net/yimengqiannian/article/details/7016720?locationNum=14 废话不多少直接上代码 class UrlEncode{ String _gbfh="　、。·ˉˇ¨〃々—～‖…‘’“”〔〕〈〉《》「」『』〖〗【】±×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒⊙∫∮≡≌≈∽∝≠≮≯≤≥∞∵∴♂♀°′″℃＄¤￠...

GB2312 简体中文编码表

banyinlve3147的博客

11-03

3585

GB 2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。 01-09区为特殊符号。16-55区为一级汉字，按拼音排序。56-87区为二级汉字，按部首/笔画排序。10-15区及88-94区则未有编码。 GB2312简体中文编码表 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D ...

参与评论您还未登录，请先登录后发表或查看评论

[アトリエこぶ] 手コキの花嫁汉化补丁

大师的资源

04-10

3万+

【作品番号/DLsite】：RJ059932 【遊戲名稱/Name】：手コキの花嫁【遊戲廠商/Company】：アトリエこぶ【發售日期/Sale date】：2010年3月14日 2010年3月新作，3D模型很是不错，应该是最新作DQ8的同人，女王很有爱注意: 这是糟糕物. 想好再下载游戏本体下载: http://down.51cto.co

【馬鹿騒ぎに抗うシリーズ】小児インフルエンザと漢方対処法----ツムラ医家向けメイルマガジンより

热门推荐

blog of eulota

09-16

12万+

http://orthomolecular.blog.so-net.ne.jp/2007-03-30-1 外房こどもクリニック院長：黒木春郎先生に聞く＜臨床研究から、麻黄湯の有用性を確認＞　「麻黄湯にはオセルタミビル（Catsduke注：タミフルのこと）

メイプルストーリー、「魔法少女まどか☆マギカ」とのタイアップを実施

weixin_30571465的博客

10-26

2728

今回のタイアップでは、「魔法少女まどか☆マギカ」の登場人物「鹿目まどか」や「暁美ほむら」の帽子アイテムや武器をはじめ、人気の登場人物の髪型になれる「魔法少女まどか☆マギカ調髪クーポン」や、「お菓子の魔女」のマントなど、「魔法少女まどか☆マギカ」に関連した各種タイアップアイテムを販売いたします。また、タイアップイベント「グリーフシードを集めよう」では、モンスターを倒すとドロップする「グリーフシー...

月明りのラズベリィ～つん★デれII ～ぷにゅぷり汉化补丁

大师的资源

01-04

6万+

大家好上次给大家的工口王国汉化不知道怎么样了元旦么 (早就过了3天)现在发也不算晚吧今天给大家的汉化是这个中文名: 绯紫悬月作品名:月明りのラズベリィ～つん★デれII ～ぷにゅぷりＥＸＥサークル名ティンクルベル主要作家一磨　翔内容紹介 TINKLE　BELL 高质量完全动画ADV 【つん★デれ！～ぷにゅぷりEX～】の続編。前作稍微之前的时间暖洋洋的日常中，初恋带来的不耐

第28課　馬さんはわたしに地図をくれました。

MPU的专栏

01-24

1万+

1．馬さんはわたしに地図をくれました。2．森さんはお年寄りの荷物を

GBK编码表

第七宇林的博客

06-28

3万+

全国信息技术标准化技术委员会汉字内码扩展规范(GBK) Chinese Internal Code Specification 1.0 版（按编码顺序排列）其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位 81 ０１２３４５６７８９ＡＢＣＤＥＦ４丂丄丅丆丏丒丗丟丠両丣並丩丮丯丱５丳丵丷 ...

全国信息技术标准化技术委员会汉字内码扩展规范(GBK)

weixin_30700099的博客

07-27

1万+

　　　　　　全国信息技术标准化技术委员会　　　　　　　　汉字内码扩展规范(GBK) 　　　　Chinese Internal Code Specification 　　　　　　　　　　　 1.0 版　　　　　　　　（按编码顺序排列） 81 ０１２３４５６７８９ＡＢＣＤＥＦ４丂丄丅丆丏丒丗丟丠両丣並丩丮丯丱５丳丵丷...

GB2312/GBK编码规则及单片机汉显字库算法

boliu218的博客

01-06

1万+

最近整理旧物时，翻到了5年前的毕业设计，翻翻觉得还有些用，写个博客吧。在一般的单片机汉显系统中，都会用到GB2312字库，也有少数的需要GBK字库。英文字符在PC机中以单字节表示，汉子以最高位为1的双字节“机内码”表示，

初音同人游戏ミクっぽいどは俺の嫁汉化补丁+攻略

大师的资源

12-21

2万+

游戏名称: ミクっぽいどは俺の嫁游戏类型：同人游戏本体和介绍请自己 Baidu一下汉化部分: True END 完全汉化之所以不得不停止汉化BE 因为那个Flash加密我还不能够完全解决其实也算我个人不喜欢BE 吧大师♂罗莊汉化翻译感谢椰子攻略（翻白:）游戏很多选项关于CG所以要选全（通了以后可以从任何一章

求思の

过客阵营 -- 简单的就要最简单

12-15

267

我们真需要框架么真需要MVC么我们有自己的思考么我们要改变么? PHP 开发框架越来越大,动辄10几20M,甚至5,60M 这是怎么了?

宫崎峻《となりのトトロ》（龙猫）全剧本（中日对照)(1)

大师的资源

03-04

3261

《となりのトトロ龙猫》已经是很古老的动画了，不知这里是否有对宫崎峻老先生的作品感兴趣的人呢。现在的我们，大概已经无法再见到传说中的龙猫了吧。特此《となりのトトロ龙猫》剧本献给所有的孩子们以及无法再回到童年时代却仍然保持一颗纯真心灵的大人们，さあ～～～来重温一下童年梦幻吧！『となりのトトロ』（草壁一家乘坐拖拉机行驶在乡间小路上。驾驶拖拉机的是草壁先生，后座上坐着两个女儿--皋月和小米）さつき

【备忘】李明杰Swift从入门到精通视频教程完整版下载

javahhll的博客

01-09

2189

03-数据类型 - 2015-07-23 23:19 05-元组类型 - 2015-07-23 23:19 07-函数 - 109B 2015-07-23 23:19 02-变量和常量 - 2015-07-23 23:19 01-语言简介 - 695B 2015-07-23 23:19 04-运算符 - 2015-07-23 23:19 06-流程控制 -

孫子に学ぶITマネジメント CIOの予算獲得編（5）其の功を修めざる者は凶なり

二进制的专栏

04-14

1478

前回まで、A社CIOであるB氏は第1段階「計画」に従って情報分析と論理構成を準備し、第2段階「謀攻」に従った「用間」で情報分析とネゴシエーションを試みたものの、ネゴは成立せずにいよいよ役員会議の場で、次期社長候補のB事業本部長と対決した（表1）。　役員会議では、当初X事業本部長が押し気味だった。だが、会議の場がX事業本部長の社内の理屈ばかりにうんざりするタイミングを見計らって、B氏が「迂直の計

紫罗兰永恒花园女性CG模型作品

3D游戏建模入门基础教程

08-24

557

设计心得：我的紫罗兰永恒花园版本。希望你喜欢。用ZBrush雕刻后，颜色纹理在Substance Painter中进行了绘制，并使用Vray在Maya中渲染，使用了Xgen核心作为头发。文章推荐阅读【学习企鹅圈：1072172722 】： 3d建模什么水平能找到工作？次世代游戏建模需要学多久 3D建模师薪资怎么样? 室内设计建模6k＋，游戏建模16k＋，差距在哪？如何有效的自学游戏角色建模？游戏行业校招大揭秘，还在担心学了找不到工作吗？入门学习3D建模，始于兴趣，忠于现

家族滞在のCOEを申請する場合、どのような書類を提出しますか