Python对HTML转义字符进行反转义

转自:http://www.weidianyuedu.com/content/2512685533236.html

什么是转义字符
在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如 < 的转义字符是 <,浏览器渲染 HTML 页面时,会自动把转移字符串换成真实字符。

转义字符(Escape Sequence)由三部分组成:第一部分是一个 & 符号,第二部分是实体(Entity)名字,第三部分是一个分号。 比如,要显示小于号(<),就可以写< 。

显示字符 说明 转义字符

< 小于 <

空格

< 小于 <

大于 >

& &符号 &

" 双引号 "

© 版权 ©

® 已注册商标 ®

Python 转义字符串反转义
用 Python 来处理转义字符串有多种方式,而且 py2 和 py3 中处理方式不一样,在 python2 中,反转义的模块是 HTMLParser。

Python2

import HTMLParser

HTMLParser().unescape(‘param=p1&param=p2’)
‘param=p1&param=p2’
Python3 HTMLParser 模块迁移到了 html.parser

Python3

from html.parser import HTMLParser
HTMLParser().unescape(‘param=p1&param=p2’)
‘param=p1&param=p2’
到 python3.4 以后的版本,在 html 模块新增了 unescape 方法。

Python3.4

import html
html.unescape(‘param=p1&param=p2’)
‘param=p1&param=p2’
推荐最后一种写法,因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用了,意味着之后的版本会被彻底移除。

另外,xml的sax模块也有支持反转义的函数

from xml.sax.saxutils import unescape
unescape(‘param=p1&param=p2’)
‘param=p1&param=p2’

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值