0. 关键字
- HTML预留字符
<
- 实体字符
<
- 实体编号
<
格式:&xx;
或&#xx;
1. HTML实体编号的作用
在 HTML 中,某些字符是预留的。比如,在 HTML 中不能使用小于号(<)和大于号(>),这是因为浏览器会误认为它们是标签。
如果我们想要在HTML页面正确的显示预留字符,则需要用到实体字符或实体编号。
比如:<
使用<
或<
也就是说在写HTML的时候,可能会出现我们想要页面输出的内容恰好和HTML语法的规则冲突,导致该显示的文本内容被浏览器当作了标签,进而被构造成了页面结构。因此产生了实体字符这个东西,当浏览器解析到实体字符以后,就不会把它当成页面结构,而是转换成对应的字符展示到页面上。
而实体编号是&#
+字符的ascii;
构成。作用和实体字符相同,也可以用来帮助浏览器识别预留字符。
2. 案例
今天在做XSS的时候,某一关的防御机制是识别script
关键字,并进行改写。一种解决的思路是在关键字中增添空白字符。而另一种解决的思路是利用HMLT的实体字符表示script
,由于网站后台的识别仅仅针对字符串,而浏览器解析的时候又可以将其还原,因此可以达到绕过的效果。
这里是利用实体编码代替原生字符串进行要过。
那么就需要编写一个将字符串转变为实体编码的函数。知道了实体编号和字符之间的关系,编写一个编码函数是很容易的,但是偶然看到了一位大佬编写的代码,虽然功能相同,但是自己的代码与其比之还是相形见绌。于是乎,赶紧写篇文章研究记录一下。
本人的代码:
def unicodeHtml(orgCode):
code_list = list()
for i in orgCode:
code_list.append('&#' + str(ord(i)))
fin = ';'.join(code_list)
return fin
大佬的代码:
def unicodeHtml(orgCode):
fin = ';'.join('&#{}'.format(ord(x)) for x in orgCode)
return fin
像生成器,format
这样的知识点自己也不是没有学过。但是当第一眼看到这个代码的时候竟然差点没看懂。可笑,可笑,学过的东西总是不会用,总是想不起来怎么用。。。还是太菜