JS HTML转义码解码

最新推荐文章于 2021-07-06 04:51:50 发布

windroid

最新推荐文章于 2021-07-06 04:51:50 发布

阅读量4k

点赞数

分类专栏： WEB 文章标签： javascript nodejs 编码 html 转义码

本文链接：https://blog.csdn.net/windroid/article/details/51923871

版权

WEB 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景：
- JQ的html()函数得到网页的html源码，而有时得到的文本中的中文会以HTML转义码的形式出现：如“转发”被编码成了“& #x8F6C;& #x53D1;”。（这里&和#之间加了空格，否则会直接显示为中文）
- 而使用text()函数又会丢失网页的元素信息，所以想原生的保留网页信息只能进行手工解码。
原理：
- 这种编码方式使用的编码为unicode，在&#和;之间的十六进制数即为该字符的unicode编码。
造轮子：
- String.fromCharCode()方法，该方法接受一个unicode值，返回该值代表的字符。
- JS字符串正则替换支持str.replace(reg, function(text){})的形式。

function decodeHtml(_str){
    var s = _str.replace(/&#x[\dA-F]{2,4};/g, function(_hex){
        return String.fromCharCode('0' + _hex.slice(2, -1));
    });
    return s;
}