抓取淘宝商品详情时,用到的一些正则表达式

一、去除数据里的标签

delHtmlTag(str) {
    str = str.replace(/<[^>]+>/g, ''); //去掉所有的html标记
    return str.replace(/\s+/g,''); //去掉所有空格
}

二、详情数据处理

/<\s*img\s+[^>]*?size\s*=\s*(.*?)[^>]*?\/?\s*>/i.test(el) //判断是否是<img></img>标签包裹的数据
/<img.*?(?:>|\/>)/gi.test(el) //直接验证是否为<img></img>标签包裹,用上一种可能报错
/^https:\/\/.*/i.test(imgObj.url) // 判断数据是否是以https开头的图片地址
el.replace('<txt>','<p>').replace('</txt>','</p>') //将数据中的<txt></txt>标签替换为<p></p>
data.data.wdescContent.pages.forEach(el => {
  if (/<\s*img\s+[^>]*?size\s*=\s*(.*?)[^>]*?\/?\s*>/i.test(el)) {
        let imgObj = {
            url: this.delHtmlTag(el)
        };
        var https = /^https:\/\/.*/i.test(imgObj.url);
        if (!https) {
            imgObj.url = 'https:' + imgObj.url;
        }
        this.detailImgList.push(imgObj);
    }else{
        this.goodsDetailObj.detailContent += el.replace('<txt>','<p>').replace('</txt>','</p>');
    }
});

三、测试图如下

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值