2021-09-04

最新推荐文章于 2021-12-20 21:15:28 发布

weixin_54889564

最新推荐文章于 2021-12-20 21:15:28 发布

阅读量96

点赞数

分类专栏： node 文章标签：爬虫 node

本文链接：https://blog.csdn.net/weixin_54889564/article/details/120100334

版权

node 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

node解析gzip压缩的数据
- 1.请求封装
- 2.发起请求
总结

node解析gzip压缩的数据

使用node学习爬虫，爬取下拉的网页是经过gzip压缩的，显示一堆乱码；
记录一下解决方案。

主要是在request里加了 gzip,headers,encoding;

使用了 request 和 iconv-lite

npm i request
npm i iconv-lite

1.请求封装

代码如下（示例）：

const request = require('request');

const repHTML = (url) => {
  let options = {
    url: url,
    gzip: true,
    headers: {
      'Accept-Encoding': 'gzip,deflate'
    },
    encoding: null

  }
  return new Promise((resolve,reject) => {
    request(options, (err, res) => {
      if(!err) {
        resolve(res)
      } else {
        reject(err)
      }
    })
  })
}

2.发起请求

代码如下：

const Iconv = require('iconv-lite');
const zlib = require('zlib');

router.get("/obtaincity", async (req, res) => {
  let responder = await repHTML(`http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html`);
  let html = responder.body;
  var decodedbody = Iconv.decode(html,'gb2312');
  // console.log(decodedbody);

  try {

    const $ = cheerio.load(decodedbody);
    // const tr = $('tr.provincetr');
    // tr.eq(0).find('td').eq(0).find('a').eq(0).text()
    // console.log(tr.length,tr.eq(0).find('td').eq(0).find('a').eq(0).text());
  } catch (e) {
    console.log("e",e);
  }
})

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：
使用res.send吧内容在页面上显示出来，发现居然下载了来了，是一个没有后缀名的文件；
发现加上.txt后缀名打开后显示正常，把这个txt文件拉到vscode里显示的是乱码，然而用window的记事本打开就是正常的；于是使用Iconv解析gb2312,就能正常显示了

weixin_54889564

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-09-04

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录node解析gzip压缩的数据1.请求封装2.发起请求总结node解析gzip压缩的数据使用node学习爬虫，爬取下拉的网页是经过gzip压缩的，显示一堆乱码；记录一下解决方案。主要是在request里加了 gzip,headers,encoding;使用了 request 和 iconv-litenpm i requestnpm i iconv-lite 1.请求封装代码如下（示例）：const requ
复制链接

扫一扫