egg(十七):cheerio-爬取并解析html网页2（gb2312格式中文乱码）

最新推荐文章于 2023-11-12 22:05:43 发布

妍崽崽@

最新推荐文章于 2023-11-12 22:05:43 发布

阅读量876

点赞数 2

分类专栏： node 文章标签：前端 node egg

本文链接：https://blog.csdn.net/weixin_44727080/article/details/125790974

版权

node 专栏收录该内容

26 篇文章 10 订阅

订阅专栏

前言：

在使用cheerio进行爬虫的时候，发现一个很严重的问题，就是我用了中文乱码的解决方法，但是无效，所以就追根溯源，了解了下这里相关的内容。

出现乱码的html

出现乱码的原因：

Node不支持gb2312

那我们应该怎么处理这种呢？难道只能放弃这种格式的网页了？不不不，这种思维要不得，身为程序员，就应该打破砂锅问到底，有困难，克服困难，奥里给，继续往下把！

最终实现效果：

加强版使用操作步骤：

1、引入相关插件

npm install cheerio --save

除了必须的 cheerio 外，还需要引入 superagent 与 superagent-charset

npm install superagent-charset --save

2、在service下新建一个 spider.js 文件

/*
 * @FilePath:\app\service\spider.js
 */
'use strict';
 
const Service = require('egg').Service;
 
class SpiderService extends Service {
    async spider(url) {
        const result = await this.ctx.curl(url);
        return result;
    }
}
 
module.exports = SpiderService;

3、在 controller/home.js 中来写我们的具体爬虫方法

1、引入我们的插件

// 解决 gb2312格式中文乱码
const request = require('superagent')
require('superagent-charset')(request)
const cheerio = require('cheerio')

2、写具体方法

 async getHtmlRender(ctx) {
    var url = 'https://www.bxwx666.org/txt/57763/';
    // 解决 gb2312格式中文乱码
    const requestPromise = new Promise((resolve, reject) => {
      request.get(url)
        .buffer(true)
        .charset('gbk')
        .end((err, html) => {
          const htmlText = html.text
          const $ = cheerio.load(htmlText,{ decodeEntities: false })
          const imgListData = [];
          $('a').each(function () {
            let url = $(this).attr('href')
            let text = $(this).text()
            console.log(url);
            console.log(text);
            imgListData.push(url);
          })
          /**
           *	处理，保存数据等操作
           */
          return resolve({
            imgListData,
            $,
          })

        })
      })
    const result = await requestPromise;

    result['$']('a').each(function () {
      console.log(1111111111);
    })
    ctx.body = result
  }

4、配置路由 router.local.js

/**
 * 路由配置
 * @param app
 */
module.exports = app => {
    const { router, controller, middleware } = app;
 
    //爬虫
    router.get("/getPictureData", controller.home.getPictureData);
    router.get("/getHtmlRender", controller.home.getHtmlRender);
    router.get("/getHtmlRender2", controller.home.getHtmlRender2);
 
}