使用nodejs实现简单爬虫

最新推荐文章于 2024-05-14 08:21:54 发布

借不到的三寸目光

最新推荐文章于 2024-05-14 08:21:54 发布

阅读量337

点赞数

分类专栏： node.js 文章标签： nodejs

本文链接：https://blog.csdn.net/weixin_46919339/article/details/108778267

版权

node.js 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

优点：
由于node的驱动语言是javascript，而JavaScript是运行在浏览器上的脚本语言，其优势主要在于便于操作网页上的dom节点。

目标：
以下内容主要通过获取目标网页的节点信息内容。

下载相关依赖：

// 引入依赖
const superagent = require('superagent'); // superagent是nodejs里一个非常方便的客户端请求代码模块（也可以使用request）
const cheerio = require('cheerio'); // 可以理解为一个Node.js版本的Jquery

目标页面爬取相关代码：

//url为目标页面链接
superagent.get(url).end((err, res) => {
     let postlist = getDetailHtml(res.text);
  })

function getDetailHtml(html) {
    console.log("xiangqing")
    let $ = cheerio.load(html); // 使用cheerio
    // F12分析后的节点数据，用Jquery的语法进行过滤、摘取
    var objdata = {
       api = 0,
       pm25 = 0,
       school_img = $('.tp img').attr('src') //直接获取相关图片
    }
    //若有相同节点，使用循环遍历获取到对应的节点内容
    $('.data .span1').each((index, item) => { 
        let elem = $(item);
        if (index == 0) {
            aqi = elem.find('.value').text().trim()
        } if (index == 1) {
            pm25 = elem.find('.value').text().trim()
        }
    })
}

若要将数据存储到文件中，还需引入以下依赖：

引入fs模块

const fs= require(“fs”)

引入path模块

const path=require(“path”)

注释：fs模块为node内置的文件系统模块，负责读写文件。

将爬取到的数据存入本地：

// 保存在data.json中
 fs.writeFile(path.join(__dirname,'data','data.json'),JSON.stringify(objdata),function(err){
     if(err){
         throw err;
     }
     console.log('ok');
 });

总结：
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，有什么问题欢迎小伙伴指正。

借不到的三寸目光

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用nodejs实现简单爬虫

优点：由于node的驱动语言是javascript，而JavaScript是运行在浏览器上的脚本语言，其优势主要在于便于操作网页上的dom节点。目标：以下内容主要通过获取目标网页的节点信息内容。下载相关依赖：// 引入依赖const superagent = require('superagent'); // superagent是nodejs里一个非常方便的客户端请求代码模块（也可以使用request）const cheerio = require('cheerio'); // 可以理解为一
复制链接

扫一扫