node.js——简约帅气的爬取数据（cheerio）

最新推荐文章于 2024-05-14 08:21:54 发布

K.P

最新推荐文章于 2024-05-14 08:21:54 发布

阅读量596

点赞数

分类专栏： npm nodejs 文章标签： Node.js 爬虫 Cheerio 数据提取 JSON

本文链接：https://blog.csdn.net/weixin_44314609/article/details/109399846

版权

npm 同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

nodejs

7 篇文章 0 订阅

订阅专栏

说到爬取数据（爬虫），一般都想到python，但是今天不谈论python，今天用nodejs爬取数据，以网易新闻网为例（辛苦你了）来做制作demo。

安装

npm install request fs cheerio

安装后，接下来进入正题，创建index.js

// 引入模块
const request = require('request')
const fs = require('fs')
const cheerio = require('cheerio')

// 爬取 https://news.163.com/
request('https://news.163.com/', (err, response, html) => {
    if(!err && response.statusCode == 200) { 	// 判断成功
    	// 进行文件写入到 index.html
        fs.writeFile('index.html', html, 'utf-8', (err) => {
            if(err) throw err
            console.log('success')
        })
    }
})

node index.js运行后，发现文件中多出一个 index.html，很成功你已经爬取了单页网易新闻网，右键运行，完美~~

好啦~到此结束

怎么可能，cheerio 还没用呢？

好，接下来进入真正的正题，再此之前，可以阅览下cheerio中文官网，使用过jq的朋友就对他的语法很有感觉。

const request = require('request')
const fs = require('fs')
const cheerio = require('cheerio')

request('https://news.163.com/', (err, response, html) => {
    if(!err && response.statusCode == 200) {
        const $ = cheerio.load(html);
        var result = [];

        // 遍历
        $('.post').each((i, el) => {
            // 提取数据
            const date = $(el).find('.date').text();
            const title = $(el).children('.post-info').children('.post-title').text();

            const body = $(el).find('.post-body').text();

            result.push({
                id:i,
                year:date,
                title,
                body
            }) 
            // console.log(date, title, body);
            // console.log(result);
        })

        result = JSON.stringify(result);

	// 写入 json文件
        fs.writeFile('data.json', result, 'utf-8', (err) => {
            if(err) throw err;
            console.log('success');
        })
    }
})

在这里插入图片描述

运行后，最后生成新的json文件，得到你想要的数据文档，成功了~~

K.P

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
node.js——简约帅气的爬取数据（cheerio）

说到爬取数据（爬虫），一般都想到python，但是今天不谈论python，今天用nodejs爬取数据，以网易新闻网为例（辛苦你了）来做制作demo。安装npm install request fs cheerio安装后，接下来进入正题，创建index.js// 引入模块const request = require('request')const fs = require('fs')const cheerio = require('cheerio')// 爬取 https://news
复制链接

扫一扫