基于Node.js的Web爬虫: 使用Axios和Cheerio抓取网页数据并展示

JJCTO袁龙

于 2024-08-21 09:14:31 发布

阅读量443

点赞数 7

分类专栏： Node.js 文章标签： node.js 前端爬虫

本文链接：https://blog.csdn.net/yuanlong12178/article/details/141379761

版权

Node.js 专栏收录该内容

135 篇文章 3 订阅

订阅专栏

基于Node.js的Web爬虫: 使用Axios和Cheerio抓取网页数据并展示

在这个信息爆炸的时代，爬虫技术已成为获取互联网数据的一个重要手段。Web爬虫可以帮助我们抓取网页数据并将其整理为可用的信息。本文将介绍如何使用Node.js、Axios和Cheerio创建一个简单的Web爬虫，抓取网页数据并将其展示出来。我们将使用Vue 3的Setup语法糖，展示抓取的数据。

1. 环境准备

在开始之前，请确保您的计算机上已安装Node.js。接下来，您可以使用以下命令创建一个新的Node.js项目并安装所需的依赖项。

mkdir web-scraper
cd web-scraper
npm init -y
npm install axios cheerio express

在上面的命令中，我们安装了三个库：

axios: 用于发送HTTP请求。
cheerio: 用于解析和操作HTML。
express: 用于创建Web服务器。

2. 创建爬虫

接下来，我们创建爬虫程序。创建一个新的文件 scraper.js，并将以下代码粘贴到文件中：

const axios = require('axios');
const cheerio = require('cheerio');

async function scrapeData(url) {
    try {
        const { data } = await axios.get(url);
        const $ = cheerio.load(data);

        const results = [];
        $('h2').each((index, element) => {
            results.push({
                title: $(element).text(),
                link: $(element).find('a').attr('href'),
            });
        });

        return results;
    } catch (error) {
        console.error(`Error fetching data: ${error}`);
    }
}

// 使用示例
scrapeData('https://example.com').then(data => {
    console.log(data);
});

在这个代码片段中，我们定义了一个 scrapeData 的异步函数，它接受一个URL参数。这个函数使用Axios库发出HTTP GET请求，然后使用Cheerio库解析返回的HTML数据。我们在这个例子中抓取了网页中所有的h2标签及其链接。

3. 创建Express服务器

然后，我们创建一个简单的Express服务器来展示我们抓取的数据。创建一个新文件 server.js，并将以下代码粘贴到文件中：

const express = require('express');
const { scrapeData } = require('./scraper');

const app = express();
const PORT = process.env.PORT || 3000;

app.get('/scrape', async (req, res) => {
    const url = req.query.url; // 从请求参数中获取URL
    if (!url) {
        return res.status(400).send('URL is required');
    }

    const data = await scrapeData(url);
    res.json(data);
});

app.listen(PORT, () => {
    console.log(`Server is running on http://localhost:${PORT}`);
});

在这个Express服务器代码中，创建了一个 /scrape 路由，它从请求的查询参数中获取URL，并调用我们的 scrapeData 函数。当数据抓取完成后，它将以JSON格式返回结果。

4. 前端展示数据

为了展示抓取的数据，我们可以创建一个简单的前端应用。使用Vue 3和setup语法糖创建一个新的Vue项目：

npm install -g @vue/cli
vue create web-scraper-frontend
cd web-scraper-frontend
npm install axios

然后，在 src/components 目录下创建一个名为 Scraper.vue 的新文件，粘贴以下代码：

<template>
  <div>
    <h1>Web Scraper</h1>
    <input v-model="url" placeholder="Enter URL to scrape" />
    <button @click="fetchData">Scrape</button>

    <ul v-if="data.length">
      <li v-for="(item, index) in data" :key="index">
        <a :href="item.link" target="_blank">{{ item.title }}</a>
      </li>
    </ul>

    <p v-else>No data available.</p>
  </div>
</template>

<script>
import { ref } from 'vue';
import axios from 'axios';

export default {
  setup() {
    const url = ref('');
    const data = ref([]);

    const fetchData = async () => {
      try {
        const response = await axios.get(`http://localhost:3000/scrape?url=${url.value}`);
        data.value = response.data;
      } catch (error) {
        console.error(error);
      }
    };

    return {
      url,
      data,
      fetchData,
    };
  },
};
</script>

<style scoped>
/* Your styles here */
input {
  margin-right: 10px;
}
</style>

在上面的代码中，我们创建了一个简单的输入框和按钮，用户可以输入要抓取的URL。点击按钮后，将调用 fetchData 函数，通过Axios向后端发送请求，并将返回的结果显示在页面上。

5. 运行项目

现在，我们需要同时运行后端和前端。确保您在后端目录中运行以下命令启动Express服务器：

node server.js

然后，在前端项目目录中运行：

npm run serve

您的前端应用程序将在 http://localhost:8080 运行。打开浏览器，在输入框中输入要抓取的URL（例如 https://example.com），然后点击 “Scrape” 按钮。您将看到抓取到的标题以链接形式显示在页面上。

结论

本文介绍了如何使用Node.js、Axios和Cheerio创建一个简单的Web爬虫，并利用Vue 3的setup语法糖来展示抓取的数据。这个项目展示了Web爬虫的基本原理以及如何将爬虫和前端技术结合。希望这个示例能为您在数据抓取方面提供一些启发和帮助。

随着技术的进步，Web爬虫的使用场景越来越广泛，但也要注意在爬取数据时遵循网站的Robots.txt协议，尊重数据隐私。祝您在数据抓取的探索中顺利！

最后问候亲爱的朋友们，并邀请你们阅读我的全新著作

书籍详情

在这里插入图片描述

JJCTO袁龙

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于Node.js的Web爬虫: 使用Axios和Cheerio抓取网页数据并展示

在这个信息爆炸的时代，爬虫技术已成为获取互联网数据的一个重要手段。Web爬虫可以帮助我们抓取网页数据并将其整理为可用的信息。本文将介绍如何使用Node.js、Axios和Cheerio创建一个简单的Web爬虫，抓取网页数据并将其展示出来。我们将使用Vue 3的Setup语法糖，展示抓取的数据。
复制链接

扫一扫