使用node.js爬取网页数据（简单粗暴）

最新推荐文章于 2024-05-14 08:21:54 发布

置顶画龍丶

最新推荐文章于 2024-05-14 08:21:54 发布

阅读量4.3k

点赞数 2

分类专栏： node 文章标签： node.js 爬虫

本文链接：https://blog.csdn.net/weixin_45922009/article/details/112991564

版权

node 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

本文使用node以爬取百度新闻为例展示node爬虫技术。
需求：能看懂html网页结构，知道自己想要哪里。
需求：能看懂html网页结构，知道自己想要哪里。
需求：能看懂html网页结构，知道自己想要哪里。

正文

1.再vscode中新建文件夹，右键文件夹选择集成终端中打开

2.输入初始化命令：npm init -y

3.安装express 模块：npm i express

4.安装got模块：npm i got

5.安装cheerio模块：npm i cheerio
安装完成应显示：
在这里插入图片描述

6.代码部分：

app.get('/p', (req, res) => {								   		//定义路由
   (async () => {
       try {
           const response = await got('https://news.baidu.com/');   //想抓取的网址
           let $ = cheerio.load(response.body)                      //获取网址的DOM结构
           let result = $('#pane-news li a')                        //想抓取的部位
           let news = []                                            //定义新闻数组
           result.each((index, item) => {                           //循环抓取的内容
               news.push($(item).text())                            //循环添加到数组中 
               fs.writeFileSync('./news.txt', $(item).text()+'\n', {flag: 'a'}) //写入文件中
           }) 
           res.send(news)                                           //显示在页面上
       } catch (error) {
           console.log(error);
       }
   })();
})
//打开服务器端口
app.listen(3001, () => {
   console.log('http://localhost:3001')
})

提示：不会看不懂没事因为我没学node一开始也看不懂哈哈哈，直接复制粘贴。
在终端运行 http://localhost:3001/p 进行查看
图示：
要抓取的部分
在这里插入图片描述
成果图：

用fs模块写入txt文本：

结语：代码简单，但是没学过node应该看不懂，有注释，修改部分代码即可照葫芦画瓢抓取想要的数据。有不懂的地方可以百度或者私信。

特别提示：爬取他人网站数据好像不太好，没事尽量少爬。在这里插入图片描述

画龍丶

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
9
评论
使用node.js爬取网页数据（简单粗暴）

前言本文使用node以爬取百度新闻为例展示node爬虫技术。需求：能看懂html网页结构，知道自己想要哪里。需求：能看懂html网页结构，知道自己想要哪里。需求：能看懂html网页结构，知道自己想要哪里。正文1.再vscode中新建文件夹，右键文件夹选择集成终端中打开2.输入初始化命令：npm init -y3.安装express 模块：npm i express4.安装got模块：npm i got5.安装cheerio模块：npm i cheerio安装完成应显示：6.代码部分
复制链接

扫一扫