nodejs 做一个简单的爬虫

最新推荐文章于 2022-10-04 23:41:01 发布

[Object object]

最新推荐文章于 2022-10-04 23:41:01 发布

阅读量8.9w

点赞数 14

分类专栏： nodejs 爬虫文章标签：爬虫 nodejs 草榴

本文链接：https://blog.csdn.net/zhang6223284/article/details/80142111

版权

这篇博客介绍了如何使用Node.js从武大计算机学院和草榴技术讨论区抓取数据，包括安装Node.js，创建项目，安装cheerio和request库，处理编码问题，并实现简单爬虫代码。博主分享了遇到的问题及解决方案，如添加User-Agent字段，处理编码转换，以及防止请求过快导致的禁止访问问题。

摘要由CSDN通过智能技术生成

文章目录

前言

（前言是废话可以略过）感觉我写的已经很基础了，就算没有编程经验的人应该也能做出来吧？
起因是昨天中午在 stromzhang 的知识星球（会不会有广告嫌疑）上看到一个球友分享了这么一篇东西
这里写图片描述
链接如下：
今日头条街拍，又到养眼的季节
作为一个程序员，到现在还没尝试过爬虫，感觉自己很 low，当然不是为了街拍图片。
点进去一看，好吧，是我并没有用过的 python。
但是既然已经点燃了我想爬的愿望，不爬的话就很难受。因为学过 js，知道 js 也可以做爬虫，于是到网上搜了一下，万能的 js 果然无所不能。
于是在网上搜到了这么一篇文章手把手教你做爬虫—基于NodeJs 于是就按照他的步骤开始做，不过北大的微电子学院好像禁止访问了，大概是被爬的次数太多，服务器崩了？还有人说爬完一次之后 IP 就会被禁止访问。
既然这样，只能拿武大开刀了。

准备工作

首先，你需要下载 nodejs，这个应该没啥问题吧
原文要求下载 webstrom，我电脑上本来就有，但其实不用下载，完全在命令行里面操作就行

创建工程

准备工作做完了，下面就开始创建工程了

首先，在你想要放资源的地方创建文件夹，比如我在 E 盘里面创建了一个 myStudyNodejs 的文件夹
在命令行里面进入你创建的文件夹如图
进入 e 盘：E：
进入文件夹：cd myStudyNodejs（你创建的文件夹的名字）
注意全是英文符号
初始化项目，在你创建的文件夹下面运行 npm init 初始化项目
一路回车，最后输个 yes 就行
运行完以后，会在文件夹里面生成一个 package.json 的文件，里面包含了项目的一些基本信息。
安装所需要的包
在所创建的文件夹的目录下运行
npm install cheerio –save
npm install request -save
爬武大的话，这两个包就够了，如果想爬草榴需要额外的转换编码的包，windows 上面是
npm install iconv-lite -save
Mac 上面是 npm install iconv -save
运行结果应该第二幅图这样，中间手滑少写了个字母
创建文件
在你所创建的文件夹下面创建一个 data 文件夹用于保存爬到的文本数据。
创建一个 image 文件夹用于保存图片数据。
创建一个 js 文件用来写程序。比如 study.js。（创建一个记事本文件将 .txt 改为 .js）
说明 –save 的目的是将项目对该包的依赖写入到 package.json 文件中。

武大计算机学院新闻爬虫代码

下面就是武大计算机学院新闻的爬虫代码了，复制到创建的 .js 文件中，保存。

var http = require('http');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var i = 0;
//初始url 
var url = "http://cs.whu.edu.cn/a/xinwendongtaifabu/2018/0428/7053.html"; 

function fetchPage(x) {
        //封装了一层函数
  startRequest(x); 
}

function startRequest(x) {
   
     //采用http模块向服务器发起一次get请求      
     http.get(x, function (res) {
        
        var html = '';        //用来存储请求网页的整个html内容
        var titles = [];    
        res.setEncoding('utf-8'); //防止中文乱码
     //监听data事件，每次取一块数据
     res.on('data', function (chunk) {
      
	      html += chunk;
	 });
     //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
     res.on('end', function () {
   
         var $ = cheerio.load(html); //采用cheerio模块解析html
         var news_item = {
   
          //获取文章的标题
          title: $('div#container dt').text().trim(),
          i: i = i + 1,     
       };

	  console.log(news_item);     //打印新闻信息
	  var news_title = $('div#container dt').text().trim();
	  savedContent($,news_title);  //存储每篇文章的内容及文章标题
	  savedImg($,news_title);    //存储每篇文章的图片及图片标题
       //下一篇文章的url
       var nextLink="http://cs.whu.edu.cn" + $("dd.Paging a").attr('href');
       str1 = nextLink.split('-');  //去除掉url后面的中文
       str = encodeURI(str1[0]);  
       //这是亮点之一，通过控制I,可以控制爬取多少篇文章.武大只有8篇，所以设置为8
       if (i <=

最低0.47元/天解锁文章

[Object object]

关注

14
点赞
踩
62

收藏

觉得还不错? 一键收藏
1
评论
nodejs 做一个简单的爬虫

前言准备工作创建工程武大计算机学院新闻爬虫代码草榴技术讨论区爬虫后记前言（前言是废话可以略过）感觉我写的已经很基础了，就算没有编程经验的人应该也能做出来吧？起因是昨天中午在 stromzhang 的知识星球（会不会有广告嫌疑）上看到一个球友分享了这么一篇东西链接如下：今日头条街拍，又到养眼的季节作为一个程序员，到现在还...
复制链接

扫一扫