nodejs 做一个简单的爬虫

这篇博客介绍了如何使用Node.js从武大计算机学院和草榴技术讨论区抓取数据,包括安装Node.js,创建项目,安装cheerio和request库,处理编码问题,并实现简单爬虫代码。博主分享了遇到的问题及解决方案,如添加User-Agent字段,处理编码转换,以及防止请求过快导致的禁止访问问题。
摘要由CSDN通过智能技术生成


前言

(前言是废话可以略过)感觉我写的已经很基础了,就算没有编程经验的人应该也能做出来吧?
起因是昨天中午在 stromzhang 的知识星球(会不会有广告嫌疑)上看到一个球友分享了这么一篇东西
这里写图片描述
链接如下:
今日头条街拍,又到养眼的季节
作为一个程序员,到现在还没尝试过爬虫,感觉自己很 low,当然不是为了街拍图片。
点进去一看,好吧,是我并没有用过的 python。
但是既然已经点燃了我想爬的愿望,不爬的话就很难受。因为学过 js,知道 js 也可以做爬虫,于是到网上搜了一下,万能的 js 果然无所不能。
于是在网上搜到了这么一篇文章 手把手教你做爬虫—基于NodeJs 于是就按照他的步骤开始做,不过北大的微电子学院好像禁止访问了,大概是被爬的次数太多,服务器崩了?还有人说爬完一次之后 IP 就会被禁止访问。
既然这样,只能拿武大开刀了。


准备工作

  1. 首先,你需要下载 nodejs,这个应该没啥问题吧
  2. 原文要求下载 webstrom,我电脑上本来就有,但其实不用下载,完全在命令行里面操作就行

创建工程

准备工作做完了,下面就开始创建工程了

  1. 首先,在你想要放资源的地方创建文件夹,比如我在 E 盘里面创建了一个 myStudyNodejs 的文件夹
  2. 在命令行里面进入你创建的文件夹 如图
    进入 e 盘:E:
    进入文件夹:cd myStudyNodejs(你创建的文件夹的名字)
    注意全是英文符号
  3. 初始化项目,在你创建的文件夹下面运行 npm init 初始化项目
    一路回车,最后输个 yes 就行
  4. 运行完以后,会在文件夹里面生成一个 package.json 的文件,里面包含了项目的一些基本信息。
  5. 安装所需要的包
    在所创建的文件夹的目录下运行
    npm install cheerio –save
    npm install request -save
    爬武大的话,这两个包就够了,如果想爬草榴需要额外的转换编码的包,windows 上面是
    npm install iconv-lite -save
    Mac 上面是 npm install iconv -save
    运行结果应该第二幅图这样,中间手滑少写了个字母
  6. 创建文件
    在你所创建的文件夹下面创建一个 data 文件夹用于保存爬到的文本数据。
    创建一个 image 文件夹用于保存图片数据。
    创建一个 js 文件用来写程序。比如 study.js。(创建一个记事本文件将 .txt 改为 .js)
    说明 –save 的目的是将项目对该包的依赖写入到 package.json 文件中。

图1
图2


武大计算机学院新闻爬虫代码

下面就是武大计算机学院新闻的爬虫代码了,复制到创建的 .js 文件中,保存。

var http = require('http');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var i = 0;
//初始url 
var url = "http://cs.whu.edu.cn/a/xinwendongtaifabu/2018/0428/7053.html"; 

function fetchPage(x) {
        //封装了一层函数
  startRequest(x); 
}

function startRequest(x) {
   
     //采用http模块向服务器发起一次get请求      
     http.get(x, function (res) {
        
        var html = '';        //用来存储请求网页的整个html内容
        var titles = [];    
        res.setEncoding('utf-8'); //防止中文乱码
     //监听data事件,每次取一块数据
     res.on('data', function (chunk) {
      
	      html += chunk;
	 });
     //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
     res.on('end', function () {
   
         var $ = cheerio.load(html); //采用cheerio模块解析html
         var news_item = {
   
          //获取文章的标题
          title: $('div#container dt').text().trim(),
          i: i = i + 1,     
       };

	  console.log(news_item);     //打印新闻信息
	  var news_title = $('div#container dt').text().trim();
	  savedContent($,news_title);  //存储每篇文章的内容及文章标题
	  savedImg($,news_title);    //存储每篇文章的图片及图片标题
       //下一篇文章的url
       var nextLink="http://cs.whu.edu.cn" + $("dd.Paging a").attr('href');
       str1 = nextLink.split('-');  //去除掉url后面的中文
       str = encodeURI(str1[0]);  
       //这是亮点之一,通过控制I,可以控制爬取多少篇文章.武大只有8篇,所以设置为8
       if (i <= 
  • 14
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值