crawler(爬虫)模块
适用于Node的功能最强大,最受欢迎和生产中的抓取/抓取软件包,祝您黑客愉快:)
安装
下载node.js后 首先先在终端进行初始化
$ npm init -y
然后在终端中进行爬虫模块的安装
npm i crawler
基本用法
// 导入crawler包
var Crawler = require("crawler");
// 创建爬虫对象
var c = new Crawler({
maxConnections : 10,
// 爬完一个数据 会触发的事件
callback : function (error, res, done) {
if(error){
console.log(error);
}else{
// 爬去网站之后 爬虫模块提供的一个$对象 $可以让我们以jQuery的方法来访问数据
var $ = res.$;
console.log($("title").text());
}
done();
}
});
//需要进行爬虫的网址
c.queue('http://www.amazon.com');
// Queue a list of URLs
c.queue(['http://www.google.com/','http:/