一个简单的网站图片爬取程序

最新推荐文章于 2023-01-12 09:57:20 发布

如猫

最新推荐文章于 2023-01-12 09:57:20 发布

阅读量826

点赞数

本文链接：https://blog.csdn.net/yi_qingsong/article/details/109274262

版权

最近学习Node.js,感觉一个爬起网站图像的程序有点意思，记录下来，供以后参考。

程序的运行环境：从官网下载安装Node.js，同时安装好了nmp。

需要两个包：response和cheerio。一个负责向网站发起请求，获取指定网页，生成DOM, 从而获取图片的链接。

一个将获取的图片保存到磁盘。（nmp insall response cheerio下载所需的包）

应用文件夹结构：

img目录存放抓取得图片。node_modules是相关的包：response和cheerrio.

package.json是npm init命令生成的包信息。

index.js的内容：

//------------------------config.js------配置文件

config.js

const url='要抓取得网站'; //如：http://www.baidu.com
const path=require('path');
const imgDir=path.join(__dirname,'img');
module.exports.url=url;
module.exports.imgDir=imgDir;

//--------------analyze.js------------分析获取图片链接

const cheerio=require('cheerio');
function findImg(dom,callback){
   let $=cheerio.load(dom);
   $('img').each(function(i,elem){
       let imgSrc=$(this).attr('src');
       console.log(imgSrc);
       callback(imgSrc,i);
   });
}
module.exports.findImg=findImg;

//----------------------------------

以上就是所有的程序：

运行：node index.js

就成功获取到图片文件，保存在img目录下。

注：以上内容主要来自于忽如寄的书《Node.js开发实战》，稍有改动。

如猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一个简单的网站图片爬取程序

最尽学习Node.js,感觉一个爬起网站图像的程序有点意思，记录下来，供以后参考。程序的运行环境：从官网下载安装Node.js。需要两个包：response和cheerio。一个负责向网站发起请求，获取指定网页，生成DOM, 从而获取图片的链接。一个将获取的图片保存到磁盘。应用文件夹结构：img目录存放抓取得图片。node_modules是相关的包：response和cheerrio.package.json是npm init命令生成...
复制链接

扫一扫