Node.js简单爬虫开发过程

最新推荐文章于 2024-06-28 16:01:48 发布

哈哈哈你猜我是谁

最新推荐文章于 2024-06-28 16:01:48 发布

阅读量291

点赞数

分类专栏： Node.js 文章标签： node.js 爬虫 nodejs pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiuqianli1996/article/details/78316702

版权

Node.js 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

背景：c#课上老师问我怎么没有课本，面对30多块的课本表示并不想买，于是各种搜索结果只在书问网看见有电子版，并且只能免费预览几十页。

过程：
1.本着能不花钱就不花钱的原则，提示我付费继续阅读后清除浏览器数据发现又可以继续看几十页，得出结果：禁用cookie即可无限预览。

看了下预览页面的html源码，结构不算复杂，内容是一张图片，瞬间想起图片生成pdf，然后就开始尝试使用nodejs开发一个小工具方便下载某些书籍。

使用request+request-promise来处理异步网络请求，使用cheerio解析html获取相关数据，bluebird解决回调金字塔(至今没怎么用明白)，mkdirp快速创建文件夹，rimraf快速删除文件夹，pdfkit将图片生成pdf。

开发过程遇到的陷阱（大多数是因为自己能力的不足）：
1.promise.then里嵌套异步操作需要按序执行的话可以return该异步操作的promise对象。(因为这个导致的bug拖进度挺久)
2.utf-8编码网页在cheerio.load的时候最好加上disableEncodeEntities:false参数，不然汉字会是utf-8编码(水平有限不知怎么描述，反正不是正常汉字)

最后放源码，仅供参考，不要被我某些不规范的代码误导

https://gitee.com/981764793/shuwen-download

哈哈哈你猜我是谁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Node.js简单爬虫开发过程

背景：c#课上老师问我怎么没有课本，面对30多块的课本表示并不想买，于是各种搜索结果只在书问网看见有电子版，并且只能免费预览几十页。过程：1.本着能不花钱就不花钱的原则，提示我付费继续阅读后清除浏览器数据发现又可以继续看几十页，得出结果：禁用cookie即可无限预览。看了下预览页面的html源码，结构不算复杂，内容是一张图片，瞬间想起图片生成pdf，然后就开始尝试使用nodej
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。