puppeteer
文章平均质量分 92
海燕技术栈
既然巅峰留不住,那就重走来时路
展开
-
ubuntu20.04修改编译chromium源码实战
首先,利用vmware搭建ubuntu20.04的虚拟机由于chromium的源码比较大,在git的时候需要分配数据交换的大小,如果小了就下不下来。所以最好给这台虚拟机分配12G内存以上。存储100G以上。ubuntu的iso文件上ubuntu官网下载即可。如果你当前机器本身就是ubuntu20.04,那么这一步就可以跳过。构建全局上网不受限的环境由于chromium源码被墙,想要clone下来需要自备全局上网不受限的环境。本机做代理,ubuntu设置网络代理为当前机器在本机中执行ipconfig原创 2020-09-25 10:53:57 · 3169 阅读 · 0 评论 -
nodejs puppeteer生产实践闭坑指南
puppeteer是谷歌出的一个用于操控无头浏览器的框架,用来做爬虫的页面下载模块是非常不错的选择。如果你写的是针对某一网站的专用爬虫,那么完全使用nodejs实现就行,如果你写的是爬取所有类型网站的通用爬虫,那么我建议你用一个熟悉的语言写爬虫引擎,Nodejs仅仅作为页面下载器。这和nodejs底层的实现和其特性有关。使用方法将puppeteer放到koa中,从而使得Node提供页面下载的接口,实现模块间的松耦合部署后的问题内存问题对于web2.0页面下载,每个页面都会加载所有的内容,会导致一原创 2020-05-30 08:45:03 · 1400 阅读 · 0 评论