puppeteer爬虫

最新推荐文章于 2024-07-19 21:30:00 发布

一只叮code的小蚊子

最新推荐文章于 2024-07-19 21:30:00 发布

阅读量537

点赞数

分类专栏： node JavaScript 文章标签： nodejs实现爬虫 puppeteer爬虫

本文链接：https://blog.csdn.net/zjw222/article/details/94132777

版权

本文介绍了如何使用Node.js库Puppeteer进行网页爬虫操作，包括调用Puppeteer的launch方法启动浏览器，使用browser和page对象进行网页交互，以及爬取网站内容并将其转换为PDF文件的详细步骤。

摘要由CSDN通过智能技术生成

利用空闲时间，学习了下puppeteer爬虫，我也想爬取下网上的资源

1.部分api

参数名称	参数类型	参数说明
ignoreHTTPSErrors	boolean	在请求的过程中是否忽略 Https 报错信息，默认为 false
headless	boolean	是否以“无头”的模式运行chrome，也就是不显示UI，默认为true
executablePath	string	可执行文件的路径，Puppeteer 默认是使用它自带的 chrome webdriver, 如果你想指定一个自己的 webdriver 路径，可以通过这个参数设置
slowMo	number	使 Puppeteer 操作减速，单位是毫秒。如果你想看看 Puppeteer 的整个工作过程，这个参数将非常有用
args	Array(String)	传递给 chrome 实例的其他参数，比如你可以设置浏览器窗口大小具体参数
timeout	number	等待chrome实例启动的最长时间，默认是3000ms，如果传入0，则不限制时间
dumpi