
Python 爬虫开发常见问题
文章平均质量分 69
机灵鹤
这个作者很懒,什么都没留下…
展开
-
Python 爬虫基础: 如何将数据存入Mysql数据库
本篇博客主要记录如何通过 Python 连接 MySQL 数据库,并实现 增删改查 操作的。原创 2021-12-15 10:07:53 · 21946 阅读 · 0 评论 -
Python爬虫基础:使用 Python 爬虫时经常遇到的问题合集
从开始玩爬虫到现在差不多半年多了,写了不少爬虫,爬了不少网站,在博客里也分享了不少爬虫的教程。我的教程文章中,一般会附带完整的爬虫代码,大家只要搭建好环境,便可以直接运行使用。不少读者朋友在使用爬虫遇到问题时也会跟我讨论,交流过程中我发现了一些比较共性的问题。因此文章重点放在了思路分析上,具体如何编写代码爬取数据则简单略过。造成了一些读者,基于我的代码进行修改爬取其他相似网站时束手无策。...原创 2019-07-08 15:28:39 · 18041 阅读 · 21 评论 -
【Pyppeteer】如何避开网站的反爬检测
【问题描述】有些网站的反爬机制是很强的,不仅网络请求中的参数经过 JS 加密,甚至还针对一些常用的爬虫工具,如 Selenium 作了屏蔽。比如前段时间我爬取的卫健委官网,反爬机制就相当变态(传送门:Python网络爬虫实战:卫健委官网数据的爬取)。本文教你如何设置 Pyppeteer 来完美地避开这些反爬机制的检测。【解决方法】方法一:在导入 launch 之前 把 --enable-automation 禁用 防止监测webdriverfrom pyppeteer imp.原创 2020-06-18 21:39:37 · 6078 阅读 · 7 评论 -
【Pyppeteer】如何进行超时时时间设置
【问题描述】在爬取网页的过程中,不可避免会有一部分链接失效,或者各种原因导致服务器响应慢,甚至不响应。这里有一个“超时时间” 的参数设置,就是如果服务器在指定时间内没有响应的话,程序直接停止等待响应,抛出异常。Pyppeteer 默认的超时时间是 30 秒。很多时候,30秒其实有点太长,或者太短了,我们希望可以根据项目实际情况,自己设置超时时间。【解决方法】我在网上找了一些方法,也做了一些测试。不知道是不是我的方法有问题,目前只有 方法三和 方法四 测试成功。这里将我...原创 2020-06-18 20:59:38 · 4575 阅读 · 1 评论 -
【Pyppeteer】爬取多个网页时,如何只创建一个浏览器窗口,打开多个页签
【问题描述】使用Pyppeteer 工具写爬虫时,我们一般可以用这样的方式来爬取网页。import asynciofrom pyppeteer import launch url = 'http://www.baidu.com' async def fetchUrl(url): browser = await launch({'headless': False,'dumpio':True, 'autoClose':True}) page = await browser..原创 2020-06-18 14:01:12 · 3777 阅读 · 7 评论 -
【Python爬虫错误】'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序或批处理文件
【问题描述】在编写好 python 爬虫程序,准备部署到云服务器上时,遇到一个问题。$ scrapyd-deploy AliCloud -p SmartCraneHub执行上述部署的代码时,报错:'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序或批处理文件。 【解决方案】查阅各种资料之后,终于成功解决。下面是解决的方法,供大家参考:1...原创 2018-11-24 22:14:30 · 7212 阅读 · 0 评论 -
Python 爬虫基础:使用代理 IP 和随机 UA 绕过反爬机制
本周事情比较多,又要赶项目,又要搞毕设,而且住的地方也远了,来回挺不方便的,所以......所以......其实上面的都是借口,真正的原因是,本周我受人委托,去爬一些 3D 模型的网站,但是这些网站的反爬机制实在强的可怕,账号登陆时有特别复杂的图形验证码(类似于12306的那种,让选哪张图中有小汽车,热水壶等类的问题,),下载链接也并不是网页中提供的那个,而是通过一系列复杂的 js 脚本函...原创 2018-12-23 21:47:39 · 4398 阅读 · 1 评论