selenium + python环境搭建

最新推荐文章于 2024-05-21 16:53:42 发布

Kosmoo

最新推荐文章于 2024-05-21 16:53:42 发布

阅读量8.4k

点赞数 1

分类专栏： python爬虫环境搭建文章标签： python selenium 环境搭建

本文链接：https://blog.csdn.net/zwq912318834/article/details/78550666

版权

1. 背景

需求：爬取 https://www.1688.com/ 搜索结果中货源的数据。

本来想使用scrapy来实现，但是在实现时遇到两个问题：

第一，如果使用的user-agent是移动版，那么在访问时，会被重定向到移动app版的页面 http://m.1688.com/touch/?src=desktop>，日志如下：

2017-11-16 14:27:46 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET http://m.1688.com/touch/?src=desktop> from <GET https://www.1688.com/>
2017-11-16 14:27:56 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://m.1688.com/touch/?src=desktop> (failed 1 times): 503 Service Unavailable

解决方法是将user-agent固定为PC版本，确实能获取到正常的主页，如下：

request.headers['User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)

最低0.47元/天解锁文章

Kosmoo

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
selenium + python环境搭建

1. 背景需求：爬取 https://www.1688.com/ 搜索结果中货源的数据。本来想使用scrapy来实现，但是在实现时遇到两个问题：第一，如果使用的user-agent是移动版，那么在访问时，会被重定向到移动app版的页面 http://m.1688.com/touch/?src=desktop&amp;gt;，日志如下：2017-11-16 14:27:46 [s...
复制链接

扫一扫