本爬虫是为了经验交流,喜欢博主的读者,可以点个关注~,更多精彩内容*
爬虫过程
* 分析网页
* 获取每一位英雄的ID值
* 分析原画网页
- 结语
前言
在本次的爬虫教程的过程中,我也会分享给大家一些简单实用的爬虫小技巧。
夜太美,爬虫就没那么危险
在爬取的时候,不要猛攻嘛~,啊啊。。人家服务器受不了啊。。。
你要学会停顿,克制一点,该 sleep 就 sleep。
趁着人家睡觉的时候,限制防范程度是最低的,能晚点就晚点爬,没有看过凌晨4点的洛杉矶,但是你还可以看到凌晨4点的爬虫呢。
这样你的IP地址才不会容易被封。
善于利用他人的UA
如果你在看别人网站的robots.txt,你就会看到别人的声明,声明什么内容可以爬,什么内容不可以爬。但是,不要忽略了人家的声明,希望给什么搜索引擎爬,比如下面这个
看到没,这个别人定义的robots.txt值得注意的是 User-Agent ,那么当你在Python构造headers的时候,User-Agent就直接指定它们的robots定义的就好了啊,比如:百度的UA,Google的UA或者是搜狗的UA等等。你再去爬爬看,那叫一个友好啊。