- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 HTTP听课笔记(一)
http前生今世HTTP 协议始于三十年前蒂姆·伯纳斯 - 李的一篇论文;HTTP/0.9 是个简单的文本协议,只能获取文本资源;HTTP/1.0 确立了大部分现在使用的技术,但它不是正式标准;HTTP/1.1 是目前互联网上使用最广泛的协议,功能也非常完善;HTTP/2 基于 Google 的 SPDY 协议,注重性能改善,但还未普及;HTTP/3 基于 Google 的 QUIC 协议,是将来的发展方向。http是什么?http又不是什么?http:超文本传输协议“超文本”
2020-11-22 10:41:46 157 1
原创 爬虫项项目总结七)(scrapy运行原理)
此博客仅用于不本人学习。如有侵权请联系我,立即删除。scrapy的流程:首先,spider给出开始的url,(start_urls的网址),然后将url交给engine(引擎),engine将url(request)交给scheduler进行排序入队,scheduler将request返回给engine,engine将request发送downloader,按照下载器中间件(middlewares)进行下载,将response返回给引擎,如果下载错误,engine将错误request发送给schedu
2020-11-04 11:35:47 128
原创 爬虫项目总结(六)(随机user-agent)
首先在settings.py中设置USER_AGENT = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.418
2020-11-02 21:31:35 458
原创 爬虫项目总结(五)(ip池的使用)
此笔记只为本人复习为用,如有侵权请联系我,马上删除。(一)首先在setting.py进行设置IPPOOLS= ['http://183.207.95.45:80', 'http://202.85.213.220:3128']ITEM_PIPELINES = {P '项目的名字.pipelines.ProxiesPiplelines': 490,}然后再middlewares.py中进行设置class ProxiesMiddleware(object):
2020-11-02 20:59:48 883
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人