![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫工程化
文章平均质量分 74
学习探索爬虫工程化方面的技能,目标:爬取从容有度
HYector
这个作者很懒,什么都没留下…
展开
-
RAP工程选型
针对reallyinfo.rap采集项目到底用scrapy还是平坦化asyncio?首先,用还是不用是个问题,就我个人来说,无疑更喜欢asyncio,这种紧凑的流程化的编程方式;爬虫本身也不是什么大项目,基于配置的插件接口式编程有点重,尤其是面对复杂的api时,将复杂的中间件与spider逻辑分离不利于往后更新。其次,scrapy利用的twisted做下载器,目前对复杂的twisted研究甚少,面对有些错误或者空跑不知所云。最后,目前社区对asyncio的优秀支持,包括aioredis,aiom原创 2021-05-17 11:24:32 · 223 阅读 · 0 评论 -
urllib.request优缺点和cookie及proxy切换
urllib.request优缺点优点将proxy,cookie,重定向等功能做成插件式,并对这些插件排序管理,用于在网络访问时各个功能按次使用集成http、https、ftp等应用层协议默认自动处理 http 300 系列重定向响应采用【connection:close】方式来作为数据接收完成的信号,不再用底层的 http.client 的 【Content-Length】来作为数据接收完成的判断缺点【connection:close】是把双刃剑,每访问一次,就要建立-关闭一次连接,耗原创 2021-05-07 17:46:06 · 533 阅读 · 0 评论