![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
June_Hoo
这个作者很懒,什么都没留下…
展开
-
scrapy五大组件及setting配置
settings:增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加。在settings中修改CONCURRENT_REQUESTS = 32降低日志级别:在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为:LOG_ERROR=‘ERROR’禁止COOKIE:如果不是真的需要cookie,则在scrapy爬取数据时可以禁止cookie从而减少CPU使用率,提升性能:COOKIES_ENABLED = False禁止重试:原创 2021-03-30 22:36:01 · 269 阅读 · 0 评论 -
scrapy基础(中间件)
中间件/管道的使用都先要在setting里启动中间件下载中间件位置:引擎和下载器之间作用:批量拦截到整个工程中所有的请求和响应拦截请求:UA伪装:process_request代理IP:process_exception:return request拦截响应:篡改响应数据,响应对象需求:爬取网易新闻中的新闻数据(标题和内容)1.通过网易新闻的首页解析出五大板块对应的详情页的url(没有动态加载)2.每一个板块对应的新闻标题都是动态加载出来的(动态加载)3原创 2021-03-29 22:27:00 · 80 阅读 · 0 评论 -
python怎样提取出列表中的字符串
小例子:list1=[1,‘two’,‘three’,4]print(’ '.join(list1))以为会打印 1 two three 4结果报了错Traceback (most recent call last):File “<pyshell#27>”, line 1, in print(" ".join(list1))TypeError: sequence item 0: expected str instance, int found解决办法:print(" ".join转载 2021-03-19 22:47:49 · 7391 阅读 · 1 评论