![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据存储
优木
这个作者很懒,什么都没留下…
展开
-
Python Scrapy 修改默认图片管道,更改缩略图文件名
在学习使用Scrapy图片管道的时候,书上没有给出修改下载的缩略图文件名称的方法。自己研究了下,搞定了,记下来。 要爬的是起点中文网: items.py 中要爬的有这么几项: import scrapy class DownloadimageItem(scrapy.Item): # 小说名称 title = scrapy.Field() # 小说作者 ...原创 2019-12-25 21:47:23 · 471 阅读 · 0 评论 -
python Scrapy 编写自定义管道,将数据保存到 json 文件中
本文是对《scrapy网络爬虫实战》一书中,第5.2节内容的重写,由于伯乐在线网站代码有较大改动,原书中代码已经失效。 以下示例演示了 抓取https://movie.douban.com/explore#!type=movie&tag=%E7 %83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0中...原创 2019-12-22 15:08:15 · 494 阅读 · 0 评论 -
multiprocessing 使用 Process+Queue 的多进程爬虫示例
《Python网络爬虫:从入门到实践》书中7.3.1节讲到,使用multiprocessing库的第一种方法,是Process+Queue 的多进程爬虫,还给出一个例子,发现有重大逻辑bug,经1天时间研究,将正确的代码公布出来,方便广大爱好者使用、参考。 以下代码同时统计了各个子进程爬取的页面数量,已经在Pycharm 5.0.3上测试通过,欢迎大家评论留言,有问题我看到后会及时回复,谢谢。 ...原创 2019-11-19 13:19:29 · 289 阅读 · 0 评论 -
csv格式文件
csv格式文件经常用在Python爬虫程序中存储文件,原因一是这种类型的文件既能用Excel打开,又能用记事本打开,而txt文件经常遇到变量分隔的问题;原因二是csv文件和txt文件占用的存储空间差不多,只是用英文逗号做行分隔,用换行符做列分隔。 不过不同的os使用的换行符不一样,Linux使用的是\n,windows使用的是\r\n,mac用的是\r 用Excel打开时的样子如下: 用...原创 2019-11-09 14:56:16 · 448 阅读 · 0 评论