![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫程序
优木
这个作者很懒,什么都没留下…
展开
-
Python Scrapy 修改默认图片管道,更改缩略图文件名
在学习使用Scrapy图片管道的时候,书上没有给出修改下载的缩略图文件名称的方法。自己研究了下,搞定了,记下来。要爬的是起点中文网:items.py 中要爬的有这么几项:import scrapyclass DownloadimageItem(scrapy.Item): # 小说名称 title = scrapy.Field() # 小说作者 ...原创 2019-12-25 21:47:23 · 471 阅读 · 0 评论 -
Python Scrapy 编写自定义文件管道自动下载文件
http://yjs.hebut.edu.cn/yjsgzb/xzzq/ 通过河北工业大学研究生院-学生工作-下载专区,测试如何使用FilesPipeline。通过下载链接可以看出有些直接可以下载,而有些则要从点开的页面中寻找。为简化学习过程,我们只保存后面4个。(1)创建项目:scrapy startproject filedownload(2)使用genspider创建爬虫...原创 2019-12-25 17:22:19 · 396 阅读 · 0 评论 -
python Scrapy 编写自定义管道,将数据保存到 json 文件中
本文是对《scrapy网络爬虫实战》一书中,第5.2节内容的重写,由于伯乐在线网站代码有较大改动,原书中代码已经失效。以下示例演示了抓取https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0中...原创 2019-12-22 15:08:15 · 494 阅读 · 0 评论 -
scrapy框架下使用SitemapSpider爬取织梦园模板网的网站地图
Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。Google、微软都支持一个被称为xml网站地图(xml Sitemaps)的协议,而百度Sitemap是指百度...原创 2019-12-16 15:17:35 · 394 阅读 · 0 评论 -
scrapy框架下使用通用爬虫XMLFeedSpider爬取新浪微博的RSS
我们一般用xmlfeed模版爬虫去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效和便捷。RSS是基于XML标准的,扩展名是 .xml ,需要下载专门的阅读器才能打开,否则看到的就是这个样子:(1)创建项目:scrapy startproject xmlfeedspider(2)使用XMLFeedSpider模板创建爬虫:scrapy genspid...原创 2019-12-16 13:33:44 · 493 阅读 · 0 评论 -
Python 多协程实验时报错 Error: maximum recursion depth exceeded 程序退出代码1073741571
在多协程程序代码过程中,试验了一个小项目,获取上千个url中页面,代码如下:import geventfrom gevent.queue import Queueimport timeimport requestsfrom gevent import monkey#把下面有可能有IO操作的单独做上标记monkey.patch_all() # 将IO转为异步执行的函数link_...原创 2019-11-21 10:52:22 · 722 阅读 · 0 评论 -
multiprocessing 使用 Process+Queue 的多进程爬虫示例
《Python网络爬虫:从入门到实践》书中7.3.1节讲到,使用multiprocessing库的第一种方法,是Process+Queue 的多进程爬虫,还给出一个例子,发现有重大逻辑bug,经1天时间研究,将正确的代码公布出来,方便广大爱好者使用、参考。以下代码同时统计了各个子进程爬取的页面数量,已经在Pycharm 5.0.3上测试通过,欢迎大家评论留言,有问题我看到后会及时回复,谢谢。...原创 2019-11-19 13:19:29 · 289 阅读 · 0 评论 -
csv格式文件
csv格式文件经常用在Python爬虫程序中存储文件,原因一是这种类型的文件既能用Excel打开,又能用记事本打开,而txt文件经常遇到变量分隔的问题;原因二是csv文件和txt文件占用的存储空间差不多,只是用英文逗号做行分隔,用换行符做列分隔。不过不同的os使用的换行符不一样,Linux使用的是\n,windows使用的是\r\n,mac用的是\r用Excel打开时的样子如下:用...原创 2019-11-09 14:56:16 · 448 阅读 · 0 评论 -
requests后用 soup.find 找不到指定标签的原因分析
在实践中,用 Microsoft Edge 浏览器打开了 www.santostan.com 进行BeautifulSoup.find()方法的学习实践,开发工具看到的源代码如下:我想找到选中的标签,所以用了如下的代码:import requestsfrom bs4 import BeautifulSoupheaders = {'user-agent' : 'Mozilla/5...原创 2019-11-09 10:56:11 · 2763 阅读 · 0 评论 -
Python获取TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分
《Python网络爬虫:从入门到实践》3.4.3自我实践题:获取豆瓣网上TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分。学习嘛,就费了点劲自己试了一下,挺耽误时间的,不过好在搞出来了,书上给的代码有点问题,不够全面。现在把自己测试过的源代码给大家分享出来,供大家学习借鉴,正好正则表达式一起学了,还是很有收获的。由于电影的英文名、港台名爬取过滤比较麻烦,太耽误...原创 2019-11-08 19:11:16 · 4521 阅读 · 1 评论