![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
文章平均质量分 85
一二一O
这个作者很懒,什么都没留下…
展开
-
scrapy学习-第一天
scrapy学习案例文章目录前言一、scrapy创建项目二、代码部分1.爬取数据2.保存图片到本地3.完整代码前言Scrapy 是一个快速高级网络爬行和Web 刮擦框架,用于爬取网站并从其页面中提取结构化数据。它可以用于各种目的,从数据挖掘到监控和自动测试详情可查看官方文档一、scrapy创建项目1.首先在自己所创建的目录下打开终端(在安装好scrapy前提下)输入以下命令scrapy startproject (项目名):scrapy startproject scrapy_on原创 2021-07-21 20:12:21 · 113 阅读 · 0 评论 -
scrapy框架-----豆瓣电影排行榜爬取
scrapy框架-----豆瓣电影排行榜爬取1.页面信息爬取2.将信息存到MongoDB中3.scrapy换ip防封1.页面信息爬取这里爬取豆瓣电影喜剧电影排行榜通过开发调试工具network找到网页中电影信息,通过ajax请求得到在headers中可以得到url在该url中主要参数为limit(响应得到的电影数量) start开始在预览中可以发现,使用json格式将主要信息获取下来,由于信息不完整需要进入详细页面分析 def parse(self, response):原创 2021-08-19 21:07:21 · 603 阅读 · 0 评论 -
scrapy对接selenium爬取动态渲染页面
scrapy对接selenium爬取动态渲染页面一、马蜂窝热门游记信息爬取二、对接selenium三、解析页面信息得到需要内容完整代码:一、马蜂窝热门游记信息爬取爬取马蜂窝 热门游记信息(标题、内容、地点、作者)分析其网页,在源代码中可以发现没有这些想要的信息,初步判定这是用js渲染出来的。再在network中也没有找到想要的信息。因此选择使用selenium对页面操作拿到想要的数据。在网页源代码中未找到主页面中的词语等,二、对接selenium在爬虫代码中加入selenium所需的内.原创 2021-08-19 21:46:30 · 729 阅读 · 2 评论 -
scrapy框架-----crawlspider全站数据爬取
一、创建crawlspider scrapy genspider -t crawl spisers xxx.comspiders为爬虫名 域名开始不知道可以先写xxx.com代替二、爬取彼岸图网分类下所有图片创建完成后只需要修改start_urls 以及LinkExtractor中内容并将follow改为True,如果不改的话只能提取到1、2、3、4、5、6、7、53的网页,允许后自动获取省略号中未显示的页面urlclass BeautySpider(CrawlSpider): n原创 2021-08-19 22:20:03 · 443 阅读 · 0 评论 -
scrapy_selenium 使用 SeleniumRequests
一、scrapy_selenium安装pip install 二、配置scrapy1.修改settingsSELENIUM_DRIVER_NAME 要和启动浏览器名一致,SELENIUM_DRIVER_EXECUTABLE_PATH 是驱动路径使用which方法可以返回出驱动器路径也可直接写驱动器路径,which 效果如下:(返回在cmd中可执行文件路径)如果不想设置无头启动就给一个空内容可以是空字符串空列表等但必须有SELENIUM_DRIVER_ARGUMENTS = []代码如下原创 2021-09-16 14:45:58 · 2038 阅读 · 4 评论