Scrapy爬虫
云飞扬°
这个作者很懒,什么都没留下…
展开
-
Scrapy安装与配置
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 (一个爬虫框架)安装命令:pip install Scrapy官方教程:https://docs.scrapy.org/en/latest/intro/tutorial.html如果安装失败:要先安装Twistedpip install Twisted-19.2.0-cp37-cp37m-win_am...原创 2019-08-19 10:42:20 · 120 阅读 · 0 评论 -
Scrapy爬虫四步法:爬取51job网站
Scrapy爬虫四步法一、创建项目打开pycharm下面的Terminal窗口scrapy startproject 项目名如:scrapy startproject crawler51job二、定义要爬取的数据编写items文件(Item对象可以保存爬取到的数据,相当于存储爬取到的数据的容器。)# -*- coding: utf-8 -*-# Def...原创 2019-08-19 11:20:13 · 4059 阅读 · 1 评论 -
Scrapy项目的目录结构
1-items的编写Item对象可以保存爬取到的数据,相当于存储爬取到的数据的容器。对于爬取到的的数据,需要提取出我们关注的结构化的信息,以便于对数据的管理。2-pipelines的编写主要用于接收提取出来的项目(item),接收后,会对这些item进行处理常见的处理方式主要有:清洗、验证、导出到外部文件、存储到数据库等。3-settings的编写settings文件为...原创 2019-08-19 12:09:11 · 1003 阅读 · 0 评论 -
Scrapy爬取多页数据
一、创建项目打开pycharm下面的Terminal窗口scrapy startproject 项目名例如:scrapy startproject crawler51job二、定义要爬取的数据编写items文件# -*- coding: utf-8 -*-# Define here the models for your scraped items## Se...原创 2019-08-19 14:26:20 · 3916 阅读 · 1 评论 -
Scrapy中的Selectors及正则表达式的使用
1-Request表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response。使用前需要先导入:from scrapy.http import Request2-Response表示的HTTP响应,这通常是下载,并提交到爬虫进行处理。3-在selectors中使用XPaths3-1-构建selectors通过response的selec...原创 2019-08-19 15:00:12 · 1621 阅读 · 0 评论 -
Scrapy常用命令
一、全局命令1-startproject创建一个新的Scrapy项目:scrapy startproject <project_name> [project_dir]例如:scrapy startproject Crawler51job【注意】项目名称不能以数字开头2-genspider在当前文件夹或者当前项目,创建一个新的爬虫文件scrapy g...原创 2019-08-19 15:20:56 · 1844 阅读 · 0 评论