Python学习笔记十一(Scrapy框架常见命令)
2019-07-23 16:41:24 星期二
Scrapy框架常见命令与实战
本课概要
- 糗事百科自动爬电实战(通用爬虫方式)
- 天善智能自动爬电实战
Scrapy常见命令详解
利用cmd 命令scrapy -h
。
bench #测试命令Run quick benchmark test
fetch #直接爬一个网页,并看见运行过程Fetch a URI using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider #不创建爬虫项目仍然运行爬虫 Run a self-contained spider (without creating a project)
settings Get settings values
shell测试 Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser,as seen by Scrapy
nolog #不显示日志信息
利用fetch爬取网页
有爬虫过程
。
使用nolog以此不显示爬虫过程
runspider
不创建爬虫项目仍然运行爬虫
shell命令
进入网站的交互终端,输入一些代码进行调试
scrapy startproject +项目名;scrapy version 查看版本信息
创建爬虫项目
view下载某个网页,并且用浏览器查看
bench测试硬件性能
在项目里创建一个或多个爬虫
genspider -l显示爬虫模板
basic#基础模板
crawl#自动爬虫
csvfeed#处理csv文件
xml feed#处理xml文件
genspider -t 基于模板创建一个爬虫文件
genspider -t 模板格式 模板名 域名
check 测试
crawl 运行爬虫
list显示当前项目中可以使用的项目文件
edit 利用编辑器直接打开一个爬虫文件
(仅在linux环境下运行)