Scrapy的安装与简单实例(1)
简单的小爬虫任务实现之后,我们可以尝试使用框架来编写爬虫。使用框架可以减少重复代码的编写,提高爬虫开发的效率以及规模。scrapy是目前最受欢迎,社区活跃程度最高的爬虫框架。这篇博文将简单介绍Scrapy的安装以及一个最简单的爬虫。
Scrapy的安装
Scrapy的安装可以使用pip install Scrapy语句实现,但是使用Scrapy的前提是我们需要安装lxml、OpenSSL等库。这些库的安装较为繁琐,在网上我看到使用Anaconda安装可以极大的简化这一个过程。
在下方一位博主的帮助之下安装好Anaconda之后.打开Anaconda,使用语句conda install scrapy
创建项目
进入打算存储代码的目录,打开cmd,输入如下命令Scrapy startproject myscrapy
创建一个项目(myscrapy就是所要创建的项目的名字)
可以看到目录中产生了一个myscrapy项目,打开之后有
编写第一个爬虫
接着输入命令行中提示的语句
cd myscrapy
scrapy genspider example example.com
其中,example是爬虫的名称,example.com是待爬取的网站
可以看到在spider目录下创建了一个example.py文件,在其中编写一个最简单的爬虫。
用idle打开example.py文件,可以看到如下代码:
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
pass
其中:
name
是爬虫的名称,每一个爬虫的名字都不一样
allowed_domians
是运行爬虫访问的列表
start_urls
表示爬虫从哪一个网址开始爬取
parse是将每一个URL完成下载之后的Response对象作为唯一参数提交给该函数
我们按照格式输入需要采集的网址,对于parse我们将内容暂时输出
import scrapy
class ExampleSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["runoob.com"]
start_urls = [
"http://www.runoob.com/xpath/xpath-examples.html",
"http://www.runoob.com/bootstrap/bootstrap-tutorial.html"
]
def parse(self, response):
print(response)
可以看到,爬虫名字是dmoz,爬取的网站是菜鸟教程,分别爬取Xpath和Bootstrap教程。
爬取结果
Scrapy的进一步内容还在进一步学习,欢迎指错,催更。
参考书籍
《python网络爬虫开发从入门到精通》刘延林编著 (P252-P255)
《python数据分析与大数据处理从入门到精通》朱春旭编著(P119-P125)