1、首先安装scrpay--不多说基本功
2、新建一个爬虫项目 scrapy startproject scrapy_tutorial
3、新建之后的目录结构不多说,进入到项目 cd scrapy_tutorial 新建一个示例使用 scrapy genspider dmoz_spider dmoz.org
此时目录结构如图所示
4、编写spider,spider为
5、item是
import scrapy
class DmozItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
6、pipelines
class TutorialPipeline(object):
def process_item(self, item, spider):
return item
7、执行scrapy crawl dmoz_spider