Scrapy安装与使用
打开命令提示符下载安装Scrapy所必须的环境:
优先下载python下载更新文件:python -m pip install --upgrade pip
然后在下载这四个:pip install wheel
pip install lxml
pip install twisted
pip install pywin32
pip install scrapy
下载之后输入:pip list查询是否下载成功
创建项目
打开终端输入:scrapy startproject 项目名
然后输入:cd (刚创建的项目名) 进入项目中
最后拟定项目名:scrapy genspider (拟定的爬虫名字) (网址)
创建后文件为
修改文件
修改setting文件
#是否遵循机器协议 ROBOTSTXT_OBEY = False
#爬虫等待时间 DOWNLOAD_DELAY = 1。
#默认请求头 DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36' }
#定义管道优先级 ITEM_PIPELINES = { 'TXmovies.pipelines.TxmoviesPipeline': 300, }
class TxmoviesItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
Field方法实际上的做法是创建一个字典,给字典添加一个建,暂时不赋值,等待提取数据后再赋值。下面item的结构可以表示为:{'name':'','descripition':''}
如:class TxmoviesItem(scrapy.Item):
name = scrapy.Field()
写自己的爬虫程序,最后写一个跑的程序。