scrapy框架爬虫的主要步骤:
1.进入你要建立爬虫项目的目录,例如我的:cd E:\spiders_test\day7
2.使用命令:
2.1 创建爬虫项目: scrapy startproject Daomu ;
2.2 创建爬虫文件: cd 项目文件夹 scrapy genspider 爬虫名 域名
2.3 允许爬虫: scrapy crawl 爬虫名
3.进入项目:cd Daomu scrapy genspider daomu www.daomu.com
4.编辑器打开刚刚建好的项目,先设置:items文件(定义要爬取的数据结构(把数据交给管道)),比如我的就是:
import scrapy
class DaomuItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass
#卷名
juan_name=scrapy.Field()
#章节数量
zh_num = scrapy.Field()
#章节名字
zh_name = scrapy.Field()
#章节链接
zh_link = scrapy.Field()
#章节内容
zh_content = scrapy.Field()
5.编写爬虫文件实现数据抓取,比如我的就是spiders/daomu.py
6.设置管道文件,pipelines;实现数据处理:
class DaomuPipeline(object):
def process_item(self, item, spider):
# return item
filename='./tt.txt'.format(
item['juan_name'],
item['zh_num'],
item['zh_name']
)
f=open(filename,'w')
f.write(item['zh_content'])
f.close()
return item
7.设置settings文件:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0',
}
ITEM_PIPELINES = {
'Daomu.pipelines.DaomuPipeline': 300,
}'
8.新建begin文件,实现数据爬取的启动入口:
from scrapy import cmdline
cmdline.execute('scrapy crawl daomu'.split())
以上就是爬取数据的大致步骤,当然,有的是放到mongodb,或者mysql,或者excel文件中,还需要分别在settings,pipelines进一步设置