scrapy框架爬虫的主要步骤：

最新推荐文章于 2022-10-27 08:15:00 发布

置顶周传伦

最新推荐文章于 2022-10-27 08:15:00 发布

阅读量594

点赞数

文章标签： python 数据库

本文链接：https://blog.csdn.net/zhouchuanlun/article/details/107530612

版权

scrapy框架爬虫的主要步骤：
1.进入你要建立爬虫项目的目录，例如我的：cd E:\spiders_test\day7

2.使用命令：

2.1 创建爬虫项目： scrapy startproject Daomu ；

2.2 创建爬虫文件： cd 项目文件夹 scrapy genspider 爬虫名域名

2.3 允许爬虫： scrapy crawl 爬虫名

3.进入项目：cd Daomu scrapy genspider daomu www.daomu.com

4.编辑器打开刚刚建好的项目，先设置：items文件（定义要爬取的数据结构（把数据交给管道）），比如我的就是：

import scrapy

class DaomuItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # pass
    #卷名
    juan_name=scrapy.Field()
    #章节数量
    zh_num = scrapy.Field()
    #章节名字
    zh_name = scrapy.Field()
    #章节链接
    zh_link = scrapy.Field()
    #章节内容
    zh_content  = scrapy.Field()
5.编写爬虫文件实现数据抓取，比如我的就是spiders/daomu.py
6.设置管道文件，pipelines;实现数据处理：
class DaomuPipeline(object):
    def process_item(self, item, spider):
        # return item
        filename='./tt.txt'.format(
                item['juan_name'],
                item['zh_num'],
                item['zh_name']
        )
        f=open(filename,'w')
        f.write(item['zh_content'])
        f.close()
        return item
7.设置settings文件：
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0',
}

ITEM_PIPELINES = {
   'Daomu.pipelines.DaomuPipeline': 300,
}'
8.新建begin文件，实现数据爬取的启动入口：
from scrapy import cmdline

cmdline.execute('scrapy crawl daomu'.split())

以上就是爬取数据的大致步骤，当然，有的是放到mongodb,或者mysql，或者excel文件中，还需要分别在settings,pipelines进一步设置

周传伦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy框架爬虫的主要步骤：

scrapy框架爬虫的主要步骤：1.进入你要建立爬虫项目的目录，例如我的：cd E:\spiders_test\day72.使用命令：2.1 创建爬虫项目： scrapy startproject Daomu ；2.2 创建爬虫文件： cd 项目文件夹 scrapy genspider 爬虫名域名2.3 允许爬虫： scrapy crawl 爬虫名3.进入项目：cd Daomu scrapy genspider daomu www.daomu.com4.编辑器打
复制链接

扫一扫