scrapy框架爬虫的主要步骤:

scrapy框架爬虫的主要步骤:
1.进入你要建立爬虫项目的目录,例如我的:cd E:\spiders_test\day7

2.使用命令:

2.1 创建爬虫项目: scrapy startproject Daomu ;

2.2 创建爬虫文件: cd 项目文件夹 scrapy genspider 爬虫名 域名

2.3 允许爬虫: scrapy crawl 爬虫名

3.进入项目:cd Daomu scrapy genspider daomu www.daomu.com

4.编辑器打开刚刚建好的项目,先设置:items文件(定义要爬取的数据结构(把数据交给管道)),比如我的就是:

import scrapy

class DaomuItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # pass
    #卷名
    juan_name=scrapy.Field()
    #章节数量
    zh_num = scrapy.Field()
    #章节名字
    zh_name = scrapy.Field()
    #章节链接
    zh_link = scrapy.Field()
    #章节内容
    zh_content  = scrapy.Field()
5.编写爬虫文件实现数据抓取,比如我的就是spiders/daomu.py
6.设置管道文件,pipelines;实现数据处理:
class DaomuPipeline(object):
    def process_item(self, item, spider):
        # return item
        filename='./tt.txt'.format(
                item['juan_name'],
                item['zh_num'],
                item['zh_name']
        )
        f=open(filename,'w')
        f.write(item['zh_content'])
        f.close()
        return item
7.设置settings文件:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0',
}

ITEM_PIPELINES = {
   'Daomu.pipelines.DaomuPipeline': 300,
}'
8.新建begin文件,实现数据爬取的启动入口:
from scrapy import cmdline

cmdline.execute('scrapy crawl daomu'.split())

以上就是爬取数据的大致步骤,当然,有的是放到mongodb,或者mysql,或者excel文件中,还需要分别在settings,pipelines进一步设置

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周传伦

您的微薄的鼓励,是我前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值