scrapy爬虫实战

前言

之前课内项目使用bs4和request来做爬虫,现在看起来有点愚蠢,之后开始使用scrapy。

一个最小的示例

  • 安装scrapy
$ pip install scrapy

或者在pycharm中引入依赖会更好,pip似乎容易报无关错误。

  • 接着创建爬虫项目
$ scrapy startproject kaggle
  • 然后创建你的爬虫
$ cd kaggle
$ scrapy genspider spider_name domain

这下就生成了一个名为spider_name,并且限定在domain上爬取的爬虫。

在kaggle/spiders/spider_name.py里可以看到如下代码

import scrapy


class KspiderSpider(scrapy.Spider):
    name = 'kspider'
    allowed_domains = ['domain']
    start_urls = ['url']

    def parse(self, response):
        print(response)

其中allowed_domains是刚才填写的domain,start_url是起始发送request的地址。

  • 开始爬取
scrapy crawl spider_name

如果前面都没有问题,会看到如下信息
在这里插入图片描述

XPATH

基本概念

首先先来学一下强大的selector XPATH工具。先了解一下xpath里面的基本概念。
这三张图可以基本包括常用的xpath字符串。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单来说,xpath就是在xml树上遍历的一个字符串,由一步一步组成,每一步都定义了轴(相对于当前

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值