scrapy爬虫实战

最新推荐文章于 2024-04-26 04:12:18 发布

一旦9912

最新推荐文章于 2024-04-26 04:12:18 发布

阅读量1.5k

点赞数

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/weixin_44602409/article/details/112686307

版权

前言

之前课内项目使用bs4和request来做爬虫，现在看起来有点愚蠢，之后开始使用scrapy。

一个最小的示例

安装scrapy

$ pip install scrapy

或者在pycharm中引入依赖会更好，pip似乎容易报无关错误。

接着创建爬虫项目

$ scrapy startproject kaggle

然后创建你的爬虫

$ cd kaggle
$ scrapy genspider spider_name domain

这下就生成了一个名为spider_name，并且限定在domain上爬取的爬虫。

在kaggle/spiders/spider_name.py里可以看到如下代码

import scrapy


class KspiderSpider(scrapy.Spider):
    name = 'kspider'
    allowed_domains = ['domain']
    start_urls = ['url']

    def parse(self, response):
        print(response)

其中allowed_domains是刚才填写的domain，start_url是起始发送request的地址。

开始爬取

scrapy crawl spider_name

如果前面都没有问题，会看到如下信息
在这里插入图片描述

XPATH

基本概念

首先先来学一下强大的selector XPATH工具。先了解一下xpath里面的基本概念。
这三张图可以基本包括常用的xpath字符串。
在这里插入图片描述

简单来说，xpath就是在xml树上遍历的一个字符串，由一步一步组成，每一步都定义了轴（相对于当前

最低0.47元/天解锁文章

一旦9912

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫实战

前言之前课内项目使用bs4和request来做爬虫，现在看起来有点愚蠢，之后开始使用scrapy。一个最小的示例安装scrapy$ pip install scrapy或者在pycharm中引入依赖会更好，pip似乎容易报无关错误。接着创建爬虫项目$ scrapy startproject kaggle然后创建你的爬虫$ cd kaggle$ scrapy genspider spider_name domain这下就生成了一个名为spider_name，并且限定在d
复制链接

扫一扫