前言
之前课内项目使用bs4和request来做爬虫,现在看起来有点愚蠢,之后开始使用scrapy。
一个最小的示例
- 安装scrapy
$ pip install scrapy
或者在pycharm中引入依赖会更好,pip似乎容易报无关错误。
- 接着创建爬虫项目
$ scrapy startproject kaggle
- 然后创建你的爬虫
$ cd kaggle
$ scrapy genspider spider_name domain
这下就生成了一个名为spider_name,并且限定在domain上爬取的爬虫。
在kaggle/spiders/spider_name.py里可以看到如下代码
import scrapy
class KspiderSpider(scrapy.Spider):
name = 'kspider'
allowed_domains = ['domain']
start_urls = ['url']
def parse(self, response):
print(response)
其中allowed_domains是刚才填写的domain,start_url是起始发送request的地址。
- 开始爬取
scrapy crawl spider_name
如果前面都没有问题,会看到如下信息
XPATH
基本概念
首先先来学一下强大的selector XPATH工具。先了解一下xpath里面的基本概念。
这三张图可以基本包括常用的xpath字符串。
简单来说,xpath就是在xml树上遍历的一个字符串,由一步一步组成,每一步都定义了轴(相对于当前