如何构建一个通用的垂直爬虫平台？

最新推荐文章于 2024-05-10 15:05:21 发布

置顶

Magic-Kaito

最新推荐文章于 2024-05-10 15:05:21 发布

阅读量287

点赞数 1

分类专栏：爬虫实战文章标签： python 爬虫

本文链接：https://blog.csdn.net/ynxts/article/details/112342507

版权

微信搜索关注「水滴与银弹」公众号，第一时间获取优质技术干货。7年资深后端研发，用简单的方式把技术讲清楚。

之前做爬虫时，在公司设计开发了一个通用的垂直爬虫平台，后来在公司做了内部的技术分享，这篇文章把整个爬虫平台的设计思路整理了一下，分享给大家。

写一个爬虫很简单，写一个可持续稳定运行的爬虫也不难，但如何构建一个通用化的垂直爬虫平台？

这篇文章，我就来和你分享一下，一个通用垂直爬虫平台的构建思路。

爬虫简介

首先介绍一下，什么是爬虫？

搜索引擎是这样定义的：

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取网页信息的程序或者脚本。

很简单，爬虫就是指定规则自动采集数据的程序脚本，目的在于拿到想要的数据。

而爬虫主要分为两大类：

通用爬虫（搜索引擎）
垂直爬虫（特定领域）

由于第一类的开发成本较高，所以只有搜索引擎公司在做，如谷歌、百度等。

而大多数企业在做的都是第二类，成本低、数据价值高。

例如一家做电商的公司只需要电商领域有价值的数据，那开发一个只采集电商领域数据的爬虫平台，意义较大。

我要和你分享的主要是针对第二类，垂直爬虫平台的设计思路。

如何写爬虫

首先，从最简单的开始，我们先了解一下如何写一个爬虫？

简单爬虫

开发爬虫最快的语言一般是 Python，它的代码写起来非常少。我们以抓取豆瓣书籍页面为例，来写一个简单的程序。

# coding: utf8

"""简单爬虫"""

import requests
from lxml import etree

def main():
    # 1. 定义页面URL和解析规则
    crawl_urls = [
        'https://book.douban.com/subject/25862578/',
        'https://book.douban.com/subject/26698660/',
        'https://book.douban.com/subject/2230208/'
    ]
    parse_rule = "//div[@id='wrapper']/h1/span/text()"

    for url in crawl_urls:
        # 2. 发起HTTP请求
        response = requests.get(url)

        # 3. 解析HTML
        result = etree.HTML(response.text).xpath(parse_rule)[0]

        # 4. 保存结果
        print result

if __name__ == '__main__':
    main()

这个爬虫比较简单，大致流程为：

定义页面URL和解析规则
发起HTTP请求
解析HTML，拿到数据
保存数据

任何爬虫，要想获取网页上的数据，都是经过这几步。

当然，这个简单爬虫效率比较低，是采用同步抓取的方式，只能抓完一个网页，再去抓下一个，有没有可以提高效率的方式呢？

异步爬虫

我们进行优化，由于爬虫的抓取请求都是阻塞在网络 IO 上，所以我们可以使用异步的方式来优化，例如多线程或协程并行抓取网页数据，这里用 Python 的协程来实现。

# coding: utf8

"""协程版本爬虫，提高抓取效率"""

from gevent import monkey
monkey.patch_all()

import requests
from lxml import etree
from gevent.pool import Pool

def main():
    # 1. 定义页面URL和解析规则
    crawl_urls = [
        'https://book.douban.com/subject/25862578/',
        'https://book.douban.com/subject/26698660/',
        'https://book.douban.com/subject/2230208/'
    ]
    rule = "//div[@id='wrapper']/h1/span/text()"

    # 2. 抓取
    pool = Pool(size=10)
    for url in crawl_urls:
        pool.spawn(crawl, url, rule)

    pool.join()

def crawl(url, rule):
    # 3. 发起HTTP请求
    response = requests.get(url)

    # 4. 解析HTML
    result = etree.HTML(response.text).xpath(rule)[0]

    # 5. 保存结果
    print result

if __name__ == '__main__':

最低0.47元/天解锁文章

Magic-Kaito

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何构建一个通用的垂直爬虫平台？

微信搜索关注「水滴与银弹」公众号，第一时间获取优质技术干货。7年资深后端研发，用简单的方式把技术讲清楚。之前做爬虫时，在公司设计开发了一个通用的垂直爬虫平台，后来在公司做了内部的技术分享，这篇文章把整个爬虫平台的设计思路整理了一下，分享给大家。写一个爬虫很简单，写一个可持续稳定运行的爬虫也不难，但如何构建一个通用化的垂直爬虫平台？这篇文章，我就来和你分享一下，一个通用垂直爬虫平台的构建思路。爬虫简介首先介绍一下，什么是爬虫？搜索引擎是这样定义的：网络爬虫（又被称为网页蜘蛛，网络机器人.
复制链接

扫一扫

专栏目录