实战项目：构建一个功能完备的Go爬虫系统

一只小爪磕

于 2024-06-30 17:03:06 发布

阅读量701

点赞数 13

分类专栏：后端及其他教学文章标签： go1.19 django python pygame go golang 爬虫

本文链接：https://blog.csdn.net/weixin_52938153/article/details/140073626

版权

后端及其他教学专栏收录该内容

79 篇文章 1 订阅

订阅专栏

实战项目：构建一个功能完备的Go爬虫系统

在前几节中，我们学习了Go语言爬虫的基础与高级功能。现在，我们将整合所学内容，构建一个功能完备的Go爬虫系统。本节将详细介绍从需求分析、项目结构设计到实现、部署和维护的全过程。

制定爬虫项目需求与规划

在开始构建爬虫系统之前，我们需要明确项目的需求和目标。假设我们要构建一个爬虫系统，用于抓取并分析某技术博客网站上的文章信息，包括标题、URL、发布日期和标签等。

项目需求

抓取目标网站的所有文章信息。
支持并发抓取，提高抓取效率。
将抓取的数据存储到SQLite数据库中。
实现数据去重与更新策略，避免重复抓取。
支持日志记录与错误处理，便于监控与维护。

项目规划

爬虫模块：实现网页抓取与解析功能。
数据存储模块：实现数据的存储、去重与更新功能。
并发管理模块：实现并发控制与任务调度。
日志与监控模块：实现日志记录与错误处理功能。

构建项目结构与模块划分

为了实现模块化设计，方便维护和扩展，我们将项目按功能划分为多个模块。以下是项目的目录结构：

go-crawler
├── main.go
├── config
│   └── config.go
├── crawler
│   ├── crawler.go
│   └── parser.go
├── storage
│   ├── database.go
│   └── model.go
├── utils
│   ├── logger.go
│   └── helper.go
└── README.md

模块说明

main.go：项目的入口文件，负责初始化各模块并启动爬虫。
config：配置模块，用于存放项目的配置信息。
crawler：爬虫模块，包含网页抓取与解析功能。
storage：数据存储模块，包含数据库连接与数据模型定义。
utils：工具模块，包含日志记录与辅助函数。

实现多线程并发抓取与数据存储

数据模型定义

首先，我们定义数据模型，用于存储抓取到的文章信息。

// storage/model.go
package storage

type Article struct {
    ID       int
    URL      string
    Title    string
    Date     string
    Tags     string
}

数据库操作

接下来，实现数据库连接与基本的CRUD操作。

// storage/database.go
package storage

import (
    "database/sql"
    _ "github.com/mattn/go-sqlite3"
    "log"
)

var db *sql.DB

func InitDB(dbPath string) {
    var err error
    db, err = sql.Open("sqlite3", dbPath)
    if err != nil {
        log.Fatalf("无法连接数据库: %v", err)
    }

    createTable()
}

func createTable() {
    query := `
    CREATE TABLE IF NOT EXISTS articles (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        url TEXT UNIQUE,
        title TEXT,
        date TEXT,
        tags TEXT
    );
    `
    _, err := db.Exec(query)
    if err != nil {
        log.Fatalf("创建表失败: %v", err)
    }
}

func InsertArticle(article Article) error {
    query := `INSERT OR REPLACE INTO articles (url, title, date, tags) VALUES (?, ?, ?, ?)`
    _, err := db.Exec(query, article.URL, article.Title, article.Date, article.Tags)
    return err
}

func GetArticleByURL(url string) (*Article, error) {
    query := `SELECT id, url, title, date, tags FROM articles WHERE url = ?`
    row := db.QueryRow(query, url)

    var article Article
    err := row.Scan(&article.ID, &article.URL, &article.Title, &article.Date, &article.Tags)
    if err != nil {
        return nil, err
    }

    return &article, nil
}

爬虫功能实现

实现爬虫模块，包括网页抓取与解析。

// crawler/crawler.go
package crawler

import (
    "context"
    "github.com/chromedp/chromedp"
    "log"
    "sync"
    "time"
    "go-crawler/storage"
)

func fetchURL(url string) (string, error) {
    ctx, cancel := chromedp.NewContext(context.Background())
    defer cancel()

    var res string
    err := chromedp.Run(ctx,
        chromedp.Navigate(url),
        chromedp.Sleep(2*time.Second),
        chromedp.OuterHTML("html", &res),
    )
    if err != nil {
        return "", err
    }

    return res, nil
}

func parseHTML(htmlContent string) ([]storage.Article, error) {
    // 解析HTML，提取文章信息
    // 这是一个示例，具体解析逻辑根据目标网站的结构而定
    var articles []storage.Article
    // ... 解析逻辑
    return articles, nil
}

func Crawl(urls []string, wg *sync.WaitGroup) {
    defer wg.Done()

    for _, url := range urls {
        htmlContent, err := fetchURL(url)
        if err != nil {
            log.Printf("抓取URL失败: %s, 错误: %v", url, err)
            continue
        }

        articles, err := parseHTML(htmlContent)
        if err != nil {
            log.Printf("解析HTML失败: %s, 错误: %v", url, err)
            continue
        }

        for _, article := range articles {
            err := storage.InsertArticle(article)
            if err != nil {
                log.Printf("插入数据失败: %v", err)
            }
        }
    }
}

并发管理

实现并发控制与任务调度。

// main.go
package main

import (
    "go-crawler/config"
    "go-crawler/crawler"
    "go-crawler/storage"
    "go-crawler/utils"
    "log"
    "sync"
)

func main() {
    utils.InitLogger()
    storage.InitDB(config.DBPath)

    urls := []string{
        "https://example.com/page1",
        "https://example.com/page2",
        // ... 更多URL
    }

    var wg sync.WaitGroup

    // 控制并发数量
    maxConcurrent := 5
    sem := make(chan struct{}, maxConcurrent)

    for i := 0; i < len(urls); i += maxConcurrent {
        wg.Add(1)
        sem <- struct{}{}

        go func(urls []string) {
            defer func() { <-sem }()
            crawler.Crawl(urls, &wg)
        }(urls[i:min(i+maxConcurrent, len(urls))])
    }

    wg.Wait()
    log.Println("所有任务完成")
}

func min(a, b int) int {
    if a < b {
        return a
    }
    return b
}

数据去重与更新策略

为了避免重复抓取数据，我们可以在插入数据库前检查数据是否已经存在。使用SQLite的INSERT OR REPLACE语句可以实现数据的去重与更新：

func InsertArticle(article storage.Article) error {
    query := `INSERT OR REPLACE INTO articles (url, title, date, tags) VALUES (?, ?, ?, ?)`
    _, err := db.Exec(query, article.URL, article.Title, article.Date, article.Tags)
    return err
}

部署与运行：从本地测试到服务器上线

本地测试

在本地测试爬虫系统，确保所有功能正常工作。

go run main.go

部署到服务器

将代码部署到服务器，并配置环境。

上传代码

使用scp或其他工具将代码上传到服务器：

scp -r go-crawler user@server:/path/to/deploy

安装依赖

在服务器上安装Go和项目依赖：

ssh user@server
cd /path/to/deploy/go-crawler
go mod tidy

配置环境变量

根据实际情况配置数据库路径等环境变量。

启动爬虫系统

在服务器上启动爬虫系统：

nohup go run main.go > crawler.log 2>&1 &

使用nohup命令可以在后台运行爬虫系统，并将日志输出重定向到crawler.log文件。

监控与维护：日志记录与错误处理

日志记录

使用日志记录抓取过程中的信息和错误，以便后续分析和调试。

// utils/logger.go
package utils

import (
    "log"
    "os"
)

func InitLogger() {
    file, err := os.OpenFile("crawler.log", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
    if err != nil {
        log.Fatalf("无法创建日志文件: %v", err)
    }
    log.SetOutput(file)
}

在main.go中初始化日志记录：

utils.InitLogger()

错误处理

在每个关键步骤中添加错误处理逻辑，确保程序在遇到错误时能够提供详细的错误信息并继续执行。

if err != nil {
    log.Printf("错误: %v", err)
}

通过以上步骤，我们已经构建了一个功能完备的Go爬虫系统，涵盖了从需求分析、项目结构设计到实现、部署和维护的全过程。在实际应用中，可以根据具体需求进一步优化和扩展爬虫系统的功能，以提高抓取效率和数据质量。

一只小爪磕

关注

13
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
实战项目：构建一个功能完备的Go爬虫系统

首先，我们定义数据模型，用于存储抓取到的文章信息。通过以上步骤，我们已经构建了一个功能完备的Go爬虫系统，涵盖了从需求分析、项目结构设计到实现、部署和维护的全过程。在实际应用中，可以根据具体需求进一步优化和扩展爬虫系统的功能，以提高抓取效率和数据质量。
复制链接

扫一扫

专栏目录