go语言爬虫项目架构(记录一次练习)

43 篇文章 1 订阅
30 篇文章 0 订阅
本文详细介绍了使用Go语言构建爬虫项目的结构和流程,包括main函数、engine包、fetcher包和parse包。在main函数中调用engine.Run启动爬虫,engine包的Run函数负责调度任务,fetcher包实现网页信息的获取,parse包则通过正则表达式解析所需数据。整个过程展示了Go语言在爬虫开发中的应用。
摘要由CSDN通过智能技术生成

go语言爬虫项目架构(记录一次练习)

总体介绍

以一个初学的练习为例:一个简单的项目需要构建的包有engine、fetcher、model、parse等(go-internationalization和golang.org这两个包是从github上下的,不需要自己写)
![在这里插入图片描述](https://img-blog.csdnimg.cn/29bc5c5a74b94730875277a83cb577a4.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3o2eTZ0,size_16,color_FFFFFF,t_7
在engine包下包含两个文件:engine(用来存放Run函数是代码运行的关键)、type(存放各种结构体)
fetcher包中包涵两个函数:Fetch和determiEncoding。用来获取网页信息
model包下主要包含数据模板。
parse包用来获取我们想要的数据。

(1)main函数

package main

import (
	"engine"
	"parse"
)

func main() {
	engine.Run(engine.Request{
		Url: "www.biquok.com",
		ParseFunc: parse.ParseBookList,
	})
}

main函数实现了engine包下Run函数的调用

以下为Run函数的代码:


func Run(seeds...Request){
	var requests []Request
	for _,e:=range seeds {
		requests = append(requests,e)
	}
	for len(requests)>0{
		r:= requests[0]
		requests = requests[1:]
		log.Printf("Fetching mainurl:%s", r.Url)
		body,err := fetcher.Fetch(r.Url)

		if err != nil{
			log.Printf("Fetch Error: %s",r.Url)
		}

		parseresult := r.ParseFunc(body)

		requests = append(requests,parseresult.Requesrts...)

		for _,item := range parseresult.Items{
			fmt.Printf("Got item:%s",item)
		}
	}
}


Run函数引入的参数Url为需要爬取的网页、ParseFunc则是一个记录爬取方式的函数。

(2)engine包

engine包下包含两个go文件:engine和type

(2.1)engine

调用项目程序的关键函数

package engine

import (
	"fetcher"
	"fmt"
	"log"
)

func Run(seeds...Request){
	var requests []Request
	for _,e:=range seeds {
		requests = append(requests,e)
	}
	for len(requests)>0{
		r:= requests[0]
		requests = requests[1:]
		log.Printf("Fetching mainurl:%s", r.Url)
		body,err := fetcher.Fetch(r.Url)

		if err != nil{
			log.Printf("Fetch Error: %s",r.Url)
		}

		parseresult := r.ParseFunc(body)

		requests = append(requests,parseresult.Requesrts...)

		for _,item := range parseresult.Items{
			fmt.Printf("Got item:%s",item)
		}
	}
}


(2.2)type

储存需要使用的结构体

package engine

type ParseResult struct {
	Requesrts []Request
	Items []interface{}
}

type Request struct {
	Url string
	ParseFunc func([]byte) ParseResult
}

func NilParse([]byte) ParseResult{
	return ParseResult{}
}

fetch包

使用原生的方式,获取网页信息

package fetcher

import (
	"bufio"
	"fmt"
	"golang.org/x/net/html/charset"
	"golang.org/x/text/encoding"
	"golang.org/x/text/encoding/unicode"
	"golang.org/x/text/transform"
	"io/ioutil"
	"log"
	"net/http"
)

//非原生的方式获取网页信息,此函数在本次练习并没有用到
func Fetch1(url string) ([]byte , error){
	resp, err := http.Get(url)
	if err != nil {
		fmt.Println(err)
	}
	//使用get后必须使用close关闭,
	defer resp.Body.Close()

	//判断网页是否响应成功,defer后面的语句不会马上调用, 而是延迟到函数结束时调用
	//defer 语句正好是在函数退出时执行的语句,所以使用 defer 能非常方便地处理资源释放问题。
	if resp.StatusCode != http.StatusOK {
		fmt.Printf("Error status Code :%d", resp.StatusCode)
	}

	//获取响应体
	bodyReader := bufio.NewReader(resp.Body)

	//使用determiEncoding函数对获取的信息进行解析
	e := determiEncoding(bodyReader)
	utf8Reader := transform.NewReader(bodyReader,e.NewDecoder())

	//读取并打印获取的信息
	result, err := ioutil.ReadAll(utf8Reader)

	return result,nil

}

//原生的方式,模拟浏览器的访问方式
func Fetch(url string) ([]byte , error){
	client := &http.Client{}
	req,err := http.NewRequest("GET",url,nil)
	if err!=nil{
		return nil , fmt.Errorf("ERROR:get mainurl:%s",url)
	}

	//第二个数据是用户密钥,用来模拟用户上网
	req.Header.Set("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36 Edg/92.0.902.67")
	resp,err:= client.Do(req)
	//获取响应体
	bodyReader := bufio.NewReader(resp.Body)

	//使用determiEncoding函数对获取的信息进行解析
	e := determiEncoding(bodyReader)
	utf8Reader := transform.NewReader(bodyReader,e.NewDecoder())

	//读取并打印获取的信息
	result, err := ioutil.ReadAll(utf8Reader)

	return result,nil

}



//处理获取的数据,解决乱码问题
func determiEncoding (r * bufio.Reader) encoding.Encoding {//Encoding编码是一种字符集编码,可以在 UTF-8 和 UTF-8 之间进行转换
	//获取数据,Peek返回输入流的下n个字节
	bytes, err := r.Peek(1024)
	if err != nil {
		log.Printf("fetch error :%v", err)
		return unicode.UTF8
	}

	//调用DEtermineEncoding函数,确定编码通过检查最多前 1024 个字节的内容和声明的内容类型来确定 HTML 文档的编码。
	e,_, _:= charset.DetermineEncoding(bytes,"")
	return e
}


parse包

使用正则表达式来获取指定的信息。

package parse

import (
	"engine"
	"regexp"
)
const regexStr = `<a href="([^"]+)">([^"]+)</a>`
//获取指定格式的数据并返回
func ParseContent(content []byte) engine.ParseResult{
	//设置匹配规则。
	//[^"]+表示以冒号结尾的字符全部拿到
	re := regexp.MustCompile(regexStr)

	//返回表达式的所有连续匹配的切片,match为切片
	matches := re.FindAllSubmatch(content,-1)

	//收纳信息
	result := engine.ParseResult{}

	for _,m := range matches{
		result.Items = append(result.Items,m[2])
		result.Requesrts = append(result.Requesrts,engine.Request{
			Url:"你想得到的数据是"+"---->"+string(m[2]),
			ParseFunc: engine.NilParse,
		})
	}
	return result
}

使用正则验证,实现数据的筛选,然将数据返回到切片中,使用PaeseResult结构体收纳信息,再使用range函数对数据进行遍历。

Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。需要配合一门正经的编程语言(只开发了 Go 版本)来使用,先在 Creeper Script 内定义爬取规则,然后用 Go 代码来读取规则,再爬取资源。使用场景一般会用在需要同时采集大量不同网站,或者开发聚合阅读器时。(以后可能会增加 cli 和数据库访问支持)简单的用例:假如我想要爬取 HackerNews ,需要写出这样子的脚本,其实看起来有些类似 yaml 配合 jquery 的样子,但是其实差别挺大的。page(@page=1) = "https://news.ycombinator.com/news?p={@page}" news[]: page -> $("tr.athing")     title: $(".title a.storylink").text     site: $(".title span.sitestr").text     link: $(".title a.storylink").href之后在 Go 文件中来读取并使用这个脚本;package main import "github.com/wspl/creeper" func main() {     c := creeper.Open("./hacker_news.crs")     c.Array("news").Each(func(c *creeper.Creeper) {         println("title: ", c.String("title"))         println("site: ", c.String("site"))         println("link: ", c.String("link"))         println("===")     }) }执行后,将会如期地输出类似下面的内容:title:  Samsung chief Lee arrested as S.Korean corruption probe deepens site:  reuters.com link:  http://www.reuters.com/article/us-southkorea-politics-samsung-group-idUSKBN15V2RD === title:  ReactOS 0.4.4 Released site:  reactos.org link:  https://reactos.org/project-news/reactos-044-released === title:  FeFETs: How this new memory stacks up against existing non-volatile memory site:  semiengineering.com link:  http://semiengineering.com/what-are-fefets/ 标签:Creeper
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值