gocolly-结构体的使用(2)

最新推荐文章于 2024-08-13 08:55:24 发布

清风冷吟

最新推荐文章于 2024-08-13 08:55:24 发布

阅读量500

点赞数

分类专栏： Golang 爬虫文章标签： golang 爬虫 gocolly

本文链接：https://blog.csdn.net/weixin_43968923/article/details/108994484

版权

Golang 爬虫专栏收录该内容

6 篇文章 2 订阅

订阅专栏

文章目录

- 介绍
- demo

介绍

本章节搭配结构体的使用,使用类似于类一样的体验;
OnHTML获取网页信息;
实现翻页效果

demo

package main

import (
	"fmt"
	"github.com/gocolly/colly"
	"github.com/gocolly/colly/extensions"
	"os"
	"strings"
	"time"
)

/*
请求执行之前调用
	- OnRequest
响应返回之后调用
	- OnResponse
监听执行 selector
	- OnHTML
监听执行 selector
	- OnXML
错误回调
	- OnError
完成抓取后执行，完成所有工作后执行
	- OnScraped
取消监听，参数为 selector 字符串
	- OnHTMLDetach
取消监听，参数为 selector 字符串
	- OnXMLDetach
*/

// 声明结构类型
type Session struct {
	session *colly.Collector
	file    *os.File
}

// 初始化
func (c *Session) Init() *colly.Collector {
	// 实例化默认收集器
	c.session = colly.NewCollector()

	// 仅访问域
	c.session.AllowedDomains = []string{"quotes.toscrape.com"}

	// 允许重复访问
	c.session.AllowURLRevisit = true

	// 表示抓取时异步的
	// c.session.Async = true
	// 模拟浏览器
	c.session.UserAgent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"

	// 随机UserAgent
	extensions.RandomUserAgent(c.session)

	// 限制采集规则
	/*
		在Colly里面非常方便控制并发度，只抓取符合某个(些)规则的URLS
		colly.LimitRule{DomainGlob: "*.douban.*", Parallelism: 5}，表示限制只抓取域名是douban(域名后缀和二级域名不限制)的地址，当然还支持正则匹配某些符合的 URLS

		Limit方法中也限制了并发是5。为什么要控制并发度呢？因为抓取的瓶颈往往来自对方网站的抓取频率的限制，如果在一段时间内达到某个抓取频率很容易被封，所以我们要控制抓取的频率。
		另外为了不给对方网站带来额外的压力和资源消耗，也应该控制你的抓取机制。
	*/
	err := c.session.Limit(&colly.LimitRule{
		// Filter domains affected by this rule
		// 筛选受此规则影响的域
		DomainGlob: "quotes.toscrape.com/*",
		// Set a delay between requests to these domains
		// 设置对这些域的请求之间的延迟
		Delay: 1 * time.Second,
		// Add an additional random delay
		// 添加额外的随机延迟
		RandomDelay: 1 * time.Second,
		// 设置并发
		Parallelism: 5,
	})
	if err != nil {
		fmt.Println(err)
	}

	return c.session
}

// 获取下一页
func (c *Session) getNext(url string) (string, error) {
	// 访问地址
	// url := "http://quotes.toscrape.com"

	// 解析页面
	c.getParse()

	// 获取下一页
	page := ""
	// 调用回调函数,获取标签的属性
	// pages := ""
	c.session.OnHTML(".pager .next a", func(e *colly.HTMLElement) {
		// 获取属性值
		link := e.Attr("href")
		// fmt.Printf("Link found: %q -> %s\n", e.Text, link)
		page = link
		// 在页面上找到访问链接
		// 只有在AllowedDomains中的链接才被访问
		// err := c.session.Visit(e.Request.AbsoluteURL(link))
		// if err != nil {
		// 	fmt.Println(err)
		// }
	})

	// 错误回调
	var err1 error = nil
	c.session.OnError(func(_ *colly.Response, err error) {
		fmt.Println("Something went wrong:", err)
		err1 = err
	})

	// 开始爬取 url
	err2 := c.session.Visit(url)
	if err2 != nil {
		fmt.Println(err2)
		return "", err2
	}
	return page, nil
}

// 解析页面
func (c *Session) getParse() {
	// 在每个 a 标签 href 属性 调用回调函数
	c.session.OnHTML(".row .col-md-8 .quote", func(e *colly.HTMLElement) {
		// text
		text := e.ChildText("span.text")
		// fmt.Println("text: ", text)

		// author
		author := e.ChildText("span .author")
		// fmt.Println("author: ", author)

		// tags
		var tags []string
		e.ForEach(".tags a", func(i int, e *colly.HTMLElement) {
			text := e.Text
			tags = append(tags, text)
		})
		// fmt.Println("tags: ", tags)

		// 保存
		c.save(text, author, tags)
	})

	// 收到响应后
	c.session.OnResponse(func(r *colly.Response) {
		if r.StatusCode != 200 {
			return
		}
	})

	// 在提出请求之前打印 "访问…"
	// c.OnRequest(func(r *colly.Request) {
	// 	fmt.Println("Visiting: ", r.URL.String())
	// })

	// // 开始爬取 url
	// err := c.Visit(url)
	// if err != nil {
	// 	fmt.Println(err)
	// }
}

// 翻页
func (c *Session) NextPage() {
	// 访问地址
	url := "http://quotes.toscrape.com"
	baseUrl := "http://quotes.toscrape.com"

	for i := 0; i <= 2; i++ {
		fmt.Println("start url: ", url)

		// 获取下一页
		page, err1 := c.getNext(url)
		if err1 != nil {
			break
		}
		url = baseUrl + page
	}

}

// 保存
func (c *Session) save(text string, author string, tags []string) {
	newTags := strings.Join(tags, " ")
	// fmt.Println(newTags)
	_, _ = c.file.Write([]byte(text + "\n"))
	_, _ = c.file.Write([]byte(author + "\n"))
	_, _ = c.file.Write([]byte(newTags + "\n"))
	_, _ = c.file.Write([]byte(strings.Repeat("*", 20)))
	_, _ = c.file.Write([]byte("\n\n"))
}


func main() {
	s := &Session{}
	// 初始化
	s.Init()

	// 读写模式打开，写入追加
	s.file, _ = os.OpenFile("test.txt", os.O_RDWR|os.O_APPEND|os.O_CREATE, 0777)
	defer func() {
		if err := s.file.Close(); err != nil {
			fmt.Println(err)
		}
	}()

	// 翻页
	s.NextPage()

	// 采集等待结束
	s.session.Wait()

	fmt.Println("程序运行结束!")
}