Colly 爬虫学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据

最新推荐文章于 2022-12-14 08:55:08 发布

一个简单的IT人

最新推荐文章于 2022-12-14 08:55:08 发布

阅读量1k

点赞数 1

分类专栏： go 文章标签：爬虫 go golang 数据分析

本文链接：https://blog.csdn.net/ysf465639310/article/details/111606972

版权

Colly 学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据

Colly 学习笔记(二)——爬虫框架，抓取下载数据(上证A股数据下载)

Colly 学习笔记(三)——爬虫框架，抓取动态页面数据(上证A股动态数据抓取)

Colly 主体类是 Collector类，Collector管理网络通信，当Collector的任务运行时也负责执行注册的回调函数。

初始化过程如下：

c:=colly.NewCollector()

你可以注册不同的回调函数，通过Collector来控制任务或检索信息。

c.OnRequest(func(r *colly.Request) {
     
    //在Request请求之前调用
    fmt.Println("Visiting", r.URL)
})

c.OnError(func(_ *colly.Response, err error) {
     
    //在收到Error消息后调用
    log.Println("Something went wrong:", err)
})

c.OnResponseHeaders(func(r *colly.Response) {
     
    //当收到responseHeader之后调用
    fmt.Println("Visited", r.Request.URL)
})

c.OnResponse(func(r *colly.Response) {
     
    //在收到response之后调用
    fmt.Println("Visited", r.Request.URL)
})

c.OnHTML("a[href]", func(e *colly.HTMLElement) {
     
    //正常回收html消息当onresponse之后
    e.Request.Visit(e.Attr("href"))
})
//抓取网页中对应的element
c.OnHTML("tr td:nth-of-type(1)", func(e *colly.HTMLElement) {
     
    fmt.Println("First column of a table row:", e.Text)
})

c.OnXML("//h1", func(e *colly.XMLElement) {
     
    //正常回收xml消息当onresponse之后
    fmt.Println(e.Text)
})

c.OnScraped(func(r *colly.Response) {
     
     //在xml之后调用
    fmt.Println("Finished", r.Request.URL)
})

示例

由于colly手册内如非常少，所以我这边写了一个简单的爬虫，用于抓取中金公司页面的市盈率数据，大家可以体验一下简单爬虫的开发流程

首先登陆中金公司页面，查看网页结构，获取查看单元格的selector

在这里插入图片描述

然后根据selector和表结构，进行数据抓取

#得到的selector如下

#这个是行业名称对应列的selector
body > div.hysyl.i_content.w1200.mt-20 > div > div > div.j-tab-con.mb-15 > div:nth-child(1)

最低0.47元/天解锁文章

一个简单的IT人

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Colly 爬虫学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据

Colly 学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据Colly 主体类是 Collector类，Collector管理网络通信，当Collector的任务运行时也负责执行注册的回调函数。初始化过程如下：c:=colly.NewCollector()你可以注册不同的回调函数，通过Collector来控制任务或检索信息。c.OnRequest(func(r *colly.Request) { //在Request请求之前调用 fmt.Println("Visit
复制链接

扫一扫