Colly 爬虫学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据

Colly 学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据

Colly 学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据

Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)

Colly 学习笔记(三)——爬虫框架,抓取动态页面数据(上证A股动态数据抓取)


  1. Colly 主体类是 Collector类,Collector管理网络通信,当Collector的任务运行时也负责执行注册的回调函数。

    初始化过程如下:

    c:=colly.NewCollector()
    
    1. 你可以注册不同的回调函数,通过Collector来控制任务或检索信息。
    c.OnRequest(func(r *colly.Request) {
         
        //在Request请求之前调用
        fmt.Println("Visiting", r.URL)
    })
    
    c.OnError(func(_ *colly.Response, err error) {
         
        //在收到Error消息后调用
        log.Println("Something went wrong:", err)
    })
    
    c.OnResponseHeaders(func(r *colly.Response) {
         
        //当收到responseHeader之后调用
        fmt.Println("Visited", r.Request.URL)
    })
    
    c.OnResponse(func(r *colly.Response) {
         
        //在收到response之后调用
        fmt.Println("Visited", r.Request.URL)
    })
    
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
         
        //正常回收html消息当onresponse之后
        e.Request.Visit(e.Attr("href"))
    })
    //抓取网页中对应的element
    c.OnHTML("tr td:nth-of-type(1)", func(e *colly.HTMLElement) {
         
        fmt.Println("First column of a table row:", e.Text)
    })
    
    c.OnXML("//h1", func(e *colly.XMLElement) {
         
        //正常回收xml消息当onresponse之后
        fmt.Println(e.Text)
    })
    
    c.OnScraped(func(r *colly.Response) {
         
         //在xml之后调用
        fmt.Println("Finished", r.Request.URL)
    })
    
    1. 示例

      由于colly手册内如非常少,所以我这边写了一个简单的爬虫,用于抓取中金公司页面的市盈率数据,大家可以体验一下简单爬虫的开发流程

      首先登陆中金公司页面,查看网页结构,获取查看单元格的selector

    在这里插入图片描述

    ​ 然后根据selector和表结构,进行数据抓取

    #得到的selector如下
    
    #这个是行业名称对应列的selector
    body > div.hysyl.i_content.w1200.mt-20 > div > div > div.j-tab-con.mb-15 > div:nth-child(1) 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值