Colly 学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据
Colly 学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据
Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)
Colly 学习笔记(三)——爬虫框架,抓取动态页面数据(上证A股动态数据抓取)
-
Colly 主体类是 Collector类,Collector管理网络通信,当Collector的任务运行时也负责执行注册的回调函数。
初始化过程如下:
c:=colly.NewCollector()
- 你可以注册不同的回调函数,通过Collector来控制任务或检索信息。
c.OnRequest(func(r *colly.Request) { //在Request请求之前调用 fmt.Println("Visiting", r.URL) }) c.OnError(func(_ *colly.Response, err error) { //在收到Error消息后调用 log.Println("Something went wrong:", err) }) c.OnResponseHeaders(func(r *colly.Response) { //当收到responseHeader之后调用 fmt.Println("Visited", r.Request.URL) }) c.OnResponse(func(r *colly.Response) { //在收到response之后调用 fmt.Println("Visited", r.Request.URL) }) c.OnHTML("a[href]", func(e *colly.HTMLElement) { //正常回收html消息当onresponse之后 e.Request.Visit(e.Attr("href")) }) //抓取网页中对应的element c.OnHTML("tr td:nth-of-type(1)", func(e *colly.HTMLElement) { fmt.Println("First column of a table row:", e.Text) }) c.OnXML("//h1", func(e *colly.XMLElement) { //正常回收xml消息当onresponse之后 fmt.Println(e.Text) }) c.OnScraped(func(r *colly.Response) { //在xml之后调用 fmt.Println("Finished", r.Request.URL) })
-
示例
由于colly手册内如非常少,所以我这边写了一个简单的爬虫,用于抓取中金公司页面的市盈率数据,大家可以体验一下简单爬虫的开发流程
首先登陆中金公司页面,查看网页结构,获取查看单元格的selector
然后根据selector和表结构,进行数据抓取
#得到的selector如下 #这个是行业名称对应列的selector body > div.hysyl.i_content.w1200.mt-20 > div > div > div.j-tab-con.mb-15 > div:nth-child(1)