Colly 学习笔记(二)——爬虫框架，抓取下载数据(上证A股数据下载)

最新推荐文章于 2024-05-30 16:11:38 发布

一个简单的IT人

最新推荐文章于 2024-05-30 16:11:38 发布

阅读量805

点赞数

分类专栏： go 文章标签：爬虫数据分析 golang

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ysf465639310/article/details/111931044

版权

Colly 学习笔记(二)——爬虫框架，抓取下载数据(上证A股数据下载)

Colly 学习笔记(一)——爬虫框架，抓取中金公司行业市盈率数据

Colly 学习笔记(二)——爬虫框架，抓取下载数据(上证A股数据下载)

Colly 学习笔记(三)——爬虫框架，抓取动态页面数据(上证A股动态数据抓取)

上一讲是简单说明了网页数据抓取，通过一个简单的爬虫，掌握简单的数据抓取，但是实际情况常出现网页只提供下载，页面没有数据的情况（如图），此时直接用colly抓取数据即可。

在这里插入图片描述

遇到这种提供下载的数据，colly可以直接下载。

首先查看列表网页结构，如下图所示

#原始的获取链接
#A股
http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1 
#B股
http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2 
#科创
http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=8

head设置如下：

	c.OnRequest(func(r *colly.Request) {
   
		//r.Headers.Set("User-Agent", RandomString())
		r.Headers.Set("Host", "query.sse.com.cn")
		r.Headers.Set("Connection", "keep-alive")
		r.Headers.Set("Accept", "*/*")
		r.Headers.Set("Origin", "http://www.sse.com.cn")
		r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") 
        //关键头 如果没有 则返回 错误
		r.Headers.Set("Accept-Encoding", "gzip, deflate")
		r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")
	})

编写抓取结果处理代码：

	c.OnScraped(func(r *colly.Response) {

最低0.47元/天解锁文章

一个简单的IT人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一个简单的IT人

博客等级

码龄14年

42
原创

105
点赞

171
收藏

98
粉丝

关注

私信

热门文章

分类专栏

支付
VR 1篇
AI 4篇
基于代码工程角度的DDD设计 3篇
go 8篇
云计算 25篇
MTCNN
直播 1篇
mediasoup 3篇
webrtc 1篇
mongo 1篇
replSet 1篇
CMake 1篇
vs常用配置
微服务 9篇
docker 12篇
k8s 13篇
设计模式
C++ 2篇
SeedCloud 3篇
Zeromq
CZMQ

最新评论

领域驱动设计（DDD）笔记（一）基本概念
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
领域驱动设计（DDD）笔记（一）基本概念
CSDN-Ada助手: 恭喜作者撰写了第16篇博客，分享了关于领域驱动设计（DDD）的基本概念。希望作者能继续保持创作的热情和耐心，不断探索和分享更多有趣的内容。建议作者在接下来的文章中，可以深入探讨DDD的实际应用案例，或者结合其他设计模式进行比较分析，以丰富读者的阅读体验。期待作者的精彩继续！
领域驱动设计（DDD）笔记（二）代码组织原则
CSDN-Ada助手: 恭喜作者发布了第17篇博客，内容围绕着领域驱动设计（DDD）的代码组织原则展开，让读者受益匪浅。希望作者能够继续保持创作热情，不断分享知识和经验。建议作者在未来的创作中，可以更深入地探讨DDD的实践经验，结合具体案例进行分析，以便读者更好地理解和应用这一理念。期待作者的下一篇精彩文章！
领域驱动设计（DDD）笔记（三）后端工程架构
CSDN-Ada助手: 恭喜作者写出了第18篇博客，标题为“领域驱动设计（DDD）笔记（三）后端工程架构”。看来作者对领域驱动设计有着深入的理解和实践经验，文章内容必定受益匪浅。希望作者能继续坚持创作，不断分享自己的学习成果和经验总结。在下一篇博客中，或许可以探讨一下如何在实际项目中应用领域驱动设计，或者分享一些案例分析，让读者更好地理解和运用DDD的方法论。期待作者的更多精彩内容！
使用docker 搭建MediaSoup服务
jzdcf: 1、navigator.mediaDevices.getUserMedia({ audio: true, video: true })

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。