python3 scrapy爬取微信公众号及历史信息V1.0

最新推荐文章于 2024-06-20 10:24:37 发布

xudailong_blog

最新推荐文章于 2024-06-20 10:24:37 发布

阅读量4.7k

点赞数 1

分类专栏： # python3爬虫 # scrapy # 微信公众号爬虫我的python3爬虫之路文章标签： scrapy 微信爬虫微信公众号爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xudailong_blog/article/details/79382603

版权

妹子图.png

环境：

python3 scrapy

目的

写这篇文章主要是做一下纪念，毕竟是搞了快两天的东西了，今天加大了量，使用scrapy爬取100多个微信公众号，然后出现IP被封的情况下，当然了，这种情况并不是没有办法解决，只需要在scrapy中进行设置一下就可以了，主要是在本地进行调试，然后IP代理池那一块暂时找不到好的质量高的IP，只是爬取了各大网站的免费IP，并没有很好的解决效果，这个版本只要在IP中稍微进行下设置调整，可以不愧为一个很好的爬取微信公众号历史消息的一个小案例。

爬取步骤

找到公众号
获取历史消息
获取详情页内容

还有第4步：

将详情页内容解析出来，图片，文字都单独拎出来，现在暂时不做处理，因为这一块有些麻烦的。逻辑整体就是这样。

python代码

这里是spider的代码，其他的就不用贴出来了：

spiders/WeChatSogou.py

# -*- coding: utf

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
python3 scrapy爬取微信公众号及历史信息V1.0

环境： python3 scrapy 目的写这篇文章主要是做一下纪念，毕竟是搞了快两天的东西了，今天加大了量，使用scrapy爬取100多个微信公众号，然后出现IP被封的情况下，当然了，这种情况并不是没有办法解决，只需要在scrapy中进行设置一下就可以了，主要是在本地进行调试，然后IP代理池那一块暂时找不到好的质量高的IP，只是爬取了各大网站的免费IP，并没有很...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。