python爬虫爬取搜狗微信文章(代理池+re从跳转链接中找到真实URL问题)

最新推荐文章于 2024-05-17 10:01:38 发布

Ironman_Johnson

最新推荐文章于 2024-05-17 10:01:38 发布

阅读量3.3k

点赞数 7

文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/weixin_45879684/article/details/107445030

版权

作者最近在学习python爬虫，在爬取微信文章这个实战项目中遇到了一些小问题，所以写这篇文章来记录一下，顺便分享一下爬取过程。

整体思路

我们选择从搜狗的微信界面（‘https://weixin.sogou.com/’）来获取微信文章的基本信息，由于搜狗有反爬措施，采用代理池，先将搜狗搜索的结果页的源码爬取，之后解析出这一页的文章链接，翻页，继续解析至最后一页，最后访问文章链接获取源码提取所需信息保存到MongoDB中

准备工作

代理池ProxyPool：代理池的作用是用来应对sougo的反爬虫措施，当你快速翻页时搜狗会跳出验证码识别，这时的网页请求会由200变成302的错误状态，这表示现在的ip被搜狗察觉并且不能再使用它来爬取。
代理池中有许多免费公开的ip，我们从代理池中不断获取ip来保证过程中有可用的ip供我们使用，这里使用的是github上公开的代理池代码附上链接，链接中有使用方法，大家可以自行下载运行：‘https://github.com/Python3WebSpider/ProxyPool’
第三方库：除了代理池的requirement.txt中的库，还需要用到re库（正则表达式库）requests库（get网页源码）BeautifulSoup（解析）pymongo（mongodb数据库存取）
MongoDB数据库：非必须，可以选择其它的数据库或者文件类型存储

第一步：获取搜索结果界面的源码

由于是静态页面，用requests库就可以很方便的爬取，但需要注意两点：1.搜索中如果不登录vx只能爬取十页的内容 2.需要在出现302的状态码时从代理池中获取新的ip
解决第一个问题需要对headers进行设置，这里简单得设置User-Agent和Cookie达到需求
解决第二个问题采用从代理池的端口中获取ip
附代码及注释：

proxy_url = 'http://127.0.0.1:5555/random'#获取代理ip的端口
proxy_ip = None#访问用的ip-全局变量
base_url ='https://weixin.sogou.com/weixin'
headers = {
   
    'Cookie':'自己的cookie',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
keyword = '风景'

def get_proxy_ip():
    """
    从代理池的端口获取代理ip
    :return: 代理ip
    """
    try:
        req = requests.get(proxy_url)
        if req.status_code == 200:
            return req.text
        return None
    except ConnectionError:
        return None

def get_html(url,ke):
    """

    :param url: 搜狗微信的前缀
    :param ke: 搜索的关键词和页数信息
    :return: 页面的源码
    """
    global  proxy_ip
    try:
        proxy_ip = get_proxy_ip()#获取一个ip
        proxies = {
   'http'

最低0.47元/天解锁文章

Ironman_Johnson

关注

7
点赞
踩
26

收藏

觉得还不错? 一键收藏
4
评论
python爬虫爬取搜狗微信文章(代理池+re从跳转链接中找到真实URL问题)

作者最近在学习python爬虫，在爬取微信文章这个实战项目中遇到了一些小问题，所以写这篇文章来记录一下，顺便分享一下爬取过程。整体思路我们选择从搜狗的微信界面（‘https://weixin.sogou.com/’）来获取微信文章的基本信息，由于搜狗有反爬措施，采用代理池，先将搜狗搜索的结果页的源码爬取，之后解析出这一页的文章链接，翻页，继续解析至最后一页，最后访问文章链接获取源码提取所需信息保存到MongoDB中准备工作代理池ProxyPool：代理池的作用是用来应对sougo的反爬虫措.
复制链接

扫一扫