微博热搜榜爬虫2.0

本文介绍了作者对微博热搜爬虫进行的升级,包括解决请求头过于单一导致的反爬问题,以及针对re.findall无法获取数据的改进。更新后的爬虫能应对网页的变化,但需要使用个人Cookies以通过身份验证。
摘要由CSDN通过智能技术生成

微博热搜榜爬虫2.0

6月份出了一个微博热搜爬虫,在我电脑上设置了自动化12点爬取,结果到了9月份,执行不了。
一直没时间弄,今天来更新一下:
解决了两个问题,
1 >之前的话请求头比较单一,只有headers,目前直接访问,会被反爬。(js)
2 > 之前的re.findall 取不到值了,研究了一下网页也没什么变化啊。加了这个<a href="(.*?)"
“点星问”
P.s=需要用的小伙伴Cookies 就用你自己的吧。
小作业,直接Copy没意思。

# -*- Coding utf-8 -*-
# @time : 2021/11/19 13:47
# @Author : Peter
# @File :weibo_crawlerV2.py
# @Software : PyCharm
import requests
from bs4 import BeautifulSoup as BS
import re
import csv
import time

headers = {
   'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25'
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值