微博数据爬虫——V影响力榜top100用户(一)

本文介绍了如何分析微博V影响力榜网页结构,通过选择器提取button标签中的share-data信息,并揭示了从第20位后的数据是通过ajax POST请求获取。在后续更新中,由于遇到SSL报错,作者引用了相关资料,采用urllib库解决了问题,恢复了代码的正常运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.分析网页结构

网页链接如下:https://v6.bang.weibo.com/czv/domainlist?date=202103&period_type=month

可使用选择器提取button标签中share-data中信息

r = requests.get("https://v6.bang.weibo.com/czv/domainlist?date=%s&period_type=month" % date)
soup = BeautifulSoup(r.text)
items = soup.select("button.top-follow-btn.following-btn")
     try:
        item.attrs["data-type"]
    except:
        dic = {}
        data_json = json.loads(item.attrs["share-data"])
        dic["rank"] = data_json["rank"]
        dic["uid"] = data_json["uid"]
        dic["screen_name"] = data_json["screen_name"]
        data_top_100.append(dic)

从20之后数据通过ajax的post请求获取,表单信息如下

url = "https://v6.bang.weibo.com/aj/newczv/rank"
for j in range(2, 6):
    data = {}
    data['page'] = str(j)
    data['show_rank'] = str(j * 20 - 20)
    data['period_type'] = 'month'
    data['field_id'] = '1001'
    data['dt'] = '202
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值