40行代码的Python爬虫案例:虎牙-王者荣耀主播的人气排行

40行代码的Python爬虫案例:虎牙-王者荣耀主播的人气排行

爬虫:对网页(HTML文件)进行文本分析,提取所需要的数据,通常使用正则表达式来处理数据.

运行结果:运行结果

1.明确爬虫目的:从虎牙直播平台爬取各个王者荣耀主播的人气数,并按照排名显示各个主播的名字,观看人数和主播间名字.
2.找到数据对应的网页,并分析网页的结构找到数据所在的标签,抓取数据

源码:

import re # 引入正则表达式的re模块
from urllib import request # 引入网络访问模块urllib的request对象
data = '<li class="game-live-item" gid="2336">[\s\S]*?</span>\s*</span>'  # 爬取主播数据:把每个主播的名字、热度、直播间标题作为一组数据进行爬取
name_data = '<i class="nick" title="([\s\S]*?)">' # 主播名字 #()的作用:不显示小括号外相同的标签
number_data = '<i class="js-num">([\s\S]*?)</i>'# 主播热度,即观看人数
title_data = 'target="_blank">([\s\S]*?)</a>' # 直播间标题      #用到的正则表达式#*:零次或多次#?:非贪婪匹配#\s:空白字符#\S:非空白字符
def fetch_content(): #定义一个抓取函数fetch_content(),返回html文件
    htmls = str(request.urlopen('https://www.huya.com/g/2336').read(
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值