Python3实现原生爬虫,不用框架,用正则表达式【详细代码+注释】

简单说下我对爬虫的理解,爬虫即对HTML进行文本分析,提取所需内容
在爬虫前,需要明确目的,找到数据对应的网页,并分析网页结构找到数据的标签

要爬的网站是熊猫TV

目的:熊猫TV下,某个游戏下主播的人气排行,爬取主播名字、观看人数

版本是python3.5.2,以学习为主,只使用正则表达式

from urllib import request
import re

class Spider():
    # URL地址
    url = 'https://www.panda.tv/cate/lol'
    # 根据要匹配的标签,确定正则表达式字符串,所有字符[\s\S],出现多次*,非贪婪?到第一个</div>就结束
    # 利用组即加圆括号取得标签中间内容
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    # 主播名字
    name_pattern = '</i>([\s\S]*?)</span>'
    # 人数
    number_pattern = '<i class="ricon ricon-eye"></i>([\s\S]*?)</span>'

    # 解析URL
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()  # bytes,需要转换成字符串
        htm
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值