Python3实现原生爬虫，不用框架，用正则表达式【详细代码+注释】

最新推荐文章于 2022-08-21 17:43:38 发布

布衣清水

最新推荐文章于 2022-08-21 17:43:38 发布

阅读量1k

点赞数 2

分类专栏： Python 文章标签：爬虫 Python 正则表达式

本文链接：https://blog.csdn.net/yulutian/article/details/85239894

版权

本文介绍了如何使用Python3.5.2和正则表达式实现一个简单的爬虫，目标是获取熊猫TV特定游戏下的主播人气排行，包括主播名称和观看人数。通过分析网页结构，提取HTML中的关键信息，实现了数据抓取。最终运行展示了爬取结果。

摘要由CSDN通过智能技术生成

简单说下我对爬虫的理解，爬虫即对HTML进行文本分析，提取所需内容
在爬虫前，需要明确目的，找到数据对应的网页，并分析网页结构找到数据的标签

要爬的网站是熊猫TV

目的：熊猫TV下，某个游戏下主播的人气排行，爬取主播名字、观看人数

版本是python3.5.2，以学习为主，只使用正则表达式

from urllib import request
import re

class Spider():
    # URL地址
    url = 'https://www.panda.tv/cate/lol'
    # 根据要匹配的标签，确定正则表达式字符串,所有字符[\s\S]，出现多次*，非贪婪?到第一个</div>就结束
    # 利用组即加圆括号取得标签中间内容
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    # 主播名字
    name_pattern = '</i>([\s\S]*?)</span>'
    # 人数
    number_pattern = '<i class="ricon ricon-eye"></i>([\s\S]*?)</span>'

    # 解析URL
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()  # bytes,需要转换成字符串
        htm