简单说下我对爬虫的理解,爬虫即对HTML进行文本分析,提取所需内容
在爬虫前,需要明确目的,找到数据对应的网页,并分析网页结构找到数据的标签
要爬的网站是熊猫TV
目的:熊猫TV下,某个游戏下主播的人气排行,爬取主播名字、观看人数
版本是python3.5.2,以学习为主,只使用正则表达式
from urllib import request
import re
class Spider():
# URL地址
url = 'https://www.panda.tv/cate/lol'
# 根据要匹配的标签,确定正则表达式字符串,所有字符[\s\S],出现多次*,非贪婪?到第一个</div>就结束
# 利用组即加圆括号取得标签中间内容
root_pattern = '<div class="video-info">([\s\S]*?)</div>'
# 主播名字
name_pattern = '</i>([\s\S]*?)</span>'
# 人数
number_pattern = '<i class="ricon ricon-eye"></i>([\s\S]*?)</span>'
# 解析URL
def __fetch_content(self):
r = request.urlopen(Spider.url)
htmls = r.read() # bytes,需要转换成字符串
htm