从入门到入狱-----做爬虫之前的准备(正则表达式re模块的使用)

没错,就是之前学过的匹配字符串的正则表达式,先导入re模块,这里只是简单介绍怎么使用,具体详细的re模块的应用和概念可以翻阅之前关于字符串的正则表达式的博客---->从入门到入狱-------re模块

import requests
import re


def get_data():
    url = 'https://movie.douban.com/top250'
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
        }
    response = requests.get(url, headers=header)
    if response.status_code == 200:
        return response.text
    else:
        print('请求失败')


def jiexi_data(data):
    # 提取电影名称 (?s) 匹配多行
    re_ = r'(?s)<li>.+?<span class="title">(.+?)</span>.+?<span class="rating_num" property="v:average">(.+?)</span>.+?<span>(.+?)</span>.+?</li>'
    result = re.findall(re_, data)
    print(result)


jiexi_data(get_data())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值