爬虫练习项目之电影天堂下载链接爬取

import requests
import re 
mainlink="https://dytt89.com/"
ua={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}
respmain=requests.get(mainlink,headers=ua)
respmain.encoding="gb2312`"
# print(respmain.text)
respmain.close  # 已经拿到主页面数据respmain.text,关闭主页面

# 对主页面数据进行解析
objmain=re.compile(r"2024必看热片.*?<ul>(?P<nr>.*?)</ul>",re.S)

# 对主页面拿到的2024必看影片目录进行解析,拿到主链接后缀
obj1=re.compile(r"<li><a href='(?P<suffix>.*?)'",re.S)

# 对子页面解析,拿到影片名和下载地址
obj3=re.compile(r'◎片  名(?P<name>.*?)<br />.*?WORD-WRAP.*?<a href="(?P<xzdz>.*?)</a>',re.S)
for it in objmain.finditer(respmain.text):
    # print(it.group("nr").strip())
    for iit in obj1.finditer(it.group("nr").strip()):
        #print(iit.group("suffix").strip('/'))
        url=mainlink+iit.group("suffix").strip('/')
        # print(url)
        resp=requests.get(url,headers=ua)
        resp.encoding="gb2312"
        resp.close()
        # print(resp.text)
        for iiit in obj3.finditer(resp.text):
            print(f"影片名:{iiit.group("name")}\n下载地址:{iiit.group("xzdz")}\n\n")

        可以把爬取到的电影天堂的电影名字和下载链接在控制台中打印出来,如果需要更改爬取的板块,可以直接修改第11行代码中的"2024必看热片"

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值