import requests
import re
mainlink="https://dytt89.com/"
ua={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}
respmain=requests.get(mainlink,headers=ua)
respmain.encoding="gb2312`"
# print(respmain.text)
respmain.close # 已经拿到主页面数据respmain.text,关闭主页面
# 对主页面数据进行解析
objmain=re.compile(r"2024必看热片.*?<ul>(?P<nr>.*?)</ul>",re.S)
# 对主页面拿到的2024必看影片目录进行解析,拿到主链接后缀
obj1=re.compile(r"<li><a href='(?P<suffix>.*?)'",re.S)
# 对子页面解析,拿到影片名和下载地址
obj3=re.compile(r'◎片 名(?P<name>.*?)<br />.*?WORD-WRAP.*?<a href="(?P<xzdz>.*?)</a>',re.S)
for it in objmain.finditer(respmain.text):
# print(it.group("nr").strip())
for iit in obj1.finditer(it.group("nr").strip()):
#print(iit.group("suffix").strip('/'))
url=mainlink+iit.group("suffix").strip('/')
# print(url)
resp=requests.get(url,headers=ua)
resp.encoding="gb2312"
resp.close()
# print(resp.text)
for iiit in obj3.finditer(resp.text):
print(f"影片名:{iiit.group("name")}\n下载地址:{iiit.group("xzdz")}\n\n")
可以把爬取到的电影天堂的电影名字和下载链接在控制台中打印出来,如果需要更改爬取的板块,可以直接修改第11行代码中的"2024必看热片"