Python 爬取电影天堂top最新电影

最新推荐文章于 2024-07-24 17:05:28 发布

科达鸭

最新推荐文章于 2024-07-24 17:05:28 发布

阅读量6.3k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/zurich0v0/article/details/105384883

版权

本文介绍了如何使用Python进行网页爬虫，通过分析电影天堂网站的源代码，提取最新电影链接，利用XPath解析电影信息，并保存电影海报。文章详细讲解了每个步骤，包括进入开发者模式分析网页链接规律，编写链接获取和解析函数，以及最终的数据保存。

摘要由CSDN通过智能技术生成

Python爬虫有他无可比拟的优势：语法简单，经常几十行代码就能轻松解决问题，相比于JAVA,C,PHP;第三方库丰富，Python强大而又丰富的第三方库使他几乎可以无所不能。今天我们就来用用Python爬取电影天堂最新电影资源，一起来看看吧。

分析网页源代码

进入开发者模式

首先我们打开浏览器，进入开发者模式（这里推荐大家使用谷歌浏览器）

快捷键

开发者模式：Ctrl/shitf + x
或者直接按下：F12
在这里插入图片描述

分析下一页网页链接变化规律

我们爬取左边2020新片精品的相关电影。首先传递初始页面的url，先获取2020新片精品的页面链接。我们分析出每一页网页链接的变化规律：比如第一页的链接‘https://www.dy2018.com/html/gndy/dyzz/index.html’，而第二页第三页的网页链接区别于第一页的就是后面几位’index.html’和’index_2.html’,‘index_3.html’

写第一个链接获取函数

def get_detail_urls(initial_url):#解析总页面链接,得到每一个电影的链接
    pro='index'
    page_url=[]
    details=[]
    detail_urls=[]
    count=0
    for i in range(1,8):
        if  i ==1 :
            index=pro
        else:
            index=pro+'_%d'%i
        html=initial_url+index+'.html'
        page_url.append(html)
    for i in range(len(page_url)):
        count+=1
        try:
            response=requests.get(url=page_url[i],headers=headers)
            text=response.content.decode('gbk',errors='ignore')
            rst=etree.HTML(text)
            detail=rst.xpath('//td/b/a/@href')
            details.append(detail)
            if response.status_code == 200:
                print('最新电影第%d页网页链接获取成功'%count)
        except Exception as e:
            print(e)
    # print(details)
    for i in range(len(details)):
        for j in range(len(details[i])):
            url

最低0.47元/天解锁文章

科达鸭

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python 爬取电影天堂top最新电影

Python爬虫有他无可比拟的优势：语法简单，经常几十行代码就能轻松解决问题，相比于JAVA,C,PHP;第三方库丰富，Python强大而又丰富的第三方库使他几乎可以无所不能。今天我们就来用用Python爬取电影天堂最新电影资源，一起来看看吧。分析网页源代码进入开发者模式首先我们打开浏览器，进入开发者模式（这里推荐大家使用谷歌浏览器）快捷键开发者模式：Ctrl/shitf + x或者直...
复制链接

扫一扫