Python 爬取电影天堂top最新电影

Python爬虫有他无可比拟的优势:语法简单,经常几十行代码就能轻松解决问题,相比于JAVA,C,PHP;第三方库丰富,Python强大而又丰富的第三方库使他几乎可以无所不能。今天我们就来用用Python爬取电影天堂最新电影资源,一起来看看吧。

分析网页源代码

进入开发者模式

首先我们打开浏览器,进入开发者模式(这里推荐大家使用谷歌浏览器)

快捷键

开发者模式:Ctrl/shitf + x
或者直接按下:F12
在这里插入图片描述

分析下一页网页链接变化规律

我们爬取左边2020新片精品的相关电影。首先传递初始页面的url,先获取2020新片精品的页面链接。我们分析出每一页网页链接的变化规律:比如第一页的链接‘https://www.dy2018.com/html/gndy/dyzz/index.html’,而第二页第三页的网页链接区别于第一页的就是后面几位’index.html’和’index_2.html’,‘index_3.html’

写第一个链接获取函数

def get_detail_urls(initial_url):#解析总页面链接,得到每一个电影的链接
    pro='index'
    page_url=[]
    details=[]
    detail_urls=[]
    count=0
    for i in range(1,8):
        if  i ==1 :
            index=pro
        else:
            index=pro+'_%d'%i
        html=initial_url+index+'.html'
        page_url.append(html)
    for i in range(len(page_url)):
        count+=1
        try:
            response=requests.get(url=page_url[i],headers=headers)
            text=response.content.decode('gbk',errors='ignore')
            rst=etree.HTML(text)
            detail=rst.xpath('//td/b/a/@href')
            details.append(detail)
            if response.status_code == 200:
                print('最新电影第%d页网页链接获取成功'%count)
        except Exception as e:
            print(e)
    # print(details)
    for i in range(len(details)):
        for j in range(len(details[i])):
            url
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值