scrapy爬取字幕组今日更新影视-附源码

最新推荐文章于 2023-11-24 08:56:14 发布

春江暮客

最新推荐文章于 2023-11-24 08:56:14 发布

阅读量5.9k

点赞数

分类专栏： python 文章标签： scrapy 字幕组

本文链接：https://blog.csdn.net/ztb8541/article/details/84315543

版权

本文介绍了如何使用scrapy爬虫登录字幕组网站并获取每日更新的影视资源。通过分析网页源码，提取resource ID，利用接口获取下载地址，并通过pipeline以HTML形式保存资源。爬虫主要针对登录、资源ID提取、下载地址获取等步骤进行说明，最终提供源码链接。

摘要由CSDN通过智能技术生成

由于本人比较喜欢看美剧，字幕组的美剧资源更新又是非常快的，而本人scrapy爬虫写的也比较多，同时维护了一个小小的影视站给朋友下载，就想着能不能够用脚本实现每天的字幕组影视资源的更新与抓取，google后发现https://blog.csdn.net/lzw2016/article/details/80384481这篇博客比较详细的把接口信息什么的都分析好了，正好可以拿来实现自己的scrapy爬虫。伸手党直接跳到最后查看源码地址下载即可。

首先最总要的部分，spider爬虫

登录获取影视resource ID

从图片中可以看到，要获取今日更新影视，必须先登录，因此选择登录，这里我们直接使用python3的requests库的session部分就好了，相对python2来说的话，真的是方便了好多啊。

def login_get_link(username,password):
    print(username)
    print(password)
    loginurl='http://www.zimuzu.tv/User/Login/ajaxLogin'
    surl='http://www.zimuzu.tv/today'
    header={
   
        'Accept':'application/json, text/javascript, */*; q=0.01',
        'Origin':'http://www.zimuzu.tv',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
       'Content-Type': 'application/x-www-form-urlencoded',
        }
    data="account="+username+"&password="+password+"&remember=1"
#    print(data)
    session=requests.Session()
    login=session.post(loginurl,data=data,headers=header)
    print(login.json()) 
    getstat=session.get(surl).text 
    m_new = re.findall(r'href="/resource/(\d{4,5})"',getstat)
    m_new = list(set(m_new))
#    print(m_new)
    today_m = []
    for i in m_new:
        json_text = session.get("http://www.zimuzu.tv/resource/index_json/rid/%s/channel/tv" %i).text.replace("\\","")
        try:
            json_text = re.search(r'(zmz003.com/\w*?)"',json_text).group(1

最低0.47元/天解锁文章

春江暮客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬取字幕组今日更新影视-附源码

由于本人比较喜欢看美剧，字幕组的美剧资源更新又是非常快的，而本人scrapy爬虫写的也比较多，同时维护了一个小小的影视站给朋友下载，就想着能不能够用脚本实现每天的字幕组影视资源的更新与抓取，google后发现https://blog.csdn.net/lzw2016/article/details/80384481这篇博客比较详细的把接口信息什么的都分析好了，正好可以拿来实现自己的scrapy爬虫...
复制链接

扫一扫