scrapy爬取字幕组今日更新影视-附源码

由于本人比较喜欢看美剧,字幕组的美剧资源更新又是非常快的,而本人scrapy爬虫写的也比较多,同时维护了一个小小的影视站给朋友下载,就想着能不能够用脚本实现每天的字幕组影视资源的更新与抓取,google后发现https://blog.csdn.net/lzw2016/article/details/80384481这篇博客比较详细的把接口信息什么的都分析好了,正好可以拿来实现自己的scrapy爬虫...
摘要由CSDN通过智能技术生成

由于本人比较喜欢看美剧,字幕组的美剧资源更新又是非常快的,而本人scrapy爬虫写的也比较多,同时维护了一个小小的影视站给朋友下载,就想着能不能够用脚本实现每天的字幕组影视资源的更新与抓取,google后发现https://blog.csdn.net/lzw2016/article/details/80384481这篇博客比较详细的把接口信息什么的都分析好了,正好可以拿来实现自己的scrapy爬虫。伸手党直接跳到最后查看源码地址下载即可。

首先最总要的部分,spider爬虫

登录获取影视resource ID

今日更新
从图片中可以看到,要获取今日更新影视,必须先登录,因此选择登录,这里我们直接使用python3的requests库的session部分就好了,相对python2来说的话,真的是方便了好多啊。

def login_get_link(username,password):
    print(username)
    print(password)
    loginurl='http://www.zimuzu.tv/User/Login/ajaxLogin'
    surl='http://www.zimuzu.tv/today'
    header={
   
        'Accept':'application/json, text/javascript, */*; q=0.01',
        'Origin':'http://www.zimuzu.tv',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
       'Content-Type': 'application/x-www-form-urlencoded',
        }
    data="account="+username+"&password="+password+"&remember=1"
#    print(data)
    session=requests.Session()
    login=session.post(loginurl,data=data,headers=header)
    print(login.json()) 
    getstat=session.get(surl).text 
    m_new = re.findall(r'href="/resource/(\d{4,5})"',getstat)
    m_new = list(set(m_new))
#    print(m_new)
    today_m = []
    for i in m_new:
        json_text = session.get("http://www.zimuzu.tv/resource/index_json/rid/%s/channel/tv" %i).text.replace("\\","")
        try:
            json_text = re.search(r'(zmz003.com/\w*?)"',json_text).group(1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值