python爬取动漫网站的动漫

最近学了一下爬虫,就写段代码来试一下成果如何.(目的是爬取某动漫网站上的一部动漫darling in the franxx)
版本是python3.7

    
    import requests  
    import re
    from selenium import webdriver
    import os
    headers={
      'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36   (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
      }
    url="http://www.imomoe.in/view/7288.html"
    response = requests.get(url,params=headers)
    html=response.text
    step1_name=re.findall("/player/7288-0-.*?.html",html)
    if not os.path.exists("DarlingInTheFranxx"):
       os.mkdir("DarlingInTheFranxx")
       for i in range(24):
       		file_name = "DITF" + str(i + 1)
       		if not os.path.exists("DarlingInTheFranxx" + '/' + file_name + '.mp4'):
       			url='http://imomoe.in'+step1_name[i]
       			response=requests.get(url,headers=headers)
        #这里实在是找不到什么好的方法来获取iframe的源代码
		       	browser=webdriver.Chrome()
		        browser.get(url)   
		        browser.switch_to.frame("play2")  
		        temp=browser.page_source
		        browser.quit()    
       
			    video_url=re.findall("https://.*?.mp4",temp)
       			with open("DarlingInTheFranxx"+'/'+file_name+'.mp4','wb') as fuck:
          			response = requests.get(video_url[0], stream=True)
          			print("正在下载第" + str(i + 1) + "集")
          			for chunk in response.iter_content(chunk_size=1024):
             			if chunk:
                 			fuck.write(chunk)
       				print("已下载第"+str(i+1)+"集")
    		else:
       			print("第"+str(i+1)+'集已经存在')

运行测试结果如下:
在这里插入图片描述

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值