由于本人比较喜欢看美剧,字幕组的美剧资源更新又是非常快的,而本人scrapy爬虫写的也比较多,同时维护了一个小小的影视站给朋友下载,就想着能不能够用脚本实现每天的字幕组影视资源的更新与抓取,google后发现https://blog.csdn.net/lzw2016/article/details/80384481这篇博客比较详细的把接口信息什么的都分析好了,正好可以拿来实现自己的scrapy爬虫。伸手党直接跳到最后查看源码地址下载即可。
首先最总要的部分,spider爬虫
登录获取影视resource ID
从图片中可以看到,要获取今日更新影视,必须先登录,因此选择登录,这里我们直接使用python3的requests库的session部分就好了,相对python2来说的话,真的是方便了好多啊。
def login_get_link(username,password):
print(username)
print(password)
loginurl='http://www.zimuzu.tv/User/Login/ajaxLogin'
surl='http://www.zimuzu.tv/today'
header={
'Accept':'application/json, text/javascript, */*; q=0.01',
'Origin':'http://www.zimuzu.tv',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
'Content-Type': 'application/x-www-form-urlencoded',
}
data="account="+username+"&password="+password+"&remember=1"
# print(data)
session=requests.Session()
login=session.post(loginurl,data=data,headers=header)
print(login.json())
getstat=session.get(surl).text
m_new = re.findall(r'href="/resource/(\d{4,5})"',getstat)
m_new = list(set(m_new))
# print(m_new)
today_m = []
for i in m_new:
json_text = session.get("http://www.zimuzu.tv/resource/index_json/rid/%s/channel/tv" %i).text.replace("\\","")
try:
json_text = re.search(r'(zmz003.com/\w*?)"',json_text).group(1