python爬虫爬取视频练习

最新推荐文章于 2024-04-11 17:44:12 发布

心如熊猫

最新推荐文章于 2024-04-11 17:44:12 发布

阅读量630

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/weixin_45427650/article/details/103873255

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一直都想爬个视频玩玩于是…
分析网站
检查网页源码发现并没有视频信息于是按F12 进入network中刷新页面发现如下
在这里插入图片描述

request中的url地址才是真正的我们想要的地址，访问之后服务器返回明文json数据于是豁然开朗
接下来我们点击加载更多去寻找是怎么翻页的发现：

现在已经获取到所有必要的信息了开始写程序：



import json
import requests

def get_url(url, hander):
    try:
        r = requests.get(url, headers=hander, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except requests.exceptions.ConnectTimeout:
        print("(1)连接超时")
        return ""
    except requests.exceptions.HTTPError as e:
        print(e)
        return ""
def prasing_page(html, hander,s):
    s = s+1   #页数+1
    json_data = json.loads(html)  #将json数据转换为python数据
    py_data = json_data['data']   #获取data的值
    for i in range(len(py_data)):
        try:
            print("\r当前进度第{}页>>>>>>>>>>>>>>{:.0f}%".format(s, i * 100 / len(py_data)), end="") #在一行显示进度
            with open('O:/ku6_viedo/'+py_data[i]['title']+'.mp4', 'wb') as f:
                r = requests.get(py_data[i]['playUrl'], headers=hander, timeout=30)
                f.write(r.content)
                f.close()
        except requests.exceptions.ConnectTimeout:
            print("（2）下载超时")
            continue  #如果下载超时则进行下一个视频下载
def main():
    hander = {"User-Agent": "Mozilla/5.0"}
    deep = 20      #定义总共爬取多少页
    s = 0         #定义一个变量 表示页数
    for i in range(deep): #循环爬取页面
        url = "https://********/video/feed?pageNo="+str(i)+"&pageSize=40&subjectId=76"
        html = get_url(url, hander)
        prasing_page(html, hander, s)


main()

在这里插入图片描述

运行成功！

心如熊猫

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
python爬虫爬取视频练习

小白学习之路一直都想爬个视频玩玩于是…分析网站检查网页源码发现并没有视频信息于是按F12 进入network中刷新页面发现如下request中的url地址才是真正的我们想要的地址访问之后服务器返回明文json数据于是豁然开朗于是我们点击加载更多去寻找是怎么翻页的发现：现在已经回去的所有必要的信息开始写程序：#爬取酷6网短视频import jsonimport ...
复制链接

扫一扫