哔哩哔哩代码优化

最新推荐文章于 2023-06-09 08:20:54 发布

胖子是个潜力股

最新推荐文章于 2023-06-09 08:20:54 发布

阅读量368

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_58520733/article/details/120523093

版权

废了，这个csdn有点严格，一些源码放上去直接将你的删除。所以后续可能就不怎么用csnd了，爬虫这东西本来就敏感。那后续的加密数据爬取就没办法写了。

优化:
    --1.合成视频之后,删除掉纯视频,纯音频文件

    --2.屏蔽掉ffmpeg的调试信息: 加载终端命令的最后 -loglevel quiet
        --如果没有达到预期,就不要去屏蔽,可以查看报错信息

    --3.手动抓包的30080,30280数据包的url,,并不是固定不变的,动态变化的...
        目的: 通过访问详情页网址栏的url,,直接解析获取到对应的实时的30080,30280的url.....
        分析过程:
            --1.复制30080的url,,,
            --2.点击右上角的三个点,search,,全局搜索
            --3.出现结果之后,点击进入文件
            --4.文件右下角,点击{} 美观输出, 格式化输出
            --5.文件空白处.鼠标点击定位, ctrl+F,,出现搜索框,输入要搜索的部分 30080的url
            --6. video: id:80 1920*1080 id:64 1280*720 id:32 852*480 id:16 640*320
                 猜测: 是否是各个分辨率所对应的数据
                 audio:
                 已经找到了存放 视频 和 音频 url 的文件,,位置
            --7.发现是一个html的文件,对该html的url发送请求,拿到响应解析即可...
                html文件的url > 是这个详情页面,网址栏的url...
                xpath语法过滤:
                    --根据文本数据过滤
                        当文本数据过多,,只提取一部分,,使用模糊查询
            --8.xpath提取到对应的字符串部分之后,,使用正则去进行提取具体的url
                video url正则提取:"video":\[{"id":\d+,"baseUrl":"(.*?)"
                audio url正则提取:"audio":\[{"id":\d+,"baseUrl":"(.*?)"

            --9.input检测到是可以访问的url,,会直接访问,,打一个空格之后再回车
            
            --10.获取到视频主页的视频名称,,作为文件的名称
                -- 一个h1标签的title属性的数据
                -- 一个span标签的文件数据
                以上两个并不通用,,,有些视频主页取不到
                通用的xpath提取名称写法://title/text()
                我半夜唱Lemon直接把室友给唱哭了！！！！【米津玄师】_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
                我半夜唱Lemon直接把室友给唱哭了！！！！【米津玄师】
                xpath://title/text()
                正则:re.findall(r'(.*?)_哔哩哔哩',str_)[0]

优化解析就是这样，你们自己写吧。

胖子是个潜力股

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
哔哩哔哩代码优化

废了，这个csdn有点严格，一些源码放上去直接将你的删除。所以后续可能就不怎么用csnd了，爬虫这东西本来就敏感。那后续的加密数据爬取就没办法写了。优化: --1.合成视频之后,删除掉纯视频,纯音频文件 --2.屏蔽掉ffmpeg的调试信息: 加载终端命令的最后 -loglevel quiet --如果没有达到预期,就不要去屏蔽,可以查看报错信息 --3.手动抓包的30080,30280数据包的url,,并不是固定不变的,动态变化的... 目
复制链接

扫一扫