哔哩哔哩代码优化

废了,这个csdn有点严格,一些源码放上去直接将你的删除。所以后续可能就不怎么用csnd了,爬虫这东西本来就敏感。那后续的加密数据爬取就没办法写了。

优化:
    --1.合成视频之后,删除掉纯视频,纯音频文件

    --2.屏蔽掉ffmpeg的调试信息: 加载终端命令的最后 -loglevel quiet
        --如果没有达到预期,就不要去屏蔽,可以查看报错信息

    --3.手动抓包的30080,30280数据包的url,,并不是固定不变的,动态变化的...
        目的: 通过访问详情页网址栏的url,,直接解析获取到对应的实时的30080,30280的url.....
        分析过程:
            --1.复制30080的url,,,
            --2.点击右上角的三个点,search,,全局搜索
            --3.出现结果之后,点击进入文件
            --4.文件右下角,点击{} 美观输出, 格式化输出
            --5.文件空白处.鼠标点击定位, ctrl+F,,出现搜索框,输入要搜索的部分 30080的url
            --6. video: id:80 1920*1080 id:64 1280*720 id:32 852*480 id:16 640*320
                 猜测: 是否是各个分辨率所对应的数据
                 audio:
                 已经找到了存放 视频 和 音频 url 的文件,,位置
            --7.发现是一个html的文件,对该html的url发送请求,拿到响应解析即可...
                html文件的url > 是这个详情页面,网址栏的url...
                xpath语法过滤:
                    --根据文本数据过滤
                        当文本数据过多,,只提取一部分,,使用模糊查询
            --8.xpath提取到对应的字符串部分之后,,使用正则去进行提取具体的url
                video url正则提取:"video":\[{"id":\d+,"baseUrl":"(.*?)"
                audio url正则提取:"audio":\[{"id":\d+,"baseUrl":"(.*?)"

            --9.input检测到是可以访问的url,,会直接访问,,打一个空格之后再回车
            
            --10.获取到视频主页的视频名称,,作为文件的名称
                -- 一个h1标签的title属性的数据
                -- 一个span标签的文件数据
                以上两个并不通用,,,有些视频主页取不到
                通用的xpath提取名称写法://title/text()
                我半夜唱Lemon直接把室友给唱哭了!!!!【米津玄师】_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
                我半夜唱Lemon直接把室友给唱哭了!!!!【米津玄师】
                xpath://title/text()
                正则:re.findall(r'(.*?)_哔哩哔哩',str_)[0]

优化解析就是这样,你们自己写吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖子是个潜力股

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值