Scala+Jsoup爬取B站动态数据
示例仅作为记录练习,不存在恶意爬取网页,如涉及违法,立删。代码过于简单不贴了。
使用scala+jsoup爬取B站数据,由于大部分数据属于动态数据,直接访问主页是获取不到有用数据
比如要爬取“生活区-搞笑类”的视频列表
上面对应的URL是https://www.bilibili.com/v/life/funny/?spm_id_from=333.334.b_7072696d6172795f6d656e75.60#/all/click/0/1/2019-09-01,2019-09-30
,直接获取这个链接,得到的Document的元素里面,这个视频列表是没有的
3、打开chrome浏览器的网页检查,在Network菜单栏,ctrl+f,打开Search搜索界面,搜索视频排行榜中出现的关键词,比如第一个视频UP主敬汉卿,播放140.5万,弹幕9806,这里要注意的是,up名字使用的是16进制表示直接搜索会搜索到Document,播放量这里是四舍五入的表示,搜索无结果,只有弹幕是一个具体详细的数字9806。
如上所示,通过搜索257这个弹幕数,得到了一个Response,进而获取到Headers的URLhttps://s.search.bilibili.com/cate/search?callback=jqueryCallback_bili_9358062349811913&main_ver=v3&s