简介
在使用python进行爬取数据时,有时会遇到表格筛选条件变化但上方链接不变化的情况。本文介绍一种简单的方法,爬取数据。
例子为nba-stat网站的 [http://www.stat-nba.com/team/ATL.html]
直接获取到的html文件无法爬取18-19或者往期赛季的数据,只能爬取到当前界面的表单数据(19-20赛季).
步骤
-
F12 打开 开发调试工具.点击Network后刷新界面
-
比如要爬取18-19赛季数据,点击页面中的小标题后发现有新的网络活动.
-
这个新的活动的url就是一个表格,表格链接,只需按照普通网页爬取步骤(我用的是bs.findall().get_text()后再用re)即可得到所需的数据(然后分析这个链接中的相关元素即可爬取以往赛季或者其他球队的数据.
(http://www.stat-nba.com/team/stat_box_team.php?team=ATL&season=2018&col=pts&order=1&isseason=1
比如team的值一改就是别的队的18赛季数据了