python 爬取GitHub项目watch数目问题

最新推荐文章于 2023-03-07 14:36:48 发布

bats421

最新推荐文章于 2023-03-07 14:36:48 发布

阅读量216

点赞数

分类专栏： # 爬虫文章标签： selenium chrome html github

本文链接：https://blog.csdn.net/weixin_43616817/article/details/114754157

版权

爬虫专栏收录该内容

8 篇文章 1 订阅

订阅专栏

python GitHub项目watch数目爬取不到问题

问题：想要爬取一个GitHub项目的watch，star，fork数目，star和fork均能爬取到，但是watch数目始终查找不到
在这里插入图片描述
问题代码如下：

from bs4 import BeautifulSoup
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36',
    'accept': 'text/html',
}

html = requests.get('https://github.com/tensorflow/tensorflow', headers=headers)

# print(html.text)
soup = BeautifulSoup(html.text, "html.parser")

watch = soup.find_all('a', href="/tensorflow/tensorflow/watchers")  # watch数目
stars = soup.find_all('a', href="/tensorflow/tensorflow/stargazers")  # star数目
fork = soup.find_all('a', href="/tensorflow/tensorflow/network/members")  # fork数目
print(watch[0].text.strip())

使用soup.find_all始终爬取不到watch数目所在的<a>标签，尝试各种方法无法解决

于是想到了利用selenium来模拟浏览器尝试爬取，使用这种方法后，立马知道了问题所在，下面附上使用selenium的代码：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='D:\\12102\\files\\chromedriver.exe')
# 自动访问的网站
driver.get("https://github.com/tensorflow/tensorflow")

watch = driver.find_element_by_css_selector('a.social-count')
print(watch.text)

运行结果如下：
在这里插入图片描述
看到这张图不难发现，在没有登录的情况下，是看不到watch数目的，这也是为什么解析到的网页源代码中没有watch数目，所以无论如何也爬不到

我的解决方法，在headers中添加cookie值，该值也可以在F12中看到
在这里插入图片描述

修改后的headers如下：
在这里插入图片描述
这时就成功解决问题

bats421

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬取GitHub项目watch数目问题

python GitHub项目watch数目爬取不到问题问题：想要爬取一个GitHub项目的watch，star，fork数目，star和fork均能爬取到，但是watch数目始终查找不到问题代码如下：from bs4 import BeautifulSoupimport requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like
复制链接

扫一扫

专栏目录