爬虫——Python爬虫（BeautifulSoup）遇到拿不到的标签

最新推荐文章于 2023-12-06 18:33:17 发布

沼泽深处的王

最新推荐文章于 2023-12-06 18:33:17 发布

阅读量3k

点赞数 3

分类专栏：爬虫文章标签： python selenium chrome 人工智能

本文链接：https://blog.csdn.net/zeshen123/article/details/109545963

版权

爬虫专栏收录该内容

5 篇文章 2 订阅

订阅专栏

问题：由于网速不好，一些需要缓冲的标签获取不到
解决方案：首先查看是不是自己所写的标签有问题，是用class还是用id取的。
再利用仿真，让网站停留几秒进行缓冲
方法：
（1）将chromedriver.exe放到程序所在文件夹
（2）py文件中导入

from selenium import webdriver
import time

（3）具体代码

driver = webdriver.Chrome()
driver.get(wholelink)#写上自己的链接
time.sleep(5)#缓冲时间，可调
content = driver.page_source.encode('utf-8')
driver.close()
bs3 = BeautifulSoup(content, "lxml")#也可换为html.parse

其他操作可以查看以前文章
爬虫——Python爬英文文献ScienceDirect论文的标题、摘要，并保存在本地
 爬虫——Python爬百度学术论文的标题、摘要，并保存在本地

沼泽深处的王

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫——Python爬虫（BeautifulSoup）遇到拿不到的标签

问题：由于网速不好，一些需要缓冲的标签获取不到解决方案：首先查看是不是自己所写的标签有问题，是用class还是用id取的。再利用仿真，让网站停留几秒进行缓冲方法：（1）将chromedriver.exe放到程序所在文件夹（2）py文件中导入from selenium import webdriverimport time（3）具体代码driver = webdriver.Chrome()driver.get(wholelink)#写上自己的链接time.sleep(5)#缓冲时间，可
复制链接

扫一扫

专栏目录