关于用selenium爬虫爬取带有下拉框的网站无法爬取到文本的问题

本文介绍了使用selenium爬虫爬取带有下拉框的网站时遇到隐藏元素无法获取文本的困境。通过分析,发现原因是动态加载的内容和隐藏元素的存在。解决方法是等待元素完全展开后再进行爬取,从而成功获取所需文本。作者分享此经验以帮助新手避免类似问题。
摘要由CSDN通过智能技术生成

目标网站是:https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1

我原先的想法是:

url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1"
browser = Firefox()
browser.get(url)
internal = browser.find_elements_by_xpath('//div[@class="tit"]')
 print(internal.txt)

然后经过测试发现xpath没毛病但是就说显示不出来文本内容。在网上翻阅了好久发现原因是因为这种属于隐藏元素,再加上属于动态加载的内容,无法直接显示。解决办法是将它完全展开后再进行爬取:

url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1"
browser = Firefox()
browser.get(url)
button = browser.find_element_by_xpath('//div[@class="more_news"]')
#完全展开新闻
browser.execute_script("arguments[0].click();",button)
browser.execute_scrip
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值