目标网站是:https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1
我原先的想法是:
url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1"
browser = Firefox()
browser.get(url)
internal = browser.find_elements_by_xpath('//div[@class="tit"]')
print(internal.txt)
然后经过测试发现xpath没毛病但是就说显示不出来文本内容。在网上翻阅了好久发现原因是因为这种属于隐藏元素,再加上属于动态加载的内容,无法直接显示。解决办法是将它完全展开后再进行爬取:
url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1"
browser = Firefox()
browser.get(url)
button = browser.find_element_by_xpath('//div[@class="more_news"]')
#完全展开新闻
browser.execute_script("arguments[0].click();",button)
browser.execute_scrip

本文介绍了使用selenium爬虫爬取带有下拉框的网站时遇到隐藏元素无法获取文本的困境。通过分析,发现原因是动态加载的内容和隐藏元素的存在。解决方法是等待元素完全展开后再进行爬取,从而成功获取所需文本。作者分享此经验以帮助新手避免类似问题。
最低0.47元/天 解锁文章

2312

被折叠的 条评论
为什么被折叠?



