python 爬虫（3）selenium

最新推荐文章于 2024-09-18 22:04:52 发布

zanllp

最新推荐文章于 2024-09-18 22:04:52 发布

阅读量335

点赞数

分类专栏： python MySQL

本文链接：https://blog.csdn.net/zanllp/article/details/80371211

版权

本文介绍了使用Selenium进行Python爬虫时的一些关键技巧，包括利用XPath获取元素并存储到MySQL，设置定时停止加载以提高效率，以及处理页面卡死问题。示例中，通过PhantomJS无头浏览器抓取了使用Ajax技术的网页，并对比了BeautifulSoup解析Selenium返回内容的效果。此外，还探讨了Chrome浏览器下应对页面卡死的解决方案。

摘要由CSDN通过智能技术生成

使用selenium前需要浏览器，这里用的phantomjs，是个无头浏览器，就是只加载到内存你看不到图形界面，当然其它浏览器opera，chrome，edge，ie,firefox都行。需要要

http://pythonscraping.com/pages/javascript/ajaxDemo.html就使用了ajax技术，在打开2秒后网页的内容会改变。

打开后停3秒

from selenium import webdriver
import time
driver= webdriver.PhantomJS(executable_path=r"C:\phantomjs-2.1.1-windows\bin\phantomjs.exe")#浏览器的安装路径前面要加个r，表示不进行转义，相当于c#的@
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
time.sleep(3)
print(driver.find_element_by_id("content").text)#获取id content里的所有文本
driver.close()

打开后停1秒

from selenium import webdriver
import time
driver= webdriver.PhantomJS(executable_path=r"C:\phantomjs-2.1.1-windows\bin\phantomjs.exe")#路径前面要加个r，表示不进行转义，相当于c#的@
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
time.sleep(1)
print(driver.find_element_by_id