python 爬虫 (3)selenium

本文介绍了使用Selenium进行Python爬虫时的一些关键技巧,包括利用XPath获取元素并存储到MySQL,设置定时停止加载以提高效率,以及处理页面卡死问题。示例中,通过PhantomJS无头浏览器抓取了使用Ajax技术的网页,并对比了BeautifulSoup解析Selenium返回内容的效果。此外,还探讨了Chrome浏览器下应对页面卡死的解决方案。
摘要由CSDN通过智能技术生成

使用selenium前需要浏览器,这里用的phantomjs,是个无头浏览器,就是只加载到内存你看不到图形界面,当然其它浏览器opera,chrome,edge,ie,firefox都行。需要要

http://pythonscraping.com/pages/javascript/ajaxDemo.html就使用了ajax技术,在打开2秒后网页的内容会改变。

打开后停3秒

from selenium import webdriver
import time
driver= webdriver.PhantomJS(executable_path=r"C:\phantomjs-2.1.1-windows\bin\phantomjs.exe")#浏览器的安装路径前面要加个r,表示不进行转义,相当于c#的@
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
time.sleep(3)
print(driver.find_element_by_id("content").text)#获取id content里的所有文本
driver.close()

打开后停1秒

from selenium import webdriver
import time
driver= webdriver.PhantomJS(executable_path=r"C:\phantomjs-2.1.1-windows\bin\phantomjs.exe")#路径前面要加个r,表示不进行转义,相当于c#的@
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
time.sleep(1)
print(driver.find_element_by_id
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值