Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

最新推荐文章于 2023-05-15 18:01:23 发布

睿里睿气

最新推荐文章于 2023-05-15 18:01:23 发布

阅读量198

点赞数

分类专栏： Python爬虫文章标签： Python爬虫

本文链接：https://blog.csdn.net/weixin_44630050/article/details/104852872

版权

Python爬虫专栏收录该内容

16 篇文章 1 订阅

订阅专栏

一、动态HTML
1.爬虫跟反爬虫
2.动态HTML连载
（1）JavaScript
（2）jQuery
（3）Ajax
（4）DHTML
（5）Python采集动态数据
从JavaScript代码入手采集；Python第三方库运行JavaScript，直接采集你在浏览器中看到的页面
二、Selenium + PhantomJS
1.Selenium：web自动化测试工具
（1）自动加载页面；（2）获取数据；（3）截屏
（4）官方文档：http://selenium-python.readthedocs.io/index.html
2.PhantomJS
（1）基于WebKit的无界面的浏览器
（2）官方网站：http://phantomjs.org/download.html
3.Selenium库有一个WebDriver的API
4.WebDriver可以跟页面上的元素进行各种交互，用它可以来进行爬取

"""
通过webdriver操作模拟进行查找
"""
from selenium import webdriver
import time
#通过keys模拟键盘
from selenium.webdriver.common.keys import Keys
#操作哪个浏览器就对哪个浏览器建立一个实例
#自动按照环境变量查找相应的浏览器
driver = webdriver.PhantomJS()#这个就是浏览器的实例
#如果浏览器没有相应的环境浏览器，需要指定浏览器位置
driver.get("http://www.baidu.com")#去访问这个网站，然后获取返回的数据
#通过函数查找title标签
print("Title:{0}".format(driver.title))

14.1
5.Chrome + Chromedriver
下载Chrome：下载和安装
Chromdriver安装
五、源码
Reptile14_1_DHTML.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py
2.CSDN：https://blog.csdn.net/weixin_44630050
3.博客园：https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号：傅里叶变换，个人公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料
14.2

睿里睿气

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

一、动态HTML1.爬虫跟反爬虫2.动态HTML连载（1）JavaScript（2）jQuery（3）Ajax（4）DHTML（5）Python采集动态数据从JavaScript代码入手采集；Python第三方库运行JavaScript，直接采集你在浏览器中看到的页面二、Selenium + PhantomJS1.Selenium：web自动化测试工具（1）自动加载页面；（2...
复制链接

扫一扫