Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

一、动态HTML
1.爬虫跟反爬虫
2.动态HTML连载
(1)JavaScript
(2)jQuery
(3)Ajax
(4)DHTML
(5)Python采集动态数据
从JavaScript代码入手采集;Python第三方库运行JavaScript,直接采集你在浏览器中看到的页面
二、Selenium + PhantomJS
1.Selenium:web自动化测试工具
(1)自动加载页面;(2)获取数据;(3)截屏
(4)官方文档:http://selenium-python.readthedocs.io/index.html
2.PhantomJS
(1)基于WebKit的无界面的浏览器
(2)官方网站:http://phantomjs.org/download.html
3.Selenium库有一个WebDriver的API
4.WebDriver可以跟页面上的元素进行各种交互,用它可以来进行爬取

"""
通过webdriver操作模拟进行查找
"""
from selenium import webdriver
import time
#通过keys模拟键盘
from selenium.webdriver.common.keys import Keys
#操作哪个浏览器就对哪个浏览器建立一个实例
#自动按照环境变量查找相应的浏览器
driver = webdriver.PhantomJS()#这个就是浏览器的实例
#如果浏览器没有相应的环境浏览器,需要指定浏览器位置
driver.get("http://www.baidu.com")#去访问这个网站,然后获取返回的数据
#通过函数查找title标签
print("Title:{0}".format(driver.title))

14.1
5.Chrome + Chromedriver
下载Chrome:下载和安装
Chromdriver安装
五、源码
Reptile14_1_DHTML.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料
14.2

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值