基于Python,Selenium和PhantomJS实现动态页面爬取

1.下载安装Python2.7,将Python安装目录加入系统环境变量PTAH中。
2.在Python官网下载SetupTools,解压安装。
3.安装SetupTools之后,在Python安装目录下可找到Scripts目录。
4.将Scripts目录加入系统环境变量PTAH中。
5.打开cmd命令行,将目录切换到Scripts目录下,输入命令“easy_install pip”安装pip。
6.pip安装完成后,输入命令“pip install -U selenium” 下载安装最新版本的selenium。
7.编写抓取动态页面的Python脚本,下面是爬取淘宝搜索“python”结果页的完整脚本代码。

# coding=gbk 

from selenium import webdriver 
import time 

driver = webdriver.PhantomJS(executable_path="phantomjs.exe")
url = 'http://www.baidu.com/s?wd=%CC%EC%CF%C2%CE%DE%D4%F4'

def get_html():
    return driver.page_source.encode('gbk','ignore')

def get_screen_shot():
    driver.get_screenshot_as_file("3.jpg")

def test():      
    driver.get(url)
    time.sleep(5)

    print get_html()
    get_screen_shot() 

    driver.close()

if __name__ == '__main__':
    test()

8.执行脚本前需要下载浏览器phantomjs,将下载文件夹中的phantomjs.exe拷贝至我们的脚本所在目录下。
9.执行脚本,爬取页面,下面是对爬取结果截图的图片(部分)。
这里写图片描述

发布了302 篇原创文章 · 获赞 137 · 访问量 183万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览