win10 爬虫:解决爬取的html与源文件显示不一致问题

在进行爬虫时,有时我们爬取的html和源文件所显示的不一样,此时我们需要使用selenium库来进行爬取。本文将详细介绍如何解决这个问题。

准备工作

1. 安装ChromeDriver

  • step1:首先需要保证谷歌浏览器已经安装好并可以上网。在 帮助->关于谷歌中查看版本。
  • step2:然后需要点击下载ChromeDriver,找到对应谷歌版本进行下载。
  • step3:然后将下载好的文件中的 chromedriver.exe 文件直接放到Adaconda3/Scripts中(注意:该路径需要在环境变量中设置好的)
  • step4:验证。在命令行中输入chromedriver,得到下图所示的结果即为安装成功。
    在这里插入图片描述

2.安装PhantomJS

下载地址,找到对应的系统版本下载,配置过程同上,同样进行验证如下图即为安装成功。
在这里插入图片描述

3.安装GeckoDriver

  • step1:首先需要确认已经安装 Firefox 浏览器并可以正常运行。
  • step2:下载GeckoDriver,同样需要根据系统确定下载版本,如win10 64位系统下载的版本。
    在这里插入图片描述
  • step3:配置过程同安装ChromeDriver
  • step4:验证。得到如下图所示即为安装成功
    在这里插入图片描述

4.安装selenium

通过pip进行安装

pip3 install selenium

到此,准备工作已经完成。

开始实验

# 导入相应的驱动
from selenium import webdriver.Firefox
from selenium import webdriver.Chrome
from selenium import webdriver.PhantomJS

# 根据需要选择一个使用即可,用法类似
browser = Firefox()
# browser = PhantomJS()
# browser = Chrome()

# 对网址进行爬取
browser.get(url)
html = browser.page_source
# print(html)

此时得到的html和源文件中显示的是一样的。

参考文献

《Python3 网络爬虫开发实战》一书

  • 2
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值