使用python+selenium+PantomJs+javascript爬取专利数据

环境准备

爬取目标

爬取过程

  1. 通过selenium获取PhantomJs的webdriver实例

    • 先导入webdriver的包

      from selenium import webdriver

    • 获取实例

      driver = webdriver.PhantomJS(executable_path=’.\res\phantomjs.exe’)

    其中,executable_path为PhantomJs.exe的位置。

  2. 连接网址

    driver.get(url_path)

  3. 填写查询信息

    • 通过chrome查看了元素的dom,如图:
      这里写图片描述
    • 根据显示编写js代码,然后用webdriver执行脚本,举个例子

    driver.execute_script(“document.getElementById(\”tableSearchItemIdIVDB021\”).setAttribute(\”value\”,\”” + inventor + “\”)”)

    • 填写完相应参数后,提交表单。
  4. 采集数据

    • 根据chrome获取各个参数的路径。如图
      这里写图片描述

    • 通过webdriver执行js脚本,获取各参数,举个例子

      driver.execute_script(“return document.getElementsByClassName(\”item\”).length;”)

  5. 采集过程中,可能会遇到各种各样的问题,比方说:

    • 查询超时,需要刷新浏览器,可用

      driver.refresh()

    • 可能需要判断页面中含有什么字符串,可通过一下代码获取:

      driver.page_source

    • 关闭浏览器

      driver.quit()

代码资源

csdn下载

https://github.com/will4906/PatentCrawler

代码中含有将xlwt,xlrd和xlutils用工厂模式封装的excel操作模块,可供参考。

  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值