使用python+selenium+PantomJs+javascript爬取专利数据

最新推荐文章于 2024-07-17 16:03:40 发布

will4906

最新推荐文章于 2024-07-17 16:03:40 发布

阅读量1w

点赞数 4

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/will4906/article/details/68955619

版权

7 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

通过selenium获取PhantomJs的webdriver实例
- 先导入webdriver的包
  
  from selenium import webdriver
- 获取实例
  
  driver = webdriver.PhantomJS(executable_path=’.\res\phantomjs.exe’)
其中，executable_path为PhantomJs.exe的位置。
连接网址

driver.get(url_path)
填写查询信息
- 通过chrome查看了元素的dom，如图：
- 根据显示编写js代码，然后用webdriver执行脚本，举个例子
driver.execute_script(“document.getElementById(\”tableSearchItemIdIVDB021\”).setAttribute(\”value\”,\”” + inventor + “\”)”)
- 填写完相应参数后，提交表单。
采集数据
- 根据chrome获取各个参数的路径。如图
- 通过webdriver执行js脚本，获取各参数，举个例子
  
  driver.execute_script(“return document.getElementsByClassName(\”item\”).length;”)
采集过程中，可能会遇到各种各样的问题，比方说：
- 查询超时，需要刷新浏览器，可用
  
  driver.refresh()
- 可能需要判断页面中含有什么字符串，可通过一下代码获取：
  
  driver.page_source
- 关闭浏览器
  
  driver.quit()