selenium 爬取动态加载数据

由于项目需要爬取某网站动态加载的数据,尝试几种办法最终选定号称万能爬虫的selenium。

windows环境下:

    一、下载谷歌浏览器,查看chrome版本号

   

  二、下载对应版本的的chromedriver,地址:https://npm.taobao.org/mirrors/chromedriver

 三、引入对应的pom文件

   (1)jdk1.8 环境下

(2) jdk1.7 环境下

  由于版本较低,需要寻找合适的版本才能启动。地址:https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-server

如果报xml解析错误,则还需引入

四、编写代码测试

需要注意 driver 退出问题,博客地址:https://blog.csdn.net/yangfengjueqi/article/details/84338167

linux环境下:

   一、下载安装谷歌浏览器

         参考博客:https://www.cnblogs.com/z-x-y/p/9506941.html

        查看谷歌浏览器版本:google-chrome --version

 二、下载对应版本的chromedriver 到指定目录

   注意要给chromedriver可执行权限:chmod   777  chromedriver

三、编写代码

针对linux 环境需要设置 无界面参数,禁用沙盒,版本号不同设置方法大体一样。参考博客:https://blog.csdn.net/hanxue6898/article/details/81184907

后续问题:

  项目放到线上linux环境下运行一段时间后,发现卡顿,内存占用过高的问题。

  通过free -m 或者free -h 查看可用内存仅剩900M左右,通过ps aux 命令查看所有进程 发现

通过 pidof chromedriver 查看所有同名进程 ,killall chromedriver 杀死所有该同名线程,chrome 进程同方法删除。

如果删除,出现该错误:-bash: killall: command not found

需要yum install psmisc 参考博客:https://blog.csdn.net/qq_38287952/article/details/79936062

完成操作后查看内存:

添加代码:

  ChromeDriverService service = new ChromeDriverService.Builder()
                .usingDriverExecutable(new File("/usr/bin/chromedriver")).usingAnyFreePort().build();

service.start();

service.stop();

参考博客:https://blog.csdn.net/hellozhxy/article/details/80179020?utm_source=blogxgwz7

https://www.cnblogs.com/muchengnanfeng/p/9553186.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值