由于项目需要爬取某网站动态加载的数据,尝试几种办法最终选定号称万能爬虫的selenium。
windows环境下:
一、下载谷歌浏览器,查看chrome版本号
二、下载对应版本的的chromedriver,地址:https://npm.taobao.org/mirrors/chromedriver
三、引入对应的pom文件
(1)jdk1.8 环境下
(2) jdk1.7 环境下
由于版本较低,需要寻找合适的版本才能启动。地址:https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-server
如果报xml解析错误,则还需引入
四、编写代码测试
需要注意 driver 退出问题,博客地址:https://blog.csdn.net/yangfengjueqi/article/details/84338167
linux环境下:
一、下载安装谷歌浏览器
参考博客:https://www.cnblogs.com/z-x-y/p/9506941.html
查看谷歌浏览器版本:google-chrome --version
二、下载对应版本的chromedriver 到指定目录
注意要给chromedriver可执行权限:chmod 777 chromedriver
三、编写代码
针对linux 环境需要设置 无界面参数,禁用沙盒,版本号不同设置方法大体一样。参考博客:https://blog.csdn.net/hanxue6898/article/details/81184907
后续问题:
项目放到线上linux环境下运行一段时间后,发现卡顿,内存占用过高的问题。
通过free -m 或者free -h 查看可用内存仅剩900M左右,通过ps aux 命令查看所有进程 发现
通过 pidof chromedriver 查看所有同名进程 ,killall chromedriver 杀死所有该同名线程,chrome 进程同方法删除。
如果删除,出现该错误:-bash: killall: command not found
需要yum install psmisc 参考博客:https://blog.csdn.net/qq_38287952/article/details/79936062
完成操作后查看内存:
添加代码:
ChromeDriverService service = new ChromeDriverService.Builder()
.usingDriverExecutable(new File("/usr/bin/chromedriver")).usingAnyFreePort().build();
service.start();
service.stop();
参考博客:https://blog.csdn.net/hellozhxy/article/details/80179020?utm_source=blogxgwz7