爬虫项目ubuntu18.04服务器下配置爬虚拟界面谷歌浏览器有头模式 xvfb+chromedriver+google-chrom-CSDN博客

本文链接：https://blog.csdn.net/weixin_43746424/article/details/115705181

鉴于正在编写一个scrapy+selenium爬虫项目的需要，需要在 linux无界面服务器环境下配置爬虫环境，本文参考了 centos 下的配置文章 https://www.cnblogs.com/ybyn/p/13690914.html
总共分为几个步骤

安装 google-chrome

方法有很多种
1、从源安装

#添加google-chrome 源
sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/
#添加 google 公钥
wget -q -O - https://dl.google.com/linux/linux_signing_key.pub  | sudo apt-key add -
#更新源
sudo apt-get update
#安装 google-chrome 稳定版
sudo apt-get install google-chrome-stable

2、查看 google-chrome 版本

google-chrome  -version

Google Chrome 89.0.4389.114

安装 chrome-driver

网址 https://npm.taobao.org/mirrors/chromedriver/
根据google-chrome -version得出的版本号下载 chromedriver
wget https://npm.taobao.org/mirrors/chromedriver/89.0.4389.23/chromedriver_linux64.zip
解压
unzip chromedriver_linux64.zip
移动到/usr/bin目录

sudo mv chromedriver  /usr/bin/chromedriver

安装 xvfb

sudo apt update
sudo apt install xvfb

更改软链接

#将原来的google启动链接链接到/usr/bin/chrome
ln -s /etc/alternatives/google-chrome /usr/bin/chrome
#移除/usr/bin/google-chrome软链接
rm -rf /usr/bin/google-chrome
#设置xvfb-chrome脚本为新的启动链接
ln -s /usr/bin/xvfb-chrome /usr/bin/google-chrome

编写 xvfb-chrome 启动脚本

#!/bin/bash

_kill_procs() {
kill -TERM $chrome
wait $chrome
kill -TERM $xvfb
}

# Setup a trap to catch SIGTERM and relay it to child processes
trap _kill_procs SIGTERM

XVFB_WHD=${XVFB_WHD:-1280x720x16}

# Start Xvfb
Xvfb :99 -ac -screen 0 $XVFB_WHD -nolisten tcp &
xvfb=$!

export DISPLAY=:99

chrome --no-sandbox --disable-gpu$@ &
chrome=$!

wait $chrome
wait $xvfb

大功告成

至此 scrapy crawl spidername 命令，项目可以正常启动了注意 options 项中不要添加–headless

2021-05-04 以上方法会造成内存泄露
用pyvirtualdisplay调用 xvfb 可以更好地控制
from pyvirtualdisplay import Display
display = Display(visible=0, size=(800, 800))
display.start()