python --html转图片;centos装浏览器;

该博客介绍了如何利用Python的selenium库将HTML网页转换为图片,并通过滚动截取整个页面。过程中详细讲解了如何配置Chrome浏览器驱动,处理中文乱码问题,以及实现图片的拼接。同时,提供了在云服务器上安装谷歌浏览器和设置字体的步骤。
摘要由CSDN通过智能技术生成

demo

import os
import time

from PIL import Image
from loguru import logger
from selenium import webdriver
from selenium.webdriver.common.by import By


class HtmlToImg(object):
    '''
    html转图片
    '''

    def __init__(self, url: str):
        '''
        @params url -> 图片网络地址;
        '''
        self._url = url
        self._js_to = "window.scroll({top:%d,left:0,behavior:'auto'});"  # 滚动到
        self._js_end = "window.scroll({top:document.body.clientHeight,left:0,behavior:'auto'});"  # 滚动到尾巴

        if 'Windows' == platform.system():
            self._driver_path = 'chromedriver.exe'  # windows驱动路径

        elif 'Linux' == platform.system():
            self._driver_path = '/root/project/code/vehicle_information/backstage/chromedriver'  # linux驱动路径

    @staticmethod
    def join_images(png1, png2, size=0, output='result.png'):
        """
        图片拼接
        @param png1: 图片1
        @param png2: 图片2
        @param size: 两个图片重叠的距离
        @param output: 输出的图片文件
        @return None
        """
        img1, img2 = Image.open(png1), Image.open(png2)
        size1, size2 = img1.size, img2.size  # 获取两张图片的大小
        joint = Image.new('RGB', (size1[0], size1[1] + size2[1] - size))  # 创建一个空白图片
        loc1, loc2 = (0, 0), (0, size1[1] - size)  # 设置两张图片要放置的初始位置

        joint.paste(img1, loc1)  # 分别放置图片
        joint.paste(img2, loc2)

        joint.save(output)  # 保存结果
        os.remove(png2)

    def start(self, width: int = 500, height: int = 800):
        '''开始截取图'''
        option = webdriver.ChromeOptions()
        option.add_argument('--headless')
        option.add_argument('--no-sandbox')
        option.add_argument('--disable-gpu')
        option.add_argument('--disable-dev-shm-usage')
        driver = webdriver.Chrome(executable_path=self._driver_path, options=option)
        driver.set_window_size(width, height)

        driver.get(self._url)
        time.sleep(3)
        driver.save_screenshot('result.png')

        # 获取body大小
        body_h = int(driver.find_element(By.XPATH, '//body').size.get('height'))
        logger.debug(f'页面总高:{body_h}')

        # 计算当前页面截图的高度
        # (使用driver.get_window_size()也可以获取高度,但有误差,推荐使用图片高度计算)
        current_h = Image.open('result.png').size[1]
        logger.success(f'图片高:{current_h}')
        logger.warning(f'循环结束:{body_h / current_h}')

        for i in range(1, int(body_h / current_h)):
            logger.debug(f'当前循环高度:{current_h * i}')  # 1. 滚动到指定锚点
            driver.execute_script(self._js_to % (current_h * i))

            driver.save_screenshot(f'test_{i}.png')  # 2. 截图
            self.join_images('result.png', f'test_{i}.png')

        logger.success(f'开始处理最后一张')
        driver.execute_script(self._js_end)  # 处理最后一张图
        driver.save_screenshot('test_end.png')
        self.join_images('result.png', 'test_end.png', size=current_h - int(body_h % current_h))  # 拼接图片

云服务器安装谷歌浏览器

  • cd /etc/yum.repos.d
  • vim google-chrome.repo
    内容:
[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

然后使用yum install的命令在线安装谷歌浏览器:

yum -y install google-chrome-stable --nogpgcheck

安装完成之后的话,使用 google-chrome --version 命令查看安装的谷歌浏览器的版本,然后从网上去下载浏览器对应版本的驱动文件。

驱动下载地址:

https://sites.google.com/a/chromium.org/chromedriver/downloads

http://chromedriver.storage.googleapis.com/index.html

下载完解压后,记得检查驱动文件是否为可执行状态,不然到时候是无法启动浏览器执行用例的。

解决中文乱码问题

# 创建中文字体目录
mkdir -p /usr/share/fonts/chinese/

# 将字体文件拷贝到中文字体目录中
cp songti.ttf /usr/share/fonts/chinese/

cd /usr/share/fonts/chinese/

# 为刚加入的字体设置缓存使之有效
fc-cache -fv

# 查看系统中的字体
fc-list
安装好中文字体之后,再次执行Selenium截图时中文就不会显示为方块了。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

像风一样的男人@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值