提高计算机视觉任务的图像质量

介绍

当我们开始从事任何基于计算机视觉的任务时,我们所有人都面临的几个问题是,要么是缺乏数据,要么是数据质量的问题。

数据量较少仍然只有两种可能的解决方案,一种是尝试获取更多数据或继续使用不同的增强技术,但是当我们谈论数据质量时,数据质量差异很大,因为在某些限制性的指导原则下,你不会点击所有的图像。用户可以在不同的光照条件、不同的角度和 DPI 下单击图像,因此提出一种适用于所有这些的理想图像增强技术是一种 NP 难题。

因此,有一组方法主要用于增强计算机视觉任务的图像质量,例如对象检测、图像分类、OCR 等。我们将通过示例图像并应用各种增强技术来一一讨论它们.

我们将在本文中讨论的技术如下:

  1. 二值化/阈值化

  2. 降噪

  3. 纠偏

  4. 重新缩放

  5. 形态学操作

  6. 为了尝试这些操作,我们将使用Python3语言及其两个库, PillowOpenCV

二值化

此技术用于将图像从 RGB 转换为单色(黑白),通常称为**阈值处理。**该技术主要用于需要白底黑字的 OCR 任务。

OCR 模型在白底黑字的图像上进行训练,以提高准确性,因此对图像进行二值化有助于提高 OCR 模型的质量。二值化图像还有助于节省空间并加快处理速度,因为与其他多通道图像格式相比,它只有一个颜色通道。

OpenCV 库提供了多种类型的二值化技术。

1. 二进制阈值:这是最简单的一个,我们必须定义一个阈值,低于该阈值,所有像素值都被转换为黑色,其余的像素值会转换为白色,从而得到二值化图像,你可以使用以下代码片段来对图像进行二进制阈值处理。

## import dependencies
import cv2
from PIL import Image
import matplotlib.pyplot as plt
## reading image
img = cv2.imread('text_document.jpg',0)
## apply binary thresholding
ret,thresh1 = cv2.threshold(img,170,255,cv2.THRESH_BINARY)
## plot original and binarised image 
titles = ['Original Image', 'Binary Thresholding']
images = [img, thresh1]
for i in range(2):
    plt.figure(figsize=(20,20))
    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)
    plt.title(titles[i])
    plt.xticks([]),plt.yticks([])

上面的代码将产生以下图像:

7c890821465fd4c692b19acdb00cb0c7.png

2. 自适应阈值:与二元阈值法

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值