关于机器人的视觉及图像处理的浅度了解

本人属实愚钝,不能独自研究并理解该课题,故在网上文献的支持下尽力理解了一二。若该文中有侵犯他人的知识产权的方面,请务必告知本人;倘若该文中有不当之处,也请各位不吝赐教,指出不足。

   

在当今社会,需要处理的信息越来越多样,其中视觉信息便占了很大一部分,处理好多面积的视觉信息更是一大重点。在机器人方面也是如此。但限于当代技术,对这种问题的主要解决方案仍是将多面积图像先处理成多方面的单幅图像进行格式转换,再拼接成多面积的图像。

  • 图像的分割

本文主要注重对彩色图像进行分割及转换。

 颜色空间的种类很多,其中RGB为最基础的颜色空间,其他的颜色空间可以由它通过线性变换或非线性变换推导而来。现在有很多种颜色空间可用于彩色图像分割,但无论是哪种都无法代替其他颜色空间,并适用于所有彩色图像分割,故对于彩色图像的分割,如何选择最佳的颜色空间是一个难题是一个难题。

RGB颜色空间

     RBG空间是生活中常用的一个模型,主要面向硬件设备,用于电视机,电脑显示1器等设备的图像设备。

其优点为比较直观,且容易理解。但是由于其三个分量相关度高,如果一个颜色的其中的任何一个变量发生变化,都可能导致这个颜色发生变化。并且它对于周围的环境变化也非常敏感(如亮度),稳定性不好,均匀性也比较差。

YUV颜色空间

不同于RGB,YUV空间的三个变量相互独立,Y表示亮度值,U,V表示色调和饱和度(即色度),实现了亮度和色调的分离,受亮度变化的影响小,提高了稳定性。

HIS颜色空间

其中H表示色调,S表示饱和度,I表示强度或亮度。由于HIS空间中的I分量与图像的彩色信息无关,颜色的判别主要取决于H分量,因此非常适合光照不均匀的环境。并且由于三个分量相互独立,可以分开处理,很多图像分割算法都可以方便地在HIS颜色空间上使用。

  • 图像格式的转换

现在的机器人的视觉系统大多数由摄像头或CMOS/CCD等图像感应器组成,他们能将捕捉到的光源信号转换为数字信号存储为未经处理也未经压缩的RAW格式。由于对RAW文件的处理不方便看到相应具体效果,故需要对其进行转换。

BMP

一种Windows采用的点阵式图像文件格式,主要由位图文件头,位图信息头,位图调色板以及位图数据四个部组成。

位图文件头:文件类型与数据启示位置等;

位图信息头:位图大小与长,宽,高等信息;

位图调色板:由颜色格式确定调色板数组;

位图数据:确定压缩格式等。

GIF

一种公用的图像文件格式标准,图片由许多的像素组成,每一个像素都被指定了一种颜色,这些像素综合起来就构成了图片。GIF采用的是Lempel-Zev-Welch(LZW)压缩算法,最高支持256种颜色。由于这种特性,GIF比较适用于色彩较少的图片,比如卡通造型、公司标志等等。如果碰到需要用真彩色的场合,那么GIF的表现力就比较有限。GIF通常会自带一个调色板,里面存放需要用到的各种颜色。在Web运用中,图像的文件量的大小将会明显地影响到下载的速度,因此可以根据GIF带调色板的特性来优化调色板,减少图像使用的颜色数(有些图像用不到的颜色可以舍去),而不影响到图片的质量。

文件头:一个带有识别GIF格式数据流数据块,用以区分早期版本和新版本。

逻辑屏幕描述区:定义了与图像数据相关的图像平面尺寸、彩色深度,并指明后面的调色板数据区属于全局调色板还是局部调色板。若使用的是全局调色板,则生成一个24bit的RGB全局调色板,其中一个基色占用一个字节。

调色板数据区:分通用调色板和局部调色板。其中通用调色板适于文件中所有图像,局部调色板只适于某一个图像。

图像数据区:内容有两类,一类是纯粹的图像数据,一类是用于特殊目的的数据块(包含专用应用程序代码和不可打印的注释信息)。在GIF89a格式的图像文件中,如果一个文件中包含多个图像,图像数据区将依次重复数据块序列。

结束标志区:作用主要是标记整个数据流的结束。

TIFF

一种灵活的位图格式,主要用来存储包括照片和艺术图在内的图像。是图形图像处理中常用的格式之一,其图像格式很复杂,但由于它对图像信息的存放灵活多变,可以支持很多色彩系统,而且独立于操作系统,因此得到了广泛应用。在各种地理信息系统、摄影测量与遥感等应用中,要求图像具有地理编码信息,例如图像所在的坐标系、比例尺、图像上点的坐标、经纬度、长度单位及角度单位等等。

文件头:在每一个TIFF文件中第一个数据结构称为图像文件头或IFH,它是图像文件体系结构的最高层。这个结构在一个TIFF文件中是惟一的,有固定的位置。它位于文件的开始部分,包含了正确解释TIFF文件的其他部分所需的必要信息。

文件目录:即IFD,是TIFF文件中第2个数据结构,它是一个名为标记(tag)的用于区分一个或多个可变长度数据块的表,标记中包含了有关于图像的所有信息。IFD提供了一系列的指针(索引),这些指针告诉我们各种有关的数据字段在文件中的开始位置,并给出每个字段的数据类型及长度。这种方法允许数据字段定位在文件的任何地方,且可以是任意长度,因此文件格式十分灵活。

图像数据:根据IFD所指向的地址,存储相关的图像信息。

JPEG

是面向连续色调静止图像的一种压缩标准。JPEG格式是最常用的图像文件格式,后缀名为.jpg或.jpeg。其主要是采用预测编码(DPCM)、离散余弦变换(DCT)以及熵编码的联合编码方式,以去除冗余的图像和彩色数据,属于有损压缩格式,它能够将图像压缩在很小的储存空间,一定程度上会造成图像数据的损伤。尤其是使用过高的压缩比例,将使最终解压缩后恢复的图像质量降低,如果追求高品质图像,则不宜采用过高的压缩比例。

JPEG格式可分为标准JPEG、渐进式JPEG及JPEG2000三种格式。

1. 标准JPEG格式;此类型在网页下载时只能由上而下依序显示图像,直到图像资料全部下载完毕,才能看到图像全貌。

2. 渐进式JPEG;此类型在网页下载时,先呈现出图像的粗略外观后,再慢慢地呈现出完整的内容,而且存成渐进式JPG格式的文档比存成标准JPG格式的文档要来得小,所以如果要在网页上使用图像,可以多用这种格式。

3. JPEG2000;它是新一代的影像压缩法,压缩品质更高,并可改善在无线传输时,常因信号不稳造成马赛克现象及位置错乱的情况,改善传输的品质。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值