飞桨学习笔记之计算机视觉(上)
学习过程
飞桨课程首先介绍了计算机视觉的定义、计算机视觉技术的各种应用和飞桨api功能的强大性。然后介绍了计算机视觉的发展历程,其中涵盖了计算机视觉一系列的子任务。其中基于神经网络的特征提取方法十分关键,也就是卷积神经网络。而卷积神经网络的发光发热和数据量的增大和硬件能力的提升是不无关系的。
飞桨课程着重介绍了卷积神经网络和两个典型任务(图像分类和目标检测)。
计算机视觉的定义
计算机视觉作为一门让机器学会如何去“看”的科学学科,具体的说,就是让机器去识别摄像机拍摄的图片或视频中的物体,检测出物体所在的位置,并对目标物体进行跟踪,从而理解并描述出图片或视频里的场景和故事,以此来模拟人脑视觉系统。因此,计算机视觉也通常被叫做机器视觉,其目的是建立能够从图像或者视频中“感知”信息的人工系统。
计算机视觉的应用
计算机视觉技术经过几十年的发展,已经在交通(车牌识别、道路违章抓拍)、安防(人脸闸机、小区监控)、金融(刷脸支付、柜台的自动票据识别)、医疗(医疗影像诊断)、工业生产(产品缺陷自动检测)等多个领域应用,影响或正在改变人们的日常生活和工业生产方式。未来,随着技术的不断演进,必将涌现出更多的产品应用,为我们的生活创造更大的便利和更广阔的机会。
![](https://i-blog.csdnimg.cn/blog_migrate/6dda6d10b8d0e90ab4deacc4818f16b0.png)
图1:计算机视觉技术在各领域的应用
计算机视觉的典型子任务
(1) Image Classification: 图像分类,用于识别图像中物体的类别(如:bottle、cup、cube)。
(2) Object Localization: 目标检测,用于检测图像中每个物体的类别,并准确标出它们的位置。
(3) Semantic Segmentation: 图像语义分割,用于标出图像中每个像素点所属的类别,属于同一类别的像素点用一个颜色标识。
(4) Instance Segmentation: 实例分割,值得注意的是,(b)中的目标检测任务只需要标注出物体位置,而(d)中的实例分割任务不仅要标注出物体位置,还需要标注出物体的外形轮廓。
卷积神经网络
卷积神经网络有一些基础模块:卷积、池化、ReLU激活函数、批归一化、丢弃法。
在手写数字识别任务中,对特征的提取是将一张图片上所有像素点展开成一个一维向量输入网络,而这就有两个问题:
1. 输入数据的空间信息被丢失
2. 模型参数过多,容易发生过拟合
用卷积神经网络进行特征提取的好处有:既能提取到相邻像素点之间的特征模式,又能保证参数的个数不随图片尺寸变化。
卷积
卷积算法涵盖以下内容:卷积计算、填充、步幅、感受野、多输入通道、多输出通道和批量操作。
飞桨卷积API介绍
飞桨卷积算子对应的API是paddle.fluid.dygraph.Conv2D,用户可以直接调用API进行计算,也可以在此基础上修改。常用的参数如下:
- num_channels (int) - 输入图像的通道数。
- num_fliters (int) - 卷积核的个数,和输出特征图通道数相同,相当于上文中的 C o u t C_{out} Cout。
- filter_size(int|tuple) - 卷积核大小,可以是整数,比如3,表示卷积核的高和宽均为3 ;或者是两个整数的list,例如[3,2],表示卷积核的高为3,宽为2。
- stride(int|tuple) - 步幅,可以是整数,默认值为1,表示垂直和水平滑动步幅均为1;或者是两个整数的list,例如[3,2],表示垂直滑动步幅为3,水平滑动步幅为2。
- padding(int|tuple) - 填充大小,可以是整数,比如1,表示竖直和水平边界填充大小均为1;或者是两个整数的list,例如[2,1],表示竖直边界填充大小为2,水平边界填充大小为1。
- act(str)- 应用于输出上的激活函数,如Tanh、Softmax、Sigmoid,Relu等,默认值为None。
代码实现
案例1——简单的黑白边界检测
with fluid.dygraph.guard():
# 创建初始化权重参数w
w = np.array([1, 0, -1], dtype='float32')
# 将权重参数调整成维度为[cout, cin, kh, kw]的四维张量
w = w.reshape([1, 1, 1, 3])
# 创建卷积算子,设置输出通道数,卷积核大小,和初始化权重参数
# filter_size = [1, 3]表示kh = 1, kw=3
# 创建卷积算子的时候,通过参数属性param_attr,指定参数初始化方式
# 这里的初始化方式时,从numpy.ndarray初始化卷积参数
conv = Conv2D(num_channels=1, num_filters=1, filter_size=[1, 3],
param_attr=fluid.ParamAttr(
initializer=NumpyArrayInitializer(value=w)))
# 创建输入图片,图片左边的像素点取值为1,右边的像素点取值为0
img = np.ones([50,50], dtype='float32')
img[:, 30:] = 0.
# 将图片形状调整为[N, C, H, W]的形式
x = img.reshape([1,1,50,50])
# 将numpy.ndarray转化成paddle中的tensor
x = fluid.dygraph.to_variable(x)
# 使用卷积算子作用在输入图片上
y = conv(x)
# 将输出tensor转化为numpy.ndarray
out = y.numpy()
查看卷积层的参数
with fluid.dygraph.guard():
# 通过 conv.parameters()查看卷积层的参数,返回值是list,包含两个元素
print(conv.parameters())
# 查看卷积层的权重参数名字和数值
print(conv.parameters()[0].name, conv.parameters()[0].numpy())
# 参看卷积层的偏置参数名字和数值
print(conv.parameters()[1].name, conv.parameters()[1].numpy())
案例2——图像中物体边缘检测
with fluid.dygraph.guard():
# 设置卷积核参数
w = np.array([[-1,-1,-1], [-1,8,-1], [-1,-1,-1]], dtype='float32')/8
w = w.reshape([1, 1, 3, 3])
# 由于输入通道数是3,将卷积核的形状从[1,1,3,3]调整为[1,3,3,3]
w = np.repeat(w, 3, axis=1)
# 创建卷积算子,输出通道数为1,卷积核大小为3x3,
# 并使用上面的设置好的数值作为卷积核权重的初始化参数
conv = Conv2D(num_channels=3, num_filters=1, filter_size=[3, 3],
param_attr=fluid.ParamAttr(
initializer=NumpyArrayInitializer(value=w)))
# 将读入的图片转化为float32类型的numpy.ndarray
x = np.array(img).astype('float32')
# 图片读入成ndarry时,形状是[H, W, 3],
# 将通道这一维度调整到最前面
x = np.transpose(x, (2,0,1))
# 将数据形状调整为[N, C, H, W]格式
x = x.reshape(1, 3, img.height, img.width)
x = fluid.dygraph.to_variable(x)
y = conv(x)
out = y.numpy()
案例3——图像均值模糊
with fluid.dygraph.guard():
# 创建初始化参数
w = np.ones([1, 1, 5, 5], dtype = 'float32')/25
conv = Conv2D(num_channels=1, num_filters=1, filter_size=[5, 5],
param_attr=fluid.ParamAttr(
initializer=NumpyArrayInitializer(value=w)))
x = img.astype('float32')
x = x.reshape(1,1,img.shape[0], img.shape[1])
x = fluid.dygraph.to_variable(x)
y = conv(x)
out = y.numpy()
心得感受
飞桨的课程将计算机视觉讲的十分详细清楚,案例代码也十分完整,非常期待之后的学习。