计算机视觉之人手数字与字母识别_人工智能研究所的博客-CSDN博客

计算机视觉之人手数字与字母识别

文章平均质量分 80

1、本专栏主要来介绍计算机视觉之人手数字与人手字母识别的相关知识 2、在学习CNN卷积神经网络是如何来进行人手数字与字母的识别 3、话说人手数字识别是计算机视觉中的hello word,你学会了吗

文章数：8 文章阅读量：4534 文章收藏量：4

作者: 人工智能研究所

头条人工智能研究所，计算机视觉，NLP

展开

专栏收录文章

TrOCR——基于transformer模型的OCR手写文字识别

但是随着transformer模型attention注意力机制进入计算机视觉任务，我们同样可以使用transformer来进行计算机视觉方面的任务，比如对象检测，对象分类，对象分割等，这里毕竟著名的模型VIT，Swin便是成功的把transformer的注意力机制应用到了计算机视觉任务，那么基于transformer模型的OCR识别任务，便是理所当然的了。前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

原创 2023-09-16 13:13:53 · 634 阅读 · 0 评论
人工智能与机器学习Pytorch手写数字识别-MINIST数据集识别篇

上期文章，我们分享了Pytorch手写数字的训练，当pytorch训练完成后，保存了训练的参数，方便本期使用预训练参数，进行手写数字的识别，我们准备一个手写数字的图片，可以自己在画图软件中，直接写个数字。为灰色图像，它的每个像素用8个bit表示，0表示黑，255表示白，其他数字表示不同的灰度。但是它每个像素用8个bit表示，0表示黑，255表示白。PIL九种不同模式：1，L，P，RGB，RGBA，CMYK，YCbCr,I，F。# 这里的0 代表的是黑，1 代表白，但是minist数据0代表白，1代表黑。

原创 2023-08-24 18:49:01 · 206 阅读 · 0 评论
Pytorch 手写数字识别-MINIST 数据集训练

此结构时pytorch标准的模板结构，本神经网络一共有2层，若了解tensorflow的小伙伴可以很容易理解此神经结构，第一层，我们输入minist的数据集，minist的数据图片是一维 28*28的图片，所以第一层的输入（1，28，28），高度为1，设置输出16通道，使用5*5的卷积核对图片进行卷积运算，每步移动一格，为了避免图片尺寸变化，设置pading为2，则经过第一层卷积就输出（16，28，28）数据格式。神经网络训练完成后，我们使用测试集的数据，进行一下神经网络的测试，看看训练的结果。

原创 2023-08-21 11:45:00 · 141 阅读 · 0 评论
人工智能TensorFlow MNIST手写数字识别——实战篇

同样的形式我们定义第二层卷积，本层我们的输入就是上一层的输出，本层我们的卷积核patch的大小是5x5，有32个featuremap所以输入就是32，输出定为64。因为采用了SAME的padding方式，输出图片的大小为14X14（第一层的输出），只是厚度变厚了64，现在的输出大小就变成了14X14X64。因为采用了SAME的padding方式，输出图片的大小没有变化依然是28x28，只是厚度变厚了，现在的输出大小就变成了28x28x32。7、定义placehoder以及keep_prob。

原创 2023-07-27 14:00:00 · 185 阅读 · 0 评论
人工智能TensorFlow MNIST手写数字识别——训练篇

卷积核，tf.nn.conv2d函数是tensoflow里面的二维的卷积函数，x是图片的所有参数，W是此卷积层的权重，步长strides=[1,1,1,1]，strides[0]和strides[3]的两个1是默认值，中间两个1代表padding时在x方向运动一步，y方向运动一步，padding采用的方式是SAME。同样的形式我们定义第二层卷积，本层我们的输入就是上一层的输出，本层我们的卷积核patch的大小是5x5，有32个featuremap所以输入就是32，输出定为64。

原创 2023-05-24 06:15:00 · 441 阅读 · 0 评论
人工智能CNN 卷积神经网络结构（tensorflow代码实现）

通过上期的分享，我们了解了手写数字识别的基本原理以及CNN卷积神经网络的基本原理，本期我们结合MNIST数据集，来用代码来实现CNN。（手写数字识别是TensorFlow人工智能最基础的案例，这个跟学习编程语言的hello Word一样）具体每个步骤的含义，我们下期分享CNN如何来识别MNIST手写数字，来一起分享具体的过程。以上便是一个完整的CNN卷积神经网络的结构。

原创 2023-05-23 06:30:00 · 435 阅读 · 0 评论
人工智能MINIST手写数字识别之MINIST概念

举个例子，一个模型当图片上的手写体数字是9时有80%的可能性识别的结果是9，还有5%的可能性识别出的结果是8。softmax回归的作用是可以将概率分配给几个不同的对象，softmax提供了一个值处于0到1之间的列表，而列表中的值加起来为1。在训练的过程中，我们必须单独保留一份没有用于机器训练的数据作为验证的数据，这才能确保训练的结果的可行性。训练数据集和测试数据集都是同样的结构，例如：训练的图片名为 mnist.train.images 而训练的标签名为 mnist.train.labels。

原创 2023-05-22 12:09:18 · 1772 阅读 · 0 评论
人工智能之读懂CNN卷积神经网络

•归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。我们可以看到，在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。当然卷积层，Relu激励层与Pooling层可以多次使用。

原创 2023-05-21 07:00:00 · 720 阅读 · 0 评论

计算机视觉之人手数字与字母识别

作者: 人工智能研究所

TrOCR——基于transformer模型的OCR手写文字识别

人工智能与机器学习Pytorch手写数字识别-MINIST数据集识别篇

Pytorch 手写数字识别-MINIST 数据集训练

人工智能TensorFlow MNIST手写数字识别——实战篇

人工智能TensorFlow MNIST手写数字识别——训练篇

人工智能CNN 卷积神经网络结构（tensorflow代码实现）

人工智能MINIST手写数字识别之MINIST概念

人工智能之读懂CNN卷积神经网络