一、MNIST数据集简介
MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它包含了四个部分:
1.Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
2.Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
3.Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
4.Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)
MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.在MNIST训练集中,mnist.train.images是一个形状为[60000,784]的张量,第一个维度用来索引图片,第二个维度用来索引图片的像素点。我们使用的标签数据是“one--hot vector",一个one--向量除了某一个位置的数字是1以外其余的数字全为0。所以mnist.train.labels是一个[60000,10]的数字矩阵。
二、逻辑回归
1.模型
逻辑回归是一个概率,线性分类器。它的参数包含一个权值矩阵
W和一个偏置向量b。分类器将输入向量映射到一系列超平面上,每个超平面对应一个类别。输入向量与超平面的距离反映了输入属于对应类别的概率。
在数学上,一个输入向量x属于类别i(概率变量Y的值)的概率,记为: