统计 MNIST 手写数字数据集中每个数字的个数

悄悄地努力

已于 2022-10-15 20:25:08 修改

阅读量1.6k

点赞数 2

文章标签： MNIST

于 2022-10-15 20:22:56 首次发布

本文链接：https://blog.csdn.net/weixin_46034990/article/details/127339828

版权

训练集

先上结论，MNIST 训练集共 60,000 个实例，0~9 各个数字的实例个数如下表：

数字	个数
0	5923
1	6742
2	5958
3	6131
4	5842
5	5421
6	5918
7	6265
8	5851
9	5949

import torchvision

# 加载 MNIST 训练集
train_dataset = torchvision.datasets.MNIST(
    root='dataset/',
    train=True,
    download=True
)

# 获取训练集所有标签个数
targets = train_dataset.targets		# 共 60,000 个训练实例

# 声明长度为 10 的数组，数组中的第 0 个元素记录数字 0 的个数，依次类推
num_count = [0] * 10

# 遍历所有训练集标签
for i in targets:
    # 获取该数字标签
    num = i.item()
    # 该数字对应计数 +1
    num_count[num] += 1

print(num_count)    # [5923, 6742, 5958, 6131, 5842, 5421, 5918, 6265, 5851, 5949]

测试集

先上结论，MNIST 测试集共 10,000 个实例，0~9 各个数字的实例个数如下表：

数字	个数
0	980
1	1135
2	1032
3	1010
4	982
5	892
6	958
7	1028
8	974
9	1009

import torchvision

# 加载 MNIST 测试集
test_dataset = torchvision.datasets.MNIST(
    root='dataset/',
    train=False,
    download=True
)

# 获取测试集所有标签个数
targets = test_dataset.targets		# 共 10,000 个测试实例

# 声明长度为 10 的数组，数组中每个元素初始化为 0. 
# 数组中的第 0 个元素记录数字 0 的个数，依次类推
num_count = [0] * 10

# 遍历所有测试集标签
for i in targets:
    # 获取该数字标签
    num = i.item()
    # 该数字对应计数 +1
    num_count[num] += 1

print(num_count)    # [980, 1135, 1032, 1010, 982, 892, 958, 1028, 974, 1009]