训练集
先上结论,MNIST 训练集共 60,000 个实例,0~9 各个数字的实例个数如下表:
数字 | 个数 |
---|---|
0 | 5923 |
1 | 6742 |
2 | 5958 |
3 | 6131 |
4 | 5842 |
5 | 5421 |
6 | 5918 |
7 | 6265 |
8 | 5851 |
9 | 5949 |
import torchvision
# 加载 MNIST 训练集
train_dataset = torchvision.datasets.MNIST(
root='dataset/',
train=True,
download=True
)
# 获取训练集所有标签个数
targets = train_dataset.targets # 共 60,000 个训练实例
# 声明长度为 10 的数组,数组中的第 0 个元素记录数字 0 的个数,依次类推
num_count = [0] * 10
# 遍历所有训练集标签
for i in targets:
# 获取该数字标签
num = i.item()
# 该数字对应计数 +1
num_count[num] += 1
print(num_count) # [5923, 6742, 5958, 6131, 5842, 5421, 5918, 6265, 5851, 5949]
测试集
先上结论,MNIST 测试集共 10,000 个实例,0~9 各个数字的实例个数如下表:
数字 | 个数 |
---|---|
0 | 980 |
1 | 1135 |
2 | 1032 |
3 | 1010 |
4 | 982 |
5 | 892 |
6 | 958 |
7 | 1028 |
8 | 974 |
9 | 1009 |
import torchvision
# 加载 MNIST 测试集
test_dataset = torchvision.datasets.MNIST(
root='dataset/',
train=False,
download=True
)
# 获取测试集所有标签个数
targets = test_dataset.targets # 共 10,000 个测试实例
# 声明长度为 10 的数组,数组中每个元素初始化为 0.
# 数组中的第 0 个元素记录数字 0 的个数,依次类推
num_count = [0] * 10
# 遍历所有测试集标签
for i in targets:
# 获取该数字标签
num = i.item()
# 该数字对应计数 +1
num_count[num] += 1
print(num_count) # [980, 1135, 1032, 1010, 982, 892, 958, 1028, 974, 1009]