Torch 和 Tensorflow 的区别
- 图创建:创建和运行计算图可能是两个框架最不同的地方。
- 在 pyTorch 中,图结构是动态的,这意味着图在运行时构建。
- 而在 TensorFlow 中,图结构是静态的,这意味着图先被“编译”然后再运行。
- 代码调试
- pyTorch 中简单的图结构更容易理解,更重要的是,还更容易调试。调试 pyTorch 代码就像调试 Python 代码一样,可以使用 pdb 并在任何地方设置断点。
- 调试 tensorFlow 代码与pytorch相比更为困难,要么得从会话请求要检查的变量,要么学会使用 tensorFlow 的调试器。
- 灵活性
- pytorch:动态计算图,数据参数在 CPU 与 GPU 之间迁移十分灵活,调试简便;
- tensorflow:静态计算图,数据参数在 CPU 与 GPU 之间迁移麻烦,调试麻烦。
- 设备管理
- pytorch:需要明确启用的设备
- tensorflow:不需要手动调整,简单
深度学习模型整体流程
import torch
import torch.nn as nn
from torch.utils.data import Dataset,DataLoader
(一)数据读入
PyTorch数据读入是通过Dataset+DataLoader的方式完成的:
- Dataset定义好数据的格式和数据变换形式
- DataLoader用iterative的方式不断读入批次数据。
定义数据集Dataset
- init: 用于向类中传入外部参数,同时定义样本集。
- getitem: 用于逐个读取样本集合中的元素,可以进行一定的变换,并将返回训练/验证所需的数据。
- len: 用于返回数据集的样本数
class MyDataset(Dataset):
def __init__(self,data,targets):
self.data=data
self.targets=targets
def __getitem__(self,index):
x=self.data[index]
y=self.targets[index]
return x,y
def __len__(self);
return len(self.data)
准备数据
train_data=...
train_targets=...
test_data=...
test_targets=...
在构建训练和测试集完成后,需定义DataLoader类,以便在训练和测试时加载数据
- train_data:表示来自哪个Dataset,也就是我们上面定义好的类
- batch_size:表示每一批加载多少数据
- shuffle:是说上面类里面的getitem就不是从0开始,可能是打乱的来取数据
- num_workers:用多少个线程来读
- drop_last:是否对应到最后一个数据,因为一般导入数据最后可能是导不满的
- pin_memory:增加内存占用但是会让程序运行快(用空间换时间)
train_dataset=MyDataset(train_data,train_targets)
test_dataset=MyDataset(test_data,test_targets)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers, drop_last=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=num_workers)
(二)定义模型
- 模型构建
pytorch super 作用:调用父类初始化函数,用于类的继承(具体可以参考这篇文章:Pytorch构建网络模型时super(class, self).init()的作用)
class MyModel(nn.Module):
def __init__(self):
super(MyModel,self).__init__()
self.fc1=nn.Linear(784,128)
self.fc2=nn.Linear(128,10)
def forward(self,x):
x=x.view(-1,784)
x=nn.functional.relu(self.fc1(x))
x=self.fc2(x)
return x
- 定义超参数和训练参数
- batch_size:一批的数据的量
- lr:初始学习率(初始),每次参数更新的步长
- max_epochs:训练次数(轮数)
learning_rate=0.01
batch_size=32
num_epochs=10
log_interval=100
- 定义模型、损失函数和优化器
device=torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model=MyModel().to(device)
criterion=nn.CrossEntropyLoss()
optimizer=torch.optim.SGD(model.parameters(),lr=learning_rate)
(三)训练模型
for epoch in range(num_epochs):
for batch_idx,(data,targets) in enumerate(train_loader):
data,targets=data.to(device),targets.to(device)
optimizer.zero_grad() #防止梯度累加,要清零
outputs=model(data) #前向传播,得到输出output
loss=criterion(outputs,targets)
loss.backward() #反向传播回去
optimizer.step() #用优化器更新权重
if (batch_idx+1)%log_interval==0:
print(f'Epoch [{epoch+1}/{num_epochs}], '
f'Step [{batch_idx+1}/{len(train_loader)}], '
f'Loss:{loss.item():.4f}')
(四)测试模型
与训练模型的四点不同:
- 模型定义的不同
- 优化器要不要做0初始化-- optimizer.zero_grad()
- 损失函数要不要回传-- loss.backward()
- 优化器要不要做每步的权重更新-- optimizer.step()
model.eval()
correct=0
total=0
with torch.no_grad(): #表示不做梯度计算,如果不加这个会报memory的错误
for data,targets in test_loader:
data,targets=data.to(device),targets.to(device) #之前model已经放到cuda了,所以data和targets也要放到cuda
outputs=model(data)
_,predicted=torch.max(outputs.data,1) ##对输出的output求最大,找到他是哪一类
total+=targets.size(0)
correct+=(predicted==targets).sum().item()
print(f'Test Accuracy:{100 * correct / total:.2f}%')