PyTorch入门：手把手教你搭建你的第一个神经网络模型

字数: (6397)

阅读: (3635)

2026-04-12 11:46:47

内容摘要：PyTorch入门：手把手教你搭建你的第一个神经网络模型,

在深度学习领域，PyTorch以其简洁易用和强大的灵活性成为了众多开发者的首选框架。本文将带你一步一步构建你的第一个神经网络，让你快速入门PyTorch的世界。不少小伙伴刚接触时，会觉得张量、梯度、反向传播这些概念很抽象，但通过实践，你会发现其实并没有那么难。

场景重现：一个简单的手写数字识别任务

让我们以经典的MNIST手写数字识别任务为例。这个任务的目标是训练一个神经网络，使其能够准确地识别0到9的手写数字图像。MNIST数据集包含60,000个训练样本和10,000个测试样本，每个样本都是一个28x28像素的灰度图像。

底层原理：神经网络的核心概念

在深入代码之前，我们需要理解一些基本的神经网络概念：

张量（Tensor）： PyTorch中最基本的数据结构，类似于NumPy中的数组，但可以在GPU上运行，实现加速计算。
层（Layer）： 神经网络的基本组成单元，例如线性层（Linear）、卷积层（Conv2d）、激活函数层（ReLU）等。
模型（Model）： 由多个层组成的神经网络，用于学习输入数据和输出数据之间的关系。
损失函数（Loss Function）： 用于衡量模型预测结果与真实结果之间的差异，例如交叉熵损失函数（CrossEntropyLoss）。
优化器（Optimizer）： 用于更新模型参数，以最小化损失函数，例如随机梯度下降（SGD）、Adam等。
反向传播（Backpropagation）： 计算损失函数对模型参数的梯度，用于更新模型参数。

很多开发者在训练深度学习模型的时候，常常会忽略对于硬件资源的监控，导致显存溢出（OOM）问题。建议使用nvidia-smi 命令实时监控GPU的使用情况，或者使用torch.cuda.empty_cache()释放不必要的显存。

代码实现：构建一个简单的神经网络

下面是一个使用PyTorch构建的简单神经网络的代码示例：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 1. 定义神经网络模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)  # 输入层到隐藏层，全连接层
        self.relu = nn.ReLU()              # ReLU激活函数
        self.fc2 = nn.Linear(128, 10)        # 隐藏层到输出层，全连接层

    def forward(self, x):
        x = x.view(-1, 28 * 28)          # 将28x28的图像展平成784维的向量
        x = self.fc1(x)                 # 通过第一个全连接层
        x = self.relu(x)                  # 通过ReLU激活函数
        x = self.fc2(x)                 # 通过第二个全连接层
        return x

# 2. 加载MNIST数据集
transform = transforms.Compose([
    transforms.ToTensor(),               # 将图像转换为Tensor
    transforms.Normalize((0.1307,), (0.3081,)) # 标准化数据
])

train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1000, shuffle=False)

# 3. 定义损失函数和优化器
model = Net()
criterion = nn.CrossEntropyLoss()   # 交叉熵损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器

# 4. 训练模型
epochs = 2
for epoch in range(epochs):
    for i, (images, labels) in enumerate(train_loader):
        # 前向传播
        outputs = model(images)
        loss = criterion(outputs, labels)

        # 反向传播和优化
        optimizer.zero_grad()          # 清空梯度
        loss.backward()               # 计算梯度
        optimizer.step()                # 更新参数

        if (i+1) % 100 == 0:
            print ('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' 
                   .format(epoch+1, epochs, i+1, len(train_loader), loss.item()))

# 5. 测试模型
with torch.no_grad():  # 禁用梯度计算，节省内存
    correct = 0
    total = 0
    for images, labels in test_loader:
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

    print('Accuracy of the network on the 10000 test images: {} %'.format(100 * correct / total))

代码解释：

Net 类定义了一个包含两个全连接层的神经网络。
transforms.Compose 用于对图像进行预处理，包括转换为Tensor和标准化。
torch.utils.data.DataLoader 用于加载数据集，并进行批量处理。
nn.CrossEntropyLoss 定义了交叉熵损失函数，用于衡量模型预测结果与真实结果之间的差异。
optim.Adam 定义了Adam优化器，用于更新模型参数。
在训练过程中，我们首先进行前向传播，计算损失函数，然后进行反向传播，计算梯度，最后使用优化器更新模型参数。
在测试过程中，我们使用训练好的模型对测试数据进行预测，并计算模型的准确率。

实战避坑：常见问题和解决方案

显存溢出（OOM）： 减小batch size，使用更小的模型，或者使用梯度累积。
梯度消失/梯度爆炸： 尝试使用不同的激活函数（如ReLU），或者使用梯度裁剪。
过拟合： 增加数据量，使用正则化方法（如dropout），或者使用早停法。

在实际项目部署过程中，我们经常会用到Nginx作为反向代理服务器，用于实现负载均衡和静态资源缓存。通过合理配置Nginx，可以有效提升模型的推理性能和系统的并发连接数。例如，可以使用宝塔面板快速搭建Nginx环境，并配置SSL证书，保证数据传输的安全性。

总结

本文带你完成了使用PyTorch构建你的第一个神经网络。从场景重现到代码实现，再到避坑经验，希望能够帮助你快速入门PyTorch的世界。深度学习是一个不断学习和探索的过程，希望你能够在这个领域取得更大的成就！

PyTorch入门：手把手教你搭建你的第一个神经网络模型

转载请注明出处: 程序员阿甘

本文的链接地址: http://m.acea1.store/blog/371990.SHTML

本文最后发布于2026-04-12 11:46:47，已经过了15天没有更新，若内容或图片失效，请留言反馈

推荐阅读

(23)

深度剖析！C 语言语义陷阱与缺陷：程序员避坑指南 PyCharm 助你轻松玩转 PyTorch 与 YOLOv10：环境搭建全攻略

您可能对以下文章感兴趣