PyTorch 强化学习实战：从零构建你的第一个智能体

字数: (9516)

阅读: (1946)

2026-04-22 21:39:02

内容摘要：PyTorch 强化学习实战：从零构建你的第一个智能体,

强化学习（Reinforcement Learning，RL）作为人工智能领域的重要分支，近年来备受关注。然而，对于新手来说，如何快速上手 PyTorch 强化学习，并构建一个可运行的 Demo 仍然存在挑战。本文将以一个简单的 CartPole 环境为例，详细介绍如何使用 PyTorch 搭建强化学习智能体，并提供实战避坑经验。

CartPole 环境简介

CartPole 是 OpenAI Gym 中的一个经典控制问题，目标是控制一根杆子（Pole）使其保持竖直状态，同时控制小车（Cart）在轨道上移动，防止杆子倒下或小车超出轨道范围。这是一个典型的强化学习环境，状态空间包括小车的位置、速度、杆子的角度、角速度，动作空间包括向左或向右推动小车。环境会根据智能体的动作给出奖励，例如保持杆子竖直越久，奖励越高。

PyTorch 强化学习基础

在开始编写代码之前，我们需要了解一些 PyTorch 强化学习的基础概念：

环境（Environment）：智能体与之交互的外部世界，例如 CartPole 环境。
状态（State）：对环境的描述，例如 CartPole 环境中小车的位置、速度等。
动作（Action）：智能体可以采取的行动，例如 CartPole 环境中向左或向右推动小车。
奖励（Reward）：环境对智能体动作的反馈，例如 CartPole 环境中保持杆子竖直的奖励。
策略（Policy）：智能体根据状态选择动作的规则，例如神经网络。
值函数（Value Function）：评估在某个状态下采取某个动作的长期回报。

代码实现：基于 DQN 的 CartPole 智能体

这里我们使用 Deep Q-Network (DQN) 算法来训练 CartPole 智能体。DQN 是一种经典的强化学习算法，它使用深度神经网络来近似 Q 函数（动作值函数），从而解决状态空间过大导致无法使用传统 Q-learning 算法的问题。

首先，我们需要安装必要的依赖：

pip install torch gym numpy

接下来，我们定义 DQN 网络结构：

import torch
import torch.nn as nn
import torch.nn.functional as F

class DQN(nn.Module):
    def __init__(self, state_space, action_space):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_space, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, action_space)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)

# 定义状态空间和动作空间
state_space = 4  # CartPole 环境的状态空间维度
action_space = 2 # CartPole 环境的动作空间维度

# 创建 DQN 网络实例
model = DQN(state_space, action_space)

然后，我们定义经验回放缓冲区（Replay Buffer）：

import numpy as np

class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity
        self.buffer = []
        self.position = 0

    def push(self, state, action, reward, next_state, done):
        if len(self.buffer) < self.capacity:
            self.buffer.append(None)
        self.buffer[self.position] = (state, action, reward, next_state, done)
        self.position = (self.position + 1) % self.capacity

    def sample(self, batch_size):
        batch = np.random.choice(len(self.buffer), batch_size, replace=False)
        state, action, reward, next_state, done = zip(*[self.buffer[i] for i in batch])
        return state, action, reward, next_state, done

    def __len__(self):
        return len(self.buffer)

# 创建经验回放缓冲区实例
replay_buffer = ReplayBuffer(10000)

接着，我们编写训练循环：

import gym
import torch.optim as optim

# 创建 CartPole 环境
env = gym.make('CartPole-v1')

# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 定义超参数
epsilon = 0.9  # 探索率
epsilon_decay = 0.0005
gamma = 0.99   # 折扣因子
batch_size = 64
num_episodes = 400

for episode in range(num_episodes):
    state = env.reset()
    done = False
    total_reward = 0

    while not done:
        # 探索或利用
        if np.random.rand() < epsilon:
            action = env.action_space.sample()
        else:
            state_tensor = torch.FloatTensor(state).unsqueeze(0)
            q_values = model(state_tensor)
            action = torch.argmax(q_values).item()

        next_state, reward, done, _ = env.step(action)
        total_reward += reward

        # 将经验存入回放缓冲区
        replay_buffer.push(state, action, reward, next_state, done)

        # 更新状态
        state = next_state

        # 训练 DQN 网络
        if len(replay_buffer) > batch_size:
            state_batch, action_batch, reward_batch, next_state_batch, done_batch = replay_buffer.sample(batch_size)

            state_batch = torch.FloatTensor(state_batch)
action_batch = torch.LongTensor(action_batch)
            reward_batch = torch.FloatTensor(reward_batch)
            next_state_batch = torch.FloatTensor(next_state_batch)
done_batch = torch.FloatTensor(done_batch)

            q_values = model(state_batch).gather(1, action_batch.unsqueeze(1)).squeeze(1)
next_q_values = model(next_state_batch).max(1)[0]
expected_q_values = reward_batch + gamma * next_q_values * (1 - done_batch)

            loss = F.mse_loss(q_values, expected_q_values)

            optimizer.zero_grad()
loss.backward()
            optimizer.step()

    # 衰减探索率
    epsilon = max(0.01, epsilon - epsilon_decay)

    print(f"Episode: {episode+1}, Total Reward: {total_reward}, Epsilon: {epsilon}")

env.close()

最后，我们可以测试训练好的智能体：

import gym
import torch
import numpy as np

# 创建 CartPole 环境
env = gym.make('CartPole-v1')

# 定义状态空间和动作空间
state_space = 4  # CartPole 环境的状态空间维度
action_space = 2 # CartPole 环境的动作空间维度

# 创建 DQN 网络实例
model = DQN(state_space, action_space)

# 加载训练好的模型
model.load_state_dict(torch.load("dqn_model.pth"))
model.eval()

num_episodes = 5

for episode in range(num_episodes):
    state = env.reset()
    done = False
    total_reward = 0

    while not done:
        # 选择动作
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        q_values = model(state_tensor)
        action = torch.argmax(q_values).item()

        # 执行动作
        next_state, reward, done, _ = env.step(action)
        total_reward += reward

        # 更新状态
        state = next_state

        env.render()

    print(f"Episode: {episode+1}, Total Reward: {total_reward}")

env.close()

实战避坑经验

环境选择：初学者建议从简单的环境入手，例如 CartPole 或 MountainCar，逐步增加难度。
超参数调整：强化学习算法对超参数非常敏感，需要仔细调整，例如学习率、折扣因子、探索率等。可以使用网格搜索或贝叶斯优化等方法来寻找最佳超参数组合。也可以使用宝塔面板搭建可视化界面进行参数调整。
探索与利用：在训练过程中，需要在探索（Exploration）和利用（Exploitation）之间进行权衡。探索是指智能体尝试新的动作，以发现更好的策略；利用是指智能体根据已知的策略选择最佳动作。可以使用 Epsilon-Greedy 策略或 Softmax 策略来平衡探索和利用。
经验回放：经验回放是一种重要的技术，它可以打破数据之间的相关性，提高训练的稳定性。回放缓冲区的大小需要根据具体问题进行调整。在生产环境中，可以使用 Redis 等缓存数据库来存储经验数据，并使用 Nginx 作为反向代理，实现负载均衡，提高系统的并发连接数。
梯度爆炸/消失：深度神经网络训练过程中容易出现梯度爆炸或梯度消失的问题，可以使用梯度裁剪或批量归一化等技术来缓解。
模型保存与加载：训练好的模型需要及时保存，以便后续使用。PyTorch 提供了 torch.save 和 torch.load 函数来保存和加载模型参数。

总结

本文以 CartPole 环境为例，详细介绍了如何使用 PyTorch 搭建强化学习智能体。通过学习本文，读者可以掌握 PyTorch 强化学习的基本概念和代码实现，并了解一些实战避坑经验。希望本文能够帮助读者快速入门 PyTorch 强化学习，并构建自己的智能体。强化学习在游戏 AI、机器人控制、金融交易等领域都有广泛的应用，掌握强化学习技术对于解决实际问题具有重要意义。对于复杂场景，可以考虑使用分布式训练，例如使用 Ray 或 Horovod 等框架，提升训练效率。

PyTorch 强化学习实战：从零构建你的第一个智能体

转载请注明出处: 代码一只喵

本文的链接地址: http://m.acea1.store/blog/274681.SHTML

本文最后发布于2026-04-22 21:39:02，已经过了5天没有更新，若内容或图片失效，请留言反馈

推荐阅读

(99)

Vue3 新特性深度解析：告别性能瓶颈与开发痛点 STM32 开发环境搭建：STM32CubeMX 与 CLion 完美融合实战

您可能对以下文章感兴趣