强化学习的数学

马尔可夫决策过程 (MDP)

智能体在状态 $s$ 选动作 $a$、得奖励 $r$、转移到 $s'$，目标是最大化期望累积折扣回报 $\mathbb E[\sum_t\gamma^t r_t]$。要素：状态、动作、奖励、转移、折扣 $\gamma$。

Bellman 方程

值函数满足递推：
$V^\pi(s)=\sum_a\pi(a\mid s)\sum_{s'}P(s'\mid s,a)\big[r+\gamma V^\pi(s')\big]$
最优值满足 Bellman 最优方程，价值迭代/Q-learning 据此求解。

策略梯度

直接对参数化策略 $\pi_\theta$ 求梯度：
$\nabla_\theta J(\theta)=\mathbb E\big[\nabla_\theta\log\pi_\theta(a\mid s),Q^\pi(s,a)\big]$
用基线/优势函数 $A=Q-V$ 减小方差（Actor-Critic、PPO）。

例题

例　$\gamma=0.9$，每步奖励 1 的无限序列，回报 $\sum_t 0.9^t=\dfrac{1}{1-0.9}=10$——折扣因子把无穷未来收敛为有限值，并体现“近期奖励更重要”。

应用

强化学习驱动 游戏 AI（AlphaGo）、机器人控制、推荐与广告、运筹调度，并通过 RLHF 对齐大语言模型。Bellman 方程是动态规划与最优控制的共同核心。

马尔可夫决策过程 (MDP)

Bellman 方程

策略梯度

例题

应用

评论 (0)