马尔可夫决策过程 (MDP)

智能体在状态 $s$ 选动作 $a$、得奖励 $r$、转移到 $s'$,目标是最大化期望累积折扣回报 $\mathbb E[\sum_t\gamma^t r_t]$。要素:状态、动作、奖励、转移、折扣 $\gamma$。

Bellman 方程

值函数满足递推:
$V^\pi(s)=\sum_a\pi(a\mid s)\sum_{s'}P(s'\mid s,a)\big[r+\gamma V^\pi(s')\big]$
最优值满足 Bellman 最优方程,价值迭代/Q-learning 据此求解。

策略梯度

直接对参数化策略 $\pi_\theta$ 求梯度:
$\nabla_\theta J(\theta)=\mathbb E\big[\nabla_\theta\log\pi_\theta(a\mid s),Q^\pi(s,a)\big]$
用基线/优势函数 $A=Q-V$ 减小方差(Actor-Critic、PPO)。

例题

 $\gamma=0.9$,每步奖励 1 的无限序列,回报 $\sum_t 0.9^t=\dfrac{1}{1-0.9}=10$——折扣因子把无穷未来收敛为有限值,并体现“近期奖励更重要”。

应用

强化学习驱动 游戏 AI(AlphaGo)、机器人控制、推荐与广告、运筹调度,并通过 RLHF 对齐大语言模型。Bellman 方程是动态规划与最优控制的共同核心。