我对于提供的 REINFORCE 算法[图片](https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=_43-reinforce%ef%bc%9a%e8%92%99%e7%89%b9%e5%8d%a1%e6%b4%9b%e7%ad%96%e7%95%a5%e6%a2%af%e5%ba%a6)中的策略参数更新公式存在错误。 当前的更新公式是: θ ← θ + αγ^t G ∇log π(A_t|S_t, θ) 然而,折扣因子 γ 已经在回报 G 的计算中被考虑过了,其中: G ← Σ_{k=t+1}^{T} γ^{k-t-1} R_k 在策略更新步骤中再次乘以 γ^t 会不会错误地对回报进行二次折扣,偏离了 REINFORCE 算法的正确动态。 更新公式是否应该是: θ ← θ + α G ∇log π(A_t|S_t, θ)