Skip to content

REINFORCE 算法中策略更新公式中额外的折扣因子 #181

@Jason-Pei0118

Description

@Jason-Pei0118

我对于提供的 REINFORCE 算法图片中的策略参数更新公式存在错误。 当前的更新公式是:

θ ← θ + αγ^t G ∇log π(A_t|S_t, θ)

然而,折扣因子 γ 已经在回报 G 的计算中被考虑过了,其中:

G ← Σ_{k=t+1}^{T} γ^{k-t-1} R_k

在策略更新步骤中再次乘以 γ^t 会不会错误地对回报进行二次折扣,偏离了 REINFORCE 算法的正确动态。

更新公式是否应该是:

θ ← θ + α G ∇log π(A_t|S_t, θ)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions