-
Notifications
You must be signed in to change notification settings - Fork 204
Open
Description
在 https://alibaba.github.io/ROLL/docs/User%20Guides/Algorithms/LitePPO 中提到 LitePPO 的相关配置,其中
adv_estimator: "gae"
num_return_sequences_in_group: 1
LitePPO 采样按组求均值以及按 batch 归一化的方式,所以为什么优势计算方法是 gae 而不是 grpo 呢,以及为什么每个 prompt 仅仅一个 response.
Metadata
Metadata
Assignees
Labels
No labels