RewardBench: Evaluating Reward Models for Language Modeling

This week's paper is RewardBench: Evaluating Reward Models for Language Modeling.

RewardBench is the first toolkit for benchmarking reward models. In addition to the benchmark, the authors compare scaling, test reasoning capabilities, highlight three buckets of refusal behavior, and share details on the inner workings of RMs.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RewardBench_Evaluating_Reward_Models_for_Language_Modeling.md

RewardBench_Evaluating_Reward_Models_for_Language_Modeling.md

RewardBench: Evaluating Reward Models for Language Modeling

Files

RewardBench_Evaluating_Reward_Models_for_Language_Modeling.md

Latest commit

History

RewardBench_Evaluating_Reward_Models_for_Language_Modeling.md

File metadata and controls

RewardBench: Evaluating Reward Models for Language Modeling