Release v0.9.3.3 · biological-alignment-benchmarks/biological-alignment-gridagents-benchmarks

Adding support for imitation learning / expert override with PPO multi-agent weight sharing setup.
Adding support for use_expln PPO and A2C policy argument to mitigate NaNs in SB3 tensors.
Adding support for SB3 AdamW optimizer, needed to mitigate occasional PPO NaN's during imitation learning.
Adding support for target_kl PPO config argument to mitigate NaNs in SB3 tensors.
Adding support for early_detect_nans config argument to early detect NaNs in SB3 tensors.
Adding support for soft_stop_training_on_nan_errors to handle NaNs in SB3 tensors smoothly.
Adding configuration files for imitation learning. Also adding configs for 2-layout trials.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

v0.9.3.3

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

Uh oh!