-
Notifications
You must be signed in to change notification settings - Fork 2
🐛 refactor-arch-2分支/train命令环境下的一些bugs #8
Copy link
Copy link
Open
Description
以下bug出现在train模式,即/train命令后进入的相关环境:
- agent模块无法zoom in,而其他模块(train job/setup env/metrics/logs)均可通过tab选中后使用快捷键z进行zoom in/out
- DSA not implemented相关剧情bug:没有算子应该第一个step都过不了,这里step25/300之后才报错
- 训练进行中选择stop选项后用户界面卡死,helper不提供下一步选项,除了手动exit之外没有别的选择
- 训练完成后进入【rerun/ analyze perf/ algo-feature】的死循环,没有其他终止选项(例如:保存日志后退出train模式),rerun之后又重新回到了这三个选项
- 训练完成选择analyze perf之后进入如下工作流:
- 提示当前vanilla adam性能不佳
- agent自动实现fused adam以提升perf
- 重新训练
- 训练完成,为用户重新提供【rerun/ analyze perf/ algo-feature】三个备选项
此时重新选择analyze perf又会重头来过,而这(提示vanilla adam性能不佳)与当前状态(已经apply fused adam)矛盾
- 选择algo-feature也会出现同第5点的问题,会重复apply MHC algo
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels