Skip to content

🐛 refactor-arch-2分支/train命令环境下的一些bugs #8

@townwish4git

Description

@townwish4git

以下bug出现在train模式,即/train命令后进入的相关环境:

  1. agent模块无法zoom in,而其他模块(train job/setup env/metrics/logs)均可通过tab选中后使用快捷键z进行zoom in/out
  2. DSA not implemented相关剧情bug:没有算子应该第一个step都过不了,这里step25/300之后才报错
  3. 训练进行中选择stop选项后用户界面卡死,helper不提供下一步选项,除了手动exit之外没有别的选择
  4. 训练完成后进入【rerun/ analyze perf/ algo-feature】的死循环,没有其他终止选项(例如:保存日志后退出train模式),rerun之后又重新回到了这三个选项
  5. 训练完成选择analyze perf之后进入如下工作流:
    1. 提示当前vanilla adam性能不佳
    2. agent自动实现fused adam以提升perf
    3. 重新训练
    4. 训练完成,为用户重新提供【rerun/ analyze perf/ algo-feature】三个备选项
      此时重新选择analyze perf又会重头来过,而这(提示vanilla adam性能不佳)与当前状态(已经apply fused adam)矛盾
  6. 选择algo-feature也会出现同第5点的问题,会重复apply MHC algo

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions