-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Labels
pretrainExperiment of model pretrainExperiment of model pretrain
Description
Overview
FP8の各種設定を適用した際の学習器やモデルの挙動を確認する。
Details
3.8Bモデルに対し、以下の各種設定で1k stepsの学習を行う。
- ベースライン(各種指標の比較対象)
- BF16
- 基本の設定
- BP8 hybrid most-recent
- バラエティ
- 学習開始地点
- 0 step
- 2k steps
- 20k steps
- 200k steps
- 精度
- FP8 hybrid
- FP8 E4M3
- FP8スケーリング
- アルゴリズム
- most-recent (window=1)
- max (window=2, 4, 8, ...)
- マージン (0, 1, 2, 4, ...)
- インターバル (1, 2, 4, ...)
- アルゴリズム
- 学習開始地点
Resources
- 計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 8
- コード
- 入力データ:
- 学習済みチェックポイント:
sakura:/home/shared/experiments/0021_v3-3.8b
- LLM-jp v3.1 コーパス:
sakura:/data/llm-jp-corpus/v3.{0,1}.0
- 学習済みチェックポイント:
- 出力データ:
- 保存先:
sakura:/data/experiments/0031_fp8-behavior
- データ内訳:
- {name}: xxx TB (バッファ容量を含む)
- 保存先:
- W&B ログ:
- 開始日: 2024-08-31
- 終了予定日: 2024-09-15 (バッファ期間を含む)
Metadata
Metadata
Assignees
Labels
pretrainExperiment of model pretrainExperiment of model pretrain