このリポジトリは、swallow-evaluationのvLLM版を非公式で提供するものです。 vLLMを使用することで、より高速な評価を実現します。
swallow-evaluation-vllm/
にて
python -m venv .venv_harness_en
swallow-evaluation/
にて
source .venv_harness_en/bin/activate
cd lm-evaluation-harness-en
pip install -e .
pip install lm-eval[vllm]
llm-jp/llm-jp-3-13b
モデルを使用して、オリジナルの実装とvLLM実装で同等の結果が得られることを確認しています。
タスク名 | パラメータ | オリジナル実装 | vLLM実装 |
---|---|---|---|
TriviaQA | num_fewshot=4 | 0.6020 | 0.6043 |
GSM8K | num_fewshot=4 | 0.1577 | 0.1668 |
OpenBookQA | num_fewshot=4 | 0.3320 | 0.3240 |
HellaSWAG | num_fewshot=4 | 0.5701 | 0.5684 |
XWinograd | num_fewshot=4 | 0.9011 | 0.9062 |
MMLU (平均) | num_fewshot=5 | 0.4625 | 0.4597 |
BBH (CoT) | num_fewshot=3 | 0.4022 | 0.4052 |
※ SQuADv2タスクについては、現在再現性の確保のため調査中です。