swallow-eval-vllm

このリポジトリは、swallow-evaluationのvLLM版を非公式で提供するものです。 vLLMを使用することで、より高速な評価を実現します。

評価スクリプトの実行方法

swallow-evaluation-vllm/にて

python -m venv .venv_harness_en

swallow-evaluation/にて

source .venv_harness_en/bin/activate
cd lm-evaluation-harness-en
pip install -e .
pip install lm-eval[vllm]

python scripts/aggregate_result.py --model <checkpoint path>
python scripts/show_result.py --model-list <model_list path>   # 1 行 1 モデル名を並べたテキスト

llm-jp/llm-jp-3-13bモデルを使用して、オリジナルの実装とvLLM実装で同等の結果が得られることを確認しています。

タスク名	パラメータ	オリジナル実装	vLLM実装
TriviaQA	num_fewshot=4	0.6020	0.6043
GSM8K	num_fewshot=4	0.1577	0.1668
OpenBookQA	num_fewshot=4	0.3320	0.3240
HellaSWAG	num_fewshot=4	0.5701	0.5684
XWinograd	num_fewshot=4	0.9011	0.9062
MMLU (平均)	num_fewshot=5	0.4625	0.4597
BBH (CoT)	num_fewshot=3	0.4022	0.4052

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
lm-evaluation-harness-en @ c6eaaa0		lm-evaluation-harness-en @ c6eaaa0
scripts		scripts
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md