Skip to content

llm-jp/swallow-evaluation-vllm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

swallow-eval-vllm

このリポジトリは、swallow-evaluationのvLLM版を非公式で提供するものです。 vLLMを使用することで、より高速な評価を実現します。

評価スクリプトの実行方法

準備:環境構築

swallow-evaluation-vllm/にて

python -m venv .venv_harness_en

swallow-evaluation/にて

source .venv_harness_en/bin/activate
cd lm-evaluation-harness-en
pip install -e .
pip install lm-eval[vllm]

実装の検証

llm-jp/llm-jp-3-13bモデルを使用して、オリジナルの実装とvLLM実装で同等の結果が得られることを確認しています。

英語タスクでの比較

タスク名 パラメータ オリジナル実装 vLLM実装
TriviaQA num_fewshot=4 0.6020 0.6043
GSM8K num_fewshot=4 0.1577 0.1668
OpenBookQA num_fewshot=4 0.3320 0.3240
HellaSWAG num_fewshot=4 0.5701 0.5684
XWinograd num_fewshot=4 0.9011 0.9062
MMLU (平均) num_fewshot=5 0.4625 0.4597
BBH (CoT) num_fewshot=3 0.4022 0.4052

※ SQuADv2タスクについては、現在再現性の確保のため調査中です。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages