benchmarking-LLMs

Reproducible entity-linking benchmarks with LamAPI retrieval and multiple runners.

Quickstart

Configure .env:

ENTITY_RETRIEVAL_ENDPOINT=...
ENTITY_RETRIEVAL_TOKEN=...

Build datasets:

make build-datasets

Run a smoke test:

make run-editsim DATASET=mv MAX_ROWS=5 NIL_THRESHOLD=0.2 FORCE_GT=1

Evaluate:

make eval PRED=outputs/mv/editsim/<hash>/predictions.csv GT=data/mv/gt.csv

Runners

make run-llm DATASET=mv MAX_ROWS=5 MODEL=gpt-oss-120b
make run-crocodile DATASET=mv MAX_ROWS=5
make run-alligator DATASET=mv MAX_ROWS=5
make run-editsim DATASET=mv MAX_ROWS=5 NIL_THRESHOLD=0.2

Common flags (all runners):

--max-rows for smoke tests
--force-gt-candidate to force GT ids into candidate sets
--force-id Qxxxx (repeatable) to add extra forced ids

Makefile equivalents:

FORCE_GT=1
FORCE_ID="Q1 Q2"

Outputs:

outputs/{dataset}/{method}/{settings_hash}/predictions.csv
outputs/{dataset}/{method}/{settings_hash}/report.json

Data

Frozen datasets live in:

data/mv/
data/cp/
data/sn/

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
datasets		datasets
docs/runbooks		docs/runbooks
experiments		experiments
scripts		scripts
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

benchmarking-LLMs

Quickstart

Runners

Data

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

benchmarking-LLMs

Quickstart

Runners

Data

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages