hiroki-tamba-research

Follow

Hiroki Tamba hiroki-tamba-research

Follow

Independent researcher. AI evaluation infrastructure, narrative intelligence, LLM grader reliability. ORCID: 0009-0004-7635-0741

1 follower · 13 following

Achievements

Achievements

hiroki-tamba-research/README.md

Hiroki Tamba | 丹波大樹

Independent researcher — AI evaluation infrastructure, narrative intelligence, LLM grader reliability.

Recent contributions

inspect_ai PR #4170 (merged) — grader reproducibility docs for UK AISI evaluation framework
EU AI Act Article 6 consultation submission (DOI: 10.5281/zenodo.20605168)
NIST AI 800-2 public comment on AI evaluation standards
LLM-judge non-determinism — empirical reproducibility note (DOI: 10.5281/zenodo.20674090)
Behavioral red teaming reproduction report (DOI: 10.5281/zenodo.20609109)

ORCID: 0009-0004-7635-0741 · OSF

arXiv endorsement

Seeking endorsement for a cs.AI submission on LLM-as-judge grader non-determinism. Code: V6FVHF

How arXiv endorsement works

Popular repositories Loading

japan-cannabis-act-its japan-cannabis-act-its Public

Pre-registered interrupted time series analysis of drug enforcement patterns following Japan's December 2023 Cannabis Control Act amendment. OSF Registration: https://doi.org/10.17605/OSF.IO/S5JAQ

R
saluscope saluscope Public

Multi-source health & development data explorer via open APIs. Extensible to any indicator.

HTML
strategic-narrative-terminal strategic-narrative-terminal Public

Realtime geopolitical narrative monitoring interface.
llm-judge-nondeterminism llm-judge-nondeterminism Public

Empirical reproducibility note: non-determinism in LLM-as-judge graders (generalized from Japan-AISI/aisev #25)

Python
inspect_ai inspect_ai Public

Forked from UKGovernmentBEIS/inspect_ai

Inspect: A framework for large language model evaluations

Python
tlim-signet tlim-signet Public

Creator-held defensive provenance — a proof of concept (TLIM research program). Open-core.

Python