VNT: Von-Neumann-inspired Transformer (Research Prototype)

VNT is a research prototype that explores a Transformer variant with explicit control-inspired components:

data flow (token states)
instruction flow (operator routing)
control flow (dynamic step decisions)

This repository focuses on reproducible experiments, transparent baselines, and fast single-machine iteration.

Current Status

Baseline and VNT training pipelines are runnable.
Stable and experimental VNT implementations are separated.
Auto-logging for PPL, approximate FLOPs, and average micro-steps is included.
A from-scratch pretraining scaffold is included (pretrain.py).
Current VNT experiments do not yet show a consistent Pareto win over the baseline.

Repository Layout

train.py: baseline/VNT training (stable / experimental impl switch)
eval.py: evaluation entrypoint
compare_runs.py: stable vs experimental log comparison
pareto_report.py: same-quality lower-compute report
pretrain.py: from-scratch decoder-only pretraining
evaluate_pretrain.py: checkpoint evaluator for pretraining
tokenizer_build.py: local vocab builder
pretrain_config.yaml: from-scratch config
pretrain_config_round1.yaml: Round-1 ablation (RoPE + QK-Norm)
baseline_transformer.py: matched baseline model
vnt_transformer.py: experimental VNT implementation
vnt_transformer_stable.py: stable VNT implementation
VNT-Architecture-Guide.md: architecture notes
VNT-Architecture-Diagram-EN.svg: architecture diagram

Data

By default, configs use local data:

./input.txt

No HuggingFace download is required when data.text_file is set.

Install

pip install -r requirements-vnt.txt

VNT/Baseline Training

Baseline:

python train.py --config config.yaml --model baseline --impl stable

VNT stable:

python train.py --config config_vnt_stable.yaml --model vnt --impl stable

VNT experimental:

python train.py --config config_vnt_experimental.yaml --model vnt --impl experimental

From-Scratch Pretraining (Single Machine)

Build vocab

python tokenizer_build.py --input ./input.txt --out ./output/pretrain_vocab.json --max-vocab 8000 --min-freq 1 --lowercase

Train with CORE early-stop

python pretrain.py --config pretrain_config.yaml --core-threshold 0.256525

Evaluate checkpoint

python evaluate_pretrain.py --ckpt ./output/pretrain_checkpoints/pretrain_core_target.pt --text ./input.txt --seq-len 256 --iters 50 --batch-size 4

CORE definition:

CORE = 1 / (1 + val_bpb)
training stops early when CORE >= threshold.

Long-Context Sweeps

Standard sweep:
- python context_sweep.py --lengths 128,256,512,1024 --steps 1200
Stabilized sweep templates:
- python context_sweep_stable.py --lengths 128,256,512

Notes

microgpt.py and v2.py are educational scripts inspired by minimal GPT implementations.
This repo is a prototype and may change rapidly.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
output		output
.gitignore		.gitignore
EXPERIMENT_PLAN.md		EXPERIMENT_PLAN.md
FAST_TRAINING_CHECKLIST.md		FAST_TRAINING_CHECKLIST.md
FAST_TRAINING_GUIDE.md		FAST_TRAINING_GUIDE.md
LICENSE		LICENSE
PRETRAIN_README.md		PRETRAIN_README.md
README-VNT.md		README-VNT.md
README.md		README.md
RESULTS.md		RESULTS.md
VNT-Architecture-Diagram-EN.png		VNT-Architecture-Diagram-EN.png
VNT-Architecture-Diagram-EN.svg		VNT-Architecture-Diagram-EN.svg
VNT-Architecture-Guide.md		VNT-Architecture-Guide.md
baseline_transformer.py		baseline_transformer.py
compare_runs.py		compare_runs.py
config.yaml		config.yaml
config_longctx_baseline.yaml		config_longctx_baseline.yaml
config_longctx_stable_baseline_128.yaml		config_longctx_stable_baseline_128.yaml
config_longctx_stable_baseline_256.yaml		config_longctx_stable_baseline_256.yaml
config_longctx_stable_baseline_512.yaml		config_longctx_stable_baseline_512.yaml
config_longctx_stable_vnt_128.yaml		config_longctx_stable_vnt_128.yaml
config_longctx_stable_vnt_256.yaml		config_longctx_stable_vnt_256.yaml
config_longctx_stable_vnt_512.yaml		config_longctx_stable_vnt_512.yaml
config_longctx_vnt_stable.yaml		config_longctx_vnt_stable.yaml
config_vnt_experimental.yaml		config_vnt_experimental.yaml
config_vnt_grid_1.yaml		config_vnt_grid_1.yaml
config_vnt_grid_2.yaml		config_vnt_grid_2.yaml
config_vnt_grid_3.yaml		config_vnt_grid_3.yaml
config_vnt_stable.yaml		config_vnt_stable.yaml
context_sweep.py		context_sweep.py
context_sweep_stable.py		context_sweep_stable.py
data.py		data.py
eval.py		eval.py
evaluate_pretrain.py		evaluate_pretrain.py
input.txt		input.txt
microgpt.py		microgpt.py
pareto_report.py		pareto_report.py
pretrain.py		pretrain.py
pretrain_config.yaml		pretrain_config.yaml
pretrain_config_round1.yaml		pretrain_config_round1.yaml
requirements-vnt.txt		requirements-vnt.txt
run_matrix.csv		run_matrix.csv
tokenizer_build.py		tokenizer_build.py
train.py		train.py
v2.py		v2.py
vnt_transformer.py		vnt_transformer.py
vnt_transformer_stable.py		vnt_transformer_stable.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VNT: Von-Neumann-inspired Transformer (Research Prototype)

Current Status

Repository Layout

Data

Install

VNT/Baseline Training

From-Scratch Pretraining (Single Machine)

Long-Context Sweeps

Notes

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

VNT: Von-Neumann-inspired Transformer (Research Prototype)

Current Status

Repository Layout

Data

Install

VNT/Baseline Training

From-Scratch Pretraining (Single Machine)

Long-Context Sweeps

Notes

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages