本文档说明如何评估推演结果的精度与可用性。
精度评估回答三个问题:
- 结果是否稳定(重复运行一致性)
- 方向是否合理(条件变化后的方向正确性)
- 解释是否完整(条件→规则→证据链是否闭合)
outcome_consistencytop_driver_consistency
directional_correctness
trace_completeness
omen precision-eval --scenario data/scenarios/ontology.json --runs 5 --seed 42输出:output/precision.json
omen compare --scenario data/scenarios/ontology.json --overrides '{"user_overlap_threshold": 0.9}'输出:output/comparison.json
omen precision-gate --profile-json path/to/profile.json --precision-json output/precision.json --comparison-json output/comparison.json输出:output/precision_gate_report.json
门禁报告会给出:
- 每项门禁的观测值与阈值
- 是否通过
- 未通过时的修复目标
可使用如下模板创建 profile.json:
{
"profile_id": "p-ontology",
"case_id": "ontology",
"repeatability_threshold": 0.9,
"directional_correctness_threshold": 0.85,
"trace_completeness_threshold": 0.95,
"status": "active"
}- 初次落地可先用宽松阈值(例如 0.8 / 0.8 / 0.9)
- 稳定后逐步提高阈值,避免一次性过严导致无法迭代
- 任何阈值调整都应配套记录基线数据与调整原因