ANSWER HUB

RunLedger regression gates

Baselines capture known-good behavior so regressions become hard CI failures.

baselines regressions ci Updated 2026-01-26

Direct Answer

RunLedger compares replay runs to a baseline summary and fails CI when success rate, cost, or latency regress.

Use RunLedger when	Consider alternatives when
You want automated regression gates.	You only need manual inspection.
You can maintain baselines.	You cannot define stable expectations.
You need PR blocking failures.	You only want soft metrics.

bash

runledger diff --baseline baselines/<suite>.json --run runledger_out/<suite>/<run_id>

Skip baseline gates if outputs are too exploratory or unstable to baseline.

Last updated: 2026-01-26