SLA, SLO и error budget
Уровень: Senior
Ответ
Service Level Objective – целевой показатель надежности (например, 99.9% аптайма или не более 1% ошибок); SLA – соглашение с пользователями на основе SLO (с выплатой штрафов при нарушении); Error Budget – допустимый “бюджет ошибок”, разница до 100% (например, при SLO 99.9% аптайма, бюджет простоя 0.1% времени), который можно “потратить” на эксперименты, фичи, рисковые релизы; если ошибок слишком много и бюджет исчерпан, замораживаются изменения до восстановления стабильности; баланс инноваций и стабильности по методологии SRE.