Наблюдаемость (Observability)
Уровень: Senior
Ответ
Комплексное отслеживание работы системы: метрики (RPS, latency, ошибки) собираются и строят дашборды, алёрты при выходе за SLO; логирование – централизованный сбор структурированных логов с сервисов (ELK/Graylog) для отладки и аудита; трассировка – присвоение trace-id запросам и сбор информации о пути через микросервисы (Zipkin/Jaeger) для поиска узких мест; хорошая наблюдаемость позволяет быстро выявлять и решать проблемы в проде.