Инженерия надёжности (SRE) — это не только про «чтобы не падало», а про осознанное управление сложными системами. И в центре наблюдаемости лежит простая, но мощная концепция — четыре золотых сигнала.

Разберём каждый из них простыми словами, с примерами и советами.

🚨 Что такое золотые сигналы?

Золотые сигналы — это четыре ключевых показателя, которые Google SRE рекомендует отслеживать для любых пользовательских сервисов:

  1. Задержка (Latency) — сколько времени уходит на обработку запроса?
  2. Трафик (Traffic) — сколько запросов поступает в систему?
  3. Ошибки (Errors) — сколько запросов завершается сбоем?
  4. Насыщение (Saturation) — насколько система близка к пределу возможностей?

🕒 1. Задержка (Latency)

Это время, за которое сервис обрабатывает запрос. Пользователь нажал кнопку — как быстро пришёл ответ?

💡 Совет: измеряйте задержку как у успешных, так и у неуспешных запросов. Быстрая ошибка — всё равно лучше, чем долгая.

Пример метрики в Prometheus:

http_request_duration_seconds

📈 2. Трафик (Traffic)

Показывает, насколько система нагружена. Это может быть RPS (запросов в секунду), число соединений, количество активных пользователей или объём данных.

Пример метрики:

http_requests_total

❌ 3. Ошибки (Errors)

Ошибки — это любые неудачные запросы. Коды 5xx, таймауты, исключения в логике. Даже если таких ошибок всего 1%, они могут критично повлиять на UX.

Пример метрики:

http_requests_errors_total

💥 4. Насыщение (Saturation)

Насыщение показывает, насколько система близка к своему пределу — по CPU, памяти, диску, соединениям с базой и т.д.

Если вы стабильно на 95% загрузки — у вас нет запаса на пиковые нагрузки.

Пример метрик:

node_cpu_seconds_total
container_memory_usage_bytes

🛠 Как использовать золотые сигналы

Чтобы получить пользу от этих сигналов:

  • Настройте метрики в Prometheus, Datadog, Grafana, New Relic и т.д.
  • Постройте дашборды с этими четырьмя группами.
  • Настройте алерты на критические значения.
  • Следите за трендами: рост задержек, рост ошибок, повышение нагрузки.

🎯 Итог

Если вы следите за только четырьмя метриками — пусть это будут они. Золотые сигналы — это первый шаг к надёжной и предсказуемой инфраструктуре.

Они помогут не просто тушить пожары, а предсказывать их до появления дыма.

Подписывайтесь на блог — будет больше практичных статей по SRE и DevOps!