Инженерия надёжности (SRE) — это не только про «чтобы не падало», а про осознанное управление сложными системами. И в центре наблюдаемости лежит простая, но мощная концепция — четыре золотых сигнала.
Разберём каждый из них простыми словами, с примерами и советами.
🚨 Что такое золотые сигналы?
Золотые сигналы — это четыре ключевых показателя, которые Google SRE рекомендует отслеживать для любых пользовательских сервисов:
- Задержка (Latency) — сколько времени уходит на обработку запроса?
- Трафик (Traffic) — сколько запросов поступает в систему?
- Ошибки (Errors) — сколько запросов завершается сбоем?
- Насыщение (Saturation) — насколько система близка к пределу возможностей?
🕒 1. Задержка (Latency)
Это время, за которое сервис обрабатывает запрос. Пользователь нажал кнопку — как быстро пришёл ответ?
💡 Совет: измеряйте задержку как у успешных, так и у неуспешных запросов. Быстрая ошибка — всё равно лучше, чем долгая.
Пример метрики в Prometheus:
http_request_duration_seconds
📈 2. Трафик (Traffic)
Показывает, насколько система нагружена. Это может быть RPS (запросов в секунду), число соединений, количество активных пользователей или объём данных.
Пример метрики:
http_requests_total
❌ 3. Ошибки (Errors)
Ошибки — это любые неудачные запросы. Коды 5xx, таймауты, исключения в логике. Даже если таких ошибок всего 1%, они могут критично повлиять на UX.
Пример метрики:
http_requests_errors_total
💥 4. Насыщение (Saturation)
Насыщение показывает, насколько система близка к своему пределу — по CPU, памяти, диску, соединениям с базой и т.д.
Если вы стабильно на 95% загрузки — у вас нет запаса на пиковые нагрузки.
Пример метрик:
node_cpu_seconds_total
container_memory_usage_bytes
🛠 Как использовать золотые сигналы
Чтобы получить пользу от этих сигналов:
- Настройте метрики в Prometheus, Datadog, Grafana, New Relic и т.д.
- Постройте дашборды с этими четырьмя группами.
- Настройте алерты на критические значения.
- Следите за трендами: рост задержек, рост ошибок, повышение нагрузки.
🎯 Итог
Если вы следите за только четырьмя метриками — пусть это будут они. Золотые сигналы — это первый шаг к надёжной и предсказуемой инфраструктуре.
Они помогут не просто тушить пожары, а предсказывать их до появления дыма.
Подписывайтесь на блог — будет больше практичных статей по SRE и DevOps!