SRE | Практический DevOps: CI/CD, Мониторинг и Kubernetes

Что такое SLO, SLA и SLI? Простое объяснение с примерами

Что такое SLO, SLA и SLI? Если вы сталкивались с SRE (Site Reliability Engineering) или мониторингом сервисов, то наверняка видели три похожих термина: SLO, SLA и SLI. Разобраться в них важно, потому что именно они задают правила игры между командой и пользователями. SLI — Service Level Indicator (Индикатор уровня сервиса) Это метрика, которая показывает, как работает система. Примеры: Время отклика API Процент успешных запросов Количество ошибок 5xx 👉 SLI — это как термометр: он просто измеряет состояние. ...

Что такое перцентиль в Observability? Простое объяснение с примерами

Что такое перцентиль в Observability? Когда мы говорим про observability и метрики, особенно задержку (latency), часто встречаются термины p50, p95, p99. Это и есть перцентили. С их помощью можно понять не только среднее время ответа системы, но и то, как она ведёт себя для большинства пользователей — и для тех, кому повезло меньше. Простое определение Перцентиль — это значение, ниже которого укладывается заданный процент измерений. p50 — медиана. Половина запросов быстрее, половина медленнее. p95 — 95% запросов выполняются не хуже этого времени, 5% — хуже. p99 — только 1% запросов хуже этого значения. Зачем нужны перцентили Среднее время ответа часто обманывает. Пример: ...

Кто такой DevOps-инженер?

Кто такой DevOps-инженер? Если вы хоть немного связаны с разработкой или администрированием, вы наверняка слышали слово DevOps. Но кто такой DevOps-инженер и чем он занимается? Разберём простыми словами. Dev + Ops = Сотрудничество DevOps — это не только про инструменты. Это культура и подход, которые объединяют разработчиков и системных администраторов в одну команду. Раньше было так: разработчик пишет код, кидает его в “коробку” админам, а дальше хоть трава не расти. А потом все ищут виноватого, когда система падает. ...

Кто такой SRE (инженер по надёжности сайта)?

SRE — звучит как модная аббревиатура, но на деле это одна из самых полезных ролей в команде, работающей с современными инфраструктурами и сервисами. Кто такой SRE? SRE расшифровывается как Site Reliability Engineer — инженер по надёжности сайта. Он отвечает за то, чтобы система была надёжной, масштабируемой и эффективной. Идея появилась в Google, где разработчиков попросили обслуживать продакшн-системы, применяя инженерный подход. Чем SRE отличается от DevOps? Многие путают SRE и DevOps. Вот краткое сравнение: ...

Золотые сигналы SRE: просто о главном

Инженерия надёжности (SRE) — это не только про «чтобы не падало», а про осознанное управление сложными системами. И в центре наблюдаемости лежит простая, но мощная концепция — четыре золотых сигнала. Разберём каждый из них простыми словами, с примерами и советами. 🚨 Что такое золотые сигналы? Золотые сигналы — это четыре ключевых показателя, которые Google SRE рекомендует отслеживать для любых пользовательских сервисов: Задержка (Latency) — сколько времени уходит на обработку запроса? Трафик (Traffic) — сколько запросов поступает в систему? Ошибки (Errors) — сколько запросов завершается сбоем? Насыщение (Saturation) — насколько система близка к пределу возможностей? 🕒 1. Задержка (Latency) Это время, за которое сервис обрабатывает запрос. Пользователь нажал кнопку — как быстро пришёл ответ? ...