Перейти к основному содержимому

О разделе "Инциденты и эксплуатация"

Разработка не заканчивается на деплое. Инцидент — неожиданное нарушение или деградация сервиса для пользователей; он требует немедленных действий, а не только тикета в следующем спринте. Зрелая команда знает severity, on-call, runbook, измеряет MTTR и проводит postmortem без поиска виноватых.

Раздел для новичка, который впервые дежурит в prod, и для команды, которая проверяет готовность к сбоям до первого P1.

Для кого

Разработчику — дефект vs инцидент, rollback, участие в postmortem.

On-call и SRE — severity, runbook, observability.

PM и PO — коммуникация, Expedite, приоритет action items.


Что вы узнаете

ТемаРезультат
Дефект и инцидентРазная срочность и процесс
SeverityP1–P4 и связь с SLA
MTTRВремя восстановления и как снижать
On-callРотация, эскалация, L1/L2/L3
RunbookПошаговые действия по алертам
Hotfix / rollback / mitigationВосстановить сначала
PostmortemBlameless, timeline, action items
ПотокДиаграмма от алерта до postmortem

Как читать раздел

ШагМатериалСодержание
1Инциденты, on-call и postmortemSeverity, MTTR, runbook, диаграмма потока
2ИтогиРезюме и FAQ
3Чек-листГотовность к сбоям в production

Перед чтением полезны ITSM и Kanban Expedite. Hotfix в банке — CAB.


Соседние разделы

ВопросКуда идти
SLA, услуги, тикетыITSM
Срочный поток на доскеKanban
Feature flags, откат релизаДоставка и готовность
Мониторинг и логиDevOps
Архитектурные причиныADR
Техподдержка L1Техподдержка

Три контекста эксплуатации

Продукт. Свой on-call, свои SLO, статус-страница для пользователей. Postmortem — внутренняя культура.

Аутсорс. Реакция по договору, согласование hotfix с заказчиком, общий канал с on-call клиента.

Госсектор и банк. Формальные регламенты, CAB на изменения в prod, отчётность регулятору при утечке или простое критичной услуги.


Симптомы неготовности

  • Нет определения P1 — все кричат "срочно".
  • Дежурный не знает, как откатить релиз.
  • Алерты сыпятся без runbook — усталость и пропуск настоящего P1.
  • После аварии ищут виноватого, action items не делают.
  • Postmortem никогда не читали новые сотрудники.

Если узнали команду — глава 1 и чек-лист.


Термины раздела

ТерминКратко
ИнцидентСервис страдает сейчас
SeverityP1–P4, критичность
MTTRВремя восстановления
On-callДежурный по алертам
RunbookИнструкция по алерту
PostmortemРазбор после сбоя
MitigationВременный обход

До первого P1 сделайте

  • Таблица severity с примерами
  • Календарь on-call
  • Один учебный rollback на stage
  • Шаблон postmortem в wiki