О разделе "Инциденты и эксплуатация"
Разработка не заканчивается на деплое. Инцидент — неожиданное нарушение или деградация сервиса для пользователей; он требует немедленных действий, а не только тикета в следующем спринте. Зрелая команда знает severity, on-call, runbook, измеряет MTTR и проводит postmortem без поиска виноватых.
Раздел для новичка, который впервые дежурит в prod, и для команды, которая проверяет готовность к сбоям до первого P1.
Разработчику — дефект vs инцидент, rollback, участие в postmortem.
On-call и SRE — severity, runbook, observability.
PM и PO — коммуникация, Expedite, приоритет action items.
Что вы узнаете
| Тема | Результат |
|---|---|
| Дефект и инцидент | Разная срочность и процесс |
| Severity | P1–P4 и связь с SLA |
| MTTR | Время восстановления и как снижать |
| On-call | Ротация, эскалация, L1/L2/L3 |
| Runbook | Пошаговые действия по алертам |
| Hotfix / rollback / mitigation | Восстановить сначала |
| Postmortem | Blameless, timeline, action items |
| Поток | Диаграмма от алерта до postmortem |
Как читать раздел
| Шаг | Материал | Содержание |
|---|---|---|
| 1 | Инциденты, on-call и postmortem | Severity, MTTR, runbook, диаграмма потока |
| 2 | Итоги | Резюме и FAQ |
| 3 | Чек-лист | Готовность к сбоям в production |
Перед чтением полезны ITSM и Kanban Expedite. Hotfix в банке — CAB.
Соседние разделы
| Вопрос | Куда идти |
|---|---|
| SLA, услуги, тикеты | ITSM |
| Срочный поток на доске | Kanban |
| Feature flags, откат релиза | Доставка и готовность |
| Мониторинг и логи | DevOps |
| Архитектурные причины | ADR |
| Техподдержка L1 | Техподдержка |
Три контекста эксплуатации
Продукт. Свой on-call, свои SLO, статус-страница для пользователей. Postmortem — внутренняя культура.
Аутсорс. Реакция по договору, согласование hotfix с заказчиком, общий канал с on-call клиента.
Госсектор и банк. Формальные регламенты, CAB на изменения в prod, отчётность регулятору при утечке или простое критичной услуги.
Симптомы неготовности
- Нет определения P1 — все кричат "срочно".
- Дежурный не знает, как откатить релиз.
- Алерты сыпятся без runbook — усталость и пропуск настоящего P1.
- После аварии ищут виноватого, action items не делают.
- Postmortem никогда не читали новые сотрудники.
Если узнали команду — глава 1 и чек-лист.
Термины раздела
| Термин | Кратко |
|---|---|
| Инцидент | Сервис страдает сейчас |
| Severity | P1–P4, критичность |
| MTTR | Время восстановления |
| On-call | Дежурный по алертам |
| Runbook | Инструкция по алерту |
| Postmortem | Разбор после сбоя |
| Mitigation | Временный обход |
До первого P1 сделайте
- Таблица severity с примерами
- Календарь on-call
- Один учебный rollback на stage
- Шаблон postmortem в wiki
Инциденты, on-call и postmortem
Severity, MTTR, эскалация, hotfix и rollback, blameless postmortem и runbook для разработчиков в продукте, аутсорсе и госсекторе.
Инциденты — итоги раздела
Резюме реагирования, MTTR, postmortem, runbook; FAQ для новичка.
Инциденты — чек-лист самопроверки
Готовность команды к сбоям в production — severity, on-call, postmortem.
Инциденты — о разделе
Инциденты в production, severity, MTTR, on-call, hotfix, rollback и blameless postmortem — для продукта, аутсорса и госсектора.