О разделе "Инциденты и эксплуатация"

Разработка не заканчивается на деплое. Инцидент — неожиданное нарушение или деградация сервиса для пользователей; он требует немедленных действий, а не только тикета в следующем спринте. Зрелая команда знает severity, on-call, runbook, измеряет MTTR и проводит postmortem без поиска виноватых.

Раздел для новичка, который впервые дежурит в prod, и для команды, которая проверяет готовность к сбоям до первого P1.

Для кого

Разработчику — дефект vs инцидент, rollback, участие в postmortem.

On-call и SRE — severity, runbook, observability.

PM и PO — коммуникация, Expedite, приоритет action items.

Что вы узнаете

Тема	Результат
Дефект и инцидент	Разная срочность и процесс
Severity	P1–P4 и связь с SLA
MTTR	Время восстановления и как снижать
On-call	Ротация, эскалация, L1/L2/L3
Runbook	Пошаговые действия по алертам
Hotfix / rollback / mitigation	Восстановить сначала
Postmortem	Blameless, timeline, action items
Поток	Диаграмма от алерта до postmortem

Как читать раздел

Шаг	Материал	Содержание
1	Инциденты, on-call и postmortem	Severity, MTTR, runbook, диаграмма потока
2	Итоги	Резюме и FAQ
3	Чек-лист	Готовность к сбоям в production

Перед чтением полезны ITSM и Kanban Expedite. Hotfix в банке — CAB.

Соседние разделы

Вопрос	Куда идти
SLA, услуги, тикеты	ITSM
Срочный поток на доске	Kanban
Feature flags, откат релиза	Доставка и готовность
Мониторинг и логи	DevOps
Архитектурные причины	ADR
Техподдержка L1	Техподдержка

Три контекста эксплуатации

Продукт. Свой on-call, свои SLO, статус-страница для пользователей. Postmortem — внутренняя культура.

Аутсорс. Реакция по договору, согласование hotfix с заказчиком, общий канал с on-call клиента.

Госсектор и банк. Формальные регламенты, CAB на изменения в prod, отчётность регулятору при утечке или простое критичной услуги.

Симптомы неготовности

Нет определения P1 — все кричат "срочно".
Дежурный не знает, как откатить релиз.
Алерты сыпятся без runbook — усталость и пропуск настоящего P1.
После аварии ищут виноватого, action items не делают.
Postmortem никогда не читали новые сотрудники.

Если узнали команду — глава 1 и чек-лист.

Термины раздела

Термин	Кратко
Инцидент	Сервис страдает сейчас
Severity	P1–P4, критичность
MTTR	Время восстановления
On-call	Дежурный по алертам
Runbook	Инструкция по алерту
Postmortem	Разбор после сбоя
Mitigation	Временный обход

До первого P1 сделайте

Таблица severity с примерами
Календарь on-call
Один учебный rollback на stage
Шаблон postmortem в wiki

О разделе "Инциденты и эксплуатация"

Что вы узнаете

Как читать раздел

Соседние разделы

Три контекста эксплуатации

Симптомы неготовности

Термины раздела

До первого P1 сделайте

📄️Инциденты, on-call и postmortem

📄️Инциденты — итоги раздела

📄️Инциденты — чек-лист самопроверки

📄️Инциденты — о разделе

Что вы узнаете​

Как читать раздел​

Соседние разделы​

Три контекста эксплуатации​

Симптомы неготовности​

Термины раздела​

До первого P1 сделайте​

📄️Инциденты, on-call и postmortem

📄️Инциденты — итоги раздела

📄️Инциденты — чек-лист самопроверки

📄️Инциденты — о разделе

Связанные темы

Что вы узнаете

Как читать раздел

Соседние разделы

Три контекста эксплуатации

Симптомы неготовности

Термины раздела

До первого P1 сделайте