Инциденты — итоги раздела

ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Восстановить сервис раньше, чем искать виноватого.
Severity и runbook — до первого P1, не после.
MTTR снижают автоматизацией, rollback и observability.
Postmortem blameless → action items в backlog с владельцами.
Инциденты в потоке — класс Expedite в Kanban.

FAQ — частые вопросы

Вопрос. Чем инцидент отличается от бага?

Ответ. Инцидент — сервис для пользователей страдает сейчас, нужен немедленный ответ. Баг — несоответствие ожиданиям; часто планируется в backlog. Один корень может дать и то и другое.

Вопрос. Что такое severity?

Ответ. Шкала критичности для бизнеса (P1–P4): насколько плохо и сколько людей затронуто. Определяет эскалацию и SLA. См. глава 1, ITSM.

Вопрос. Что такое MTTR?

Ответ. Mean Time To Repair/Recovery — среднее время от обнаружения до восстановления сервиса. Ключевая метрика эксплуатации; снижается runbook, rollback, алертами.

Вопрос. Что такое postmortem?

Ответ. Структурированный разбор после инцидента: timeline, root cause, action items. В зрелых командах blameless — без охоты на виноватых.

Вопрос. Rollback или hotfix — что выбрать?

Ответ. Чаще rollback, если откат безопасен и быстр. Hotfix — когда откат невозможен (миграция БД). Сначала mitigation (флаг, обход).

Вопрос. Кто такой on-call?

Ответ. Дежурный инженер, который первым реагирует на алерты. Ротация по календарю; эскалация на тимлида при отсутствии прогресса.

Вопрос. Нужен ли postmortem после P3?

Ответ. Не обязателен полный документ; для P1/P2 — обычно да. Повторяющийся P3 — повод для postmortem.

Вопрос. Blameless — значит никто не отвечает?

Ответ. Нет. Отвечает система и процесс: action items, runbook, тесты. Личная ответственность за злой умысел — отдельно; ошибка дежурного при плохом runbook — системная проблема.

Вопрос. Инцидент в середине спринта — что со Scrum?

Ответ. P1/P2 часто прерывают спринт; цель пересматривают с PO. Expedite в Kanban — явная политика WIP.

Вопрос. L1, L2, L3 — что это?

Ответ. Уровни поддержки: L1 — первая линия, типовые шаги; L2/L3 — разработка и глубокая диагностика. См. техподдержку.

Вопрос. Нет логов на prod — как делать postmortem?

Ответ. Плохо. Action item №1 — observability: логи, метрики, trace id. См. DevOps.

Вопрос. Аутсорс: заказчик звонит ночью напрямую разработчику?

Ответ. Должен быть единый канал и договорённость по SLA в договоре. Иначе выгорание и споры об оплате дежурств.

Вопрос. Hotfix в банке без CAB — можно?

Ответ. Зависит от регламента. Часто есть экстренный tier CAB для P1. См. управление изменениями.

Вопрос. Action items из postmortem кто приоритизирует?

Ответ. PO вместе с тимлидом: часть — техдолг, часть — фичи. Без владельца и срока item не считается принятым.

Вопрос. Что такое incident commander?

Ответ. Координатор инцидента: кто чинит, кто общается с бизнесом, фиксирует timeline. Не обязательно самый сильный инженер.

Краткая таблица терминов

Термин	Смысл
Severity	Насколько плохо сейчас (P1…)
MTTR	Время восстановления
On-call	Дежурный по алертам
Runbook	Инструкция по алерту
Mitigation	Временный обход
Postmortem	Разбор после сбоя

Чек-лист самопроверки

Инциденты — итоги раздела

FAQ — частые вопросы

Краткая таблица терминов

См. также

📄️Инциденты, on-call и postmortem

📄️Инциденты — чек-лист самопроверки

FAQ — частые вопросы​

Краткая таблица терминов​

См. также

📄️Инциденты, on-call и postmortem

📄️Инциденты — чек-лист самопроверки

FAQ — частые вопросы

Краткая таблица терминов