Инциденты — итоги раздела
- Восстановить сервис раньше, чем искать виноватого.
- Severity и runbook — до первого P1, не после.
- MTTR снижают автоматизацией, rollback и observability.
- Postmortem blameless → action items в backlog с владельцами.
- Инциденты в потоке — класс Expedite в Kanban.
FAQ — частые вопросы
Вопрос. Чем инцидент отличается от бага?
Ответ. Инцидент — сервис для пользователей страдает сейчас, нужен немедленный ответ. Баг — несоответствие ожиданиям; часто планируется в backlog. Один корень может дать и то и другое.
Вопрос. Что такое severity?
Ответ. Шкала критичности для бизнеса (P1–P4): насколько плохо и сколько людей затронуто. Определяет эскалацию и SLA. См. глава 1, ITSM.
Вопрос. Что такое MTTR?
Ответ. Mean Time To Repair/Recovery — среднее время от обнаружения до восстановления сервиса. Ключевая метрика эксплуатации; снижается runbook, rollback, алертами.
Вопрос. Что такое postmortem?
Ответ. Структурированный разбор после инцидента: timeline, root cause, action items. В зрелых командах blameless — без охоты на виноватых.
Вопрос. Rollback или hotfix — что выбрать?
Ответ. Чаще rollback, если откат безопасен и быстр. Hotfix — когда откат невозможен (миграция БД). Сначала mitigation (флаг, обход).
Вопрос. Кто такой on-call?
Ответ. Дежурный инженер, который первым реагирует на алерты. Ротация по календарю; эскалация на тимлида при отсутствии прогресса.
Вопрос. Нужен ли postmortem после P3?
Ответ. Не обязателен полный документ; для P1/P2 — обычно да. Повторяющийся P3 — повод для postmortem.
Вопрос. Blameless — значит никто не отвечает?
Ответ. Нет. Отвечает система и процесс: action items, runbook, тесты. Личная ответственность за злой умысел — отдельно; ошибка дежурного при плохом runbook — системная проблема.
Вопрос. Инцидент в середине спринта — что со Scrum?
Ответ. P1/P2 часто прерывают спринт; цель пересматривают с PO. Expedite в Kanban — явная политика WIP.
Вопрос. L1, L2, L3 — что это?
Ответ. Уровни поддержки: L1 — первая линия, типовые шаги; L2/L3 — разработка и глубокая диагностика. См. техподдержку.
Вопрос. Нет логов на prod — как делать postmortem?
Ответ. Плохо. Action item №1 — observability: логи, метрики, trace id. См. DevOps.
Вопрос. Аутсорс: заказчик звонит ночью напрямую разработчику?
Ответ. Должен быть единый канал и договорённость по SLA в договоре. Иначе выгорание и споры об оплате дежурств.
Вопрос. Hotfix в банке без CAB — можно?
Ответ. Зависит от регламента. Часто есть экстренный tier CAB для P1. См. управление изменениями.
Вопрос. Action items из postmortem кто приоритизирует?
Ответ. PO вместе с тимлидом: часть — техдолг, часть — фичи. Без владельца и срока item не считается принятым.
Вопрос. Что такое incident commander?
Ответ. Координатор инцидента: кто чинит, кто общается с бизнесом, фиксирует timeline. Не обязательно самый сильный инженер.
Краткая таблица терминов
| Термин | Смысл |
|---|---|
| Severity | Насколько плохо сейчас (P1…) |
| MTTR | Время восстановления |
| On-call | Дежурный по алертам |
| Runbook | Инструкция по алерту |
| Mitigation | Временный обход |
| Postmortem | Разбор после сбоя |