Перейти к основному содержимому

Инциденты — итоги раздела

  1. Восстановить сервис раньше, чем искать виноватого.
  2. Severity и runbook — до первого P1, не после.
  3. MTTR снижают автоматизацией, rollback и observability.
  4. Postmortem blameless → action items в backlog с владельцами.
  5. Инциденты в потоке — класс Expedite в Kanban.

Глава 1 · Чек-лист


FAQ — частые вопросы

Вопрос. Чем инцидент отличается от бага?

Ответ. Инцидент — сервис для пользователей страдает сейчас, нужен немедленный ответ. Баг — несоответствие ожиданиям; часто планируется в backlog. Один корень может дать и то и другое.

Вопрос. Что такое severity?

Ответ. Шкала критичности для бизнеса (P1–P4): насколько плохо и сколько людей затронуто. Определяет эскалацию и SLA. См. глава 1, ITSM.

Вопрос. Что такое MTTR?

Ответ. Mean Time To Repair/Recovery — среднее время от обнаружения до восстановления сервиса. Ключевая метрика эксплуатации; снижается runbook, rollback, алертами.

Вопрос. Что такое postmortem?

Ответ. Структурированный разбор после инцидента: timeline, root cause, action items. В зрелых командах blameless — без охоты на виноватых.

Вопрос. Rollback или hotfix — что выбрать?

Ответ. Чаще rollback, если откат безопасен и быстр. Hotfix — когда откат невозможен (миграция БД). Сначала mitigation (флаг, обход).

Вопрос. Кто такой on-call?

Ответ. Дежурный инженер, который первым реагирует на алерты. Ротация по календарю; эскалация на тимлида при отсутствии прогресса.

Вопрос. Нужен ли postmortem после P3?

Ответ. Не обязателен полный документ; для P1/P2 — обычно да. Повторяющийся P3 — повод для postmortem.

Вопрос. Blameless — значит никто не отвечает?

Ответ. Нет. Отвечает система и процесс: action items, runbook, тесты. Личная ответственность за злой умысел — отдельно; ошибка дежурного при плохом runbook — системная проблема.

Вопрос. Инцидент в середине спринта — что со Scrum?

Ответ. P1/P2 часто прерывают спринт; цель пересматривают с PO. Expedite в Kanban — явная политика WIP.

Вопрос. L1, L2, L3 — что это?

Ответ. Уровни поддержки: L1 — первая линия, типовые шаги; L2/L3 — разработка и глубокая диагностика. См. техподдержку.

Вопрос. Нет логов на prod — как делать postmortem?

Ответ. Плохо. Action item №1 — observability: логи, метрики, trace id. См. DevOps.

Вопрос. Аутсорс: заказчик звонит ночью напрямую разработчику?

Ответ. Должен быть единый канал и договорённость по SLA в договоре. Иначе выгорание и споры об оплате дежурств.

Вопрос. Hotfix в банке без CAB — можно?

Ответ. Зависит от регламента. Часто есть экстренный tier CAB для P1. См. управление изменениями.

Вопрос. Action items из postmortem кто приоритизирует?

Ответ. PO вместе с тимлидом: часть — техдолг, часть — фичи. Без владельца и срока item не считается принятым.

Вопрос. Что такое incident commander?

Ответ. Координатор инцидента: кто чинит, кто общается с бизнесом, фиксирует timeline. Не обязательно самый сильный инженер.


Краткая таблица терминов

ТерминСмысл
SeverityНасколько плохо сейчас (P1…)
MTTRВремя восстановления
On-callДежурный по алертам
RunbookИнструкция по алерту
MitigationВременный обход
PostmortemРазбор после сбоя

Чек-лист самопроверки