Перейти к основному содержимому

6.11. Уровни SLA и реальное время простоя

Разработчику Архитектору Аналитику

Уровни SLA и реальное время простоя

SLA — это соглашение об уровне обслуживания. Это формальный документ, в котором фиксируются обязательства поставщика услуг перед клиентом. В контексте информационных технологий SLA описывает, насколько надежно и стабильно будет работать сервис, как быстро будут устраняться сбои, и какие параметры качества гарантированы.

SLA содержит конкретные метрики, измеримые показатели и временные рамки. Эти условия становятся основой для взаимодействия между сторонами: заказчик знает, чего ожидать, а исполнитель несет ответственность за выполнение обещанного. Часто SLA включает финансовые санкции или компенсации в случае нарушения условий — например, возврат части оплаты при превышении допустимого времени простоя.

Основная цель SLA — установить прозрачные и предсказуемые правила работы. Это особенно важно в IT-инфраструктуре, где даже короткий простой может повлечь за собой серьезные последствия: потерю дохода, репутационный ущерб или срыв бизнес-процессов. SLA помогает минимизировать риски, выстроить доверие и обеспечить согласованность ожиданий.

Уровни доступности и понятие «пять девяток»

Доступность сервиса — один из ключевых параметров в любом SLA. Она выражается в процентах и показывает, какую долю времени система находится в рабочем состоянии за определенный период, обычно за календарный год. Этот показатель напрямую связан с допустимым временем простоя.

Часто используют терминологию, основанную на количестве девяток после запятой. Например:

  • 90% — «одна девятка»
  • 99% — «две девятки»
  • 99.9% — «три девятки»
  • 99.99% — «четыре девятки»
  • 99.999% — «пять девяток»

Каждая дополнительная девятка означает порядок снижения допустимого времени простоя. При этом разница между уровнями кажется незначительной только на первый взгляд. На практике она кардинально влияет на архитектуру, стоимость эксплуатации и требования к инженерным решениям.

Реальное время простоя при разных уровнях доступности

Рассмотрим, сколько минут или секунд в году соответствует каждому уровню доступности.

При 90% доступности система может быть недоступна до 36.5 дней в году. Такой уровень приемлем лишь для некритичных сервисов, где простои не влияют на основную деятельность.

При 99% доступности допустимый простой составляет около 3.65 дней в год, или чуть больше 87 часов. Это уже подходит для внутренних корпоративных систем, но не для публичных онлайн-сервисов.

Уровень 99.9% («три девятки») допускает простой до 8.76 часов в год. Многие коммерческие веб-приложения стремятся к этому показателю. Он требует базовой отказоустойчивости: резервирование каналов связи, мониторинг, автоматическое переключение на резервные компоненты.

Переход на 99.99% («четыре девятки») сокращает допустимое время простоя до 52.6 минут в год. Достижение такого уровня требует продуманной архитектуры: географически распределенные дата-центры, активное резервирование серверов, автоматическое восстановление, тщательное тестирование аварийных сценариев.

Наивысший практический уровень — 99.999% («пять девяток»). Здесь допустимый простой составляет всего 5.26 минуты в год. Такой уровень характерен для телекоммуникационных систем, финансовых платформ, критически важных государственных сервисов. Обеспечение «пяти девяток» требует не только технической сложности, но и строгих организационных процедур: круглосуточная поддержка, многоуровневое резервирование, регулярные учения по восстановлению, избыточность на всех уровнях — от оборудования до персонала.

Почему «пять девяток» — это не просто цифра

Цель достичь «пяти девяток» часто звучит как маркетинговый лозунг, но на деле это чрезвычайно трудоемкая задача. Каждая дополнительная девятка увеличивает стоимость владения системой в разы. Инженерные усилия, необходимые для перехода от четырех к пяти девяткам, значительно превосходят усилия, затраченные на достижение трех или четырех.

Более того, реальное время простоя зависит не только от технических факторов. Человеческий фактор, ошибки конфигурации, задержки в реакции на инциденты, проблемы с поставщиками — всё это влияет на итоговую доступность. Поэтому высокие уровни SLA требуют не только надежного оборудования, но и зрелых процессов: управления инцидентами, управления изменениями, автоматизации, документирования.

Важно понимать, что заявленный уровень SLA не всегда совпадает с реальным временем безотказной работы. Некоторые поставщики могут исключать из расчета плановые технические работы, обновления или форс-мажорные обстоятельства. Поэтому при заключении соглашения необходимо внимательно изучать формулировки: что именно считается простоем, какие события включаются в расчет, и как фиксируется нарушение условий.

Практические аспекты измерения простоя

Измерение времени простоя — это отдельная инженерная задача. Для объективной оценки используются внешние системы мониторинга, которые проверяют доступность сервиса из разных точек мира с заданной периодичностью. Если сервис не отвечает в течение определенного интервала, это фиксируется как инцидент.

Время простоя начинает отсчитываться не с момента возникновения сбоя внутри системы, а с момента, когда пользователь не может получить доступ к функциональности. Это принципиально: внутренние ошибки, не влияющие на конечного пользователя, не считаются простоем в рамках SLA.

Также важно учитывать, что простоя может не быть, но сервис может работать некорректно — например, возвращать ошибочные данные или сильно замедляться. В таких случаях SLA может включать дополнительные метрики: время отклика, процент успешных запросов, точность данных. Это делает соглашение более полным и защищает клиента не только от полного отсутствия сервиса, но и от его деградации.