Управление инцидентами для высокоскоростных команд
Реагирование на инцидент
В приведенных ниже разделах описан процесс реагирования на инциденты, применяемый в Atlassian. Менеджер инцидента (IM) выполняет эту последовательность действий, чтобы обеспечить обработку инцидента с момента его обнаружения и до решения проблемы.
Поле Jira | Тип | Текст справки |
Резюме | Текст | В чем заключается экстренная ситуация? |
Описание | Текст | Каковы последствия для клиентов? Укажите контактные данные, чтобы другие участники могли с вами связаться. |
Опасность | Список (однозначный выбор) | (Гиперссылка на страницу Confluence со шкалой опасности.) Выбор уровня опасности 2 или 1 означает, что, по вашему мнению, данная проблема должна быть решена немедленно. Это приводит к автоматическому уведомлению ответственных сторон. |
Неисправный сервис | Список (однозначный выбор) | Сервис, в котором присутствует неисправность, являющаяся причиной инцидента. В случае неуверенности обозначьте наиболее вероятное предположение. Выберите «Неизвестно», если совсем не знаете. |
Затронутые продукты | Флажки | Какие продукты затрагивает этот инцидент? Выберите все подходящие варианты. |
После создания инцидента связанный с ним ключ задачи используется во всех внутренних сообщениях об этом инциденте.
Клиенты часто отправляют заявки в поддержку по поводу инцидента, который их затрагивает. Как только команды службы поддержки определят, что все эти заявки относятся к одному инциденту, они пометят эти заявки ключом задачи инцидента, чтобы было проще отслеживать последствия для клиентов и информировать затронутых клиентов после устранения инцидента.
Опасность | Описание | Примеры |
1 | Критически опасный инцидент с очень большими последствиями |
|
2 | Серьезный инцидент со значительными последствиями |
|
3 | Несерьезный инцидент с незначительными последствиями |
|
Как только будут определены последствия инцидента, скорректируйте или подтвердите уровень опасности в задаче по инциденту и сообщите команде об этом уровне. Мы выяснили, что для ясности сообщений об опасности удобно обозначать уровни числами.
В Atlassian инциденты с уровнем опасности 3 передаются командам доставки для устранения в рабочее время, а инциденты опасности 1 и 2 требуют отправки сообщений участникам команды для немедленного исправления. Разница в порядке реагирования на инциденты с уровнем опасности 1 и 2 является более тонкой и зависит от затронутого сервиса.
Чтобы обеспечить систематическое реагирование на инциденты с учетом последствий для клиентов, необходимо задокументировать матрицу уровней опасности и согласовать ее со всеми командами.
Внутренняя страница Statuspage | Внешняя страница Statuspage | |
Имя инцидента | <Ключ задачи по инциденту> - <Опасность> - <Описание инцидента> | Исследование проблем, связанных с <продукт> |
Сообщение | Мы исследуем инцидент, затрагивающий <продукт X>, <продукт Y> и <продукт Z>. Скоро мы предоставим оперативную информацию через электронную почту и Statuspage. | Мы исследуем проблемы, связанные с <продукт>, и скоро предоставим здесь оперативную информацию. |
Помимо создания инцидента в Statuspage, мы отправляем электронное сообщение по списку рассылки для сообщений об инциденте, который содержит адреса технических руководителей, основных менеджеров инцидентов и других заинтересованных сотрудников. Это электронное сообщение имеет то же содержимое, что и внутренняя страница инцидента в Statuspage. Электронная почта позволяет сотрудникам отвечать на сообщения и задавать вопросы, а Statuspage больше походит на средство односторонней широковещательной коммуникации.
Обратите внимание, что мы всегда включаем ключ задачи Jira по инциденту во все внутренние сообщения о данном инциденте, чтобы сотрудники знали, в какой чат можно заглянуть с дополнительными вопросами.
Составление графика дежурств с помощью Opsgenie
С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.
Читать учебное руководствоРетроспективный анализ: совершенствование процессов управления инцидентами
Узнайте, как эффективно проводить ретроспективный анализ, чтобы улучшить управление инцидентами и предотвратить возможные проблемы.
Читать статью