Управление инцидентами для высокоскоростных команд
Справочник Atlassian по инцидентам
От современных команд, работающих с техническими сервисами, ожидают круглосуточной доступности этих сервисов.
Когда случаются проблемы — в силу аппаратного сбоя или неправильной работы программных возможностей — специалисты должны немедленно отреагировать и восстановить работу сервиса. Управление инцидентами (именно так называют этот процесс) является постоянной и сложной задачей для компаний любого размера.
Мы хотим помочь разным командам оптимизировать управление инцидентами. Вдохновившись примерами Google и PagerDuty, мы создали этот справочник, вобравший в себя сведения о процессе управления инцидентами в Atlassian. Это знания, которые мы накопили за десять лет реагирования на инциденты. Конечно, они основаны на нашем уникальном опыте, но наверняка могут оказаться полезными и для вашей команды.
Закажите печатную версию нашего справочника или скачайте PDF-версию
Количество печатных версий нашего справочника по управлению инцидентами, которые мы отправляем бесплатно, ограничено. Вы также можете загрузить PDF-версию.
Мы хотим помочь разным командам оптимизировать управление инцидентами. Вдохновившись примерами Google и PagerDuty, мы создали этот справочник, вобравший в себя сведения о процессе управления инцидентами в Atlassian. Это знания, которые мы накопили за десять лет реагирования на инциденты. Конечно, они основаны на нашем уникальном опыте, но наверняка могут оказаться полезными и для вашей команды.
Этап | Принцип подхода к инциденту | Соответствующая ценность Atlassian | Обоснование |
1. Обнаружение | Atlassian узнает о проблеме раньше клиентов | Создавать с душой и гармонией | Продуманный сервис включает в себя возможности мониторинга и отправки оповещений, достаточные для того, чтобы обнаруживать инциденты раньше клиентов. Идеальный мониторинг предупреждает о проблемах до того, как они станут инцидентами. |
2. Реагирование | Эскалация, эскалация, эскалация | Играть как команда | Никому не нравится, когда его будят, и мы понимаем, что это серьезная ответственность. Но люди готовы к тому, что иногда им приходится просыпаться для разрешения инцидента напрасно и что их помощь на самом деле не требуется. Еще хуже, когда нужно проснуться и быстро сориентироваться в работе над серьезным инцидентом, хотя вас должны были оповестить раньше. Мало кто знает ответы на все вопросы, поэтому не стесняйтесь подключать дополнительных специалистов. |
3. Восстановление | Проблемы случаются, надо их быстро устранять | Не #@!% клиента | Клиентов не волнует, почему нужный сервис не работает. Им важно, чтобы мы его починили как можно быстрей. Не сомневайтесь, если можете устранить проблему быстро: в этом случае последствия для клиентов будут минимальными. |
4. Выводы | Никакого поиска виновных | Открытая компания, никакой ерунды | Инциденты случаются в работе любых сервисов. Мы улучшаем сервисы, когда распределяем ответственность между командами, а не когда назначаем виновных. |
5. Улучшение | Никогда не допускайте повторения инцидентов | Воплощайте в себе то, к чему стремитесь | Определите основную причину и что требуется изменить, чтобы любые подобные инциденты больше не могли случиться. Планируйте внесение конкретных изменений в определенные сроки. |
Составление графика дежурств с помощью Opsgenie
С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.
Читать учебное руководствоКак мы реагируем на инцидент
Здесь описан процесс, применяемый в Atlassian для реагирования на инциденты согласно нашему справочнику. Узнайте, какие шаги предпринимает менеджер инцидентов, начиная с обнаружения и заканчивая решением проблемы.
Читать статью