Управление инцидентами для высокоскоростных команд
Введение в жизненный цикл реагирования на инциденты
Если понаблюдать за работой специалистов по безопасности и управлению инцидентами, можно заметить одну закономерность. Самые толковые специалисты в этих сферах мыслят циклами, а не прямыми линиями.
В чем же секрет ее успеха? Что это вообще значит?» Это значит, что каждый инцидент и перебой не являются отдельно взятыми событиями, у которых есть начало и конец (хотя может показаться иначе). Инциденты представляют собой возможность для обучения.
Если сервис снова заработал, это не значит, что работа команды завершена. Подведя итоги реагирования на инцидент, следует обновить дальнейшие дорожные карты, пересмотреть процесс подготовки к будущим инцидентам и определить, что еще нужно сделать, чтобы предотвратить последующие инциденты. Это бесконечный цикл совершенствования, допускающий разные подходы к его этапам в зависимости от вашей точки зрения.
Что такое жизненный цикл реагирования на инциденты?
Говоря о реагировании на инциденты, мы подразумеваем установленный в организации процесс реагирования на угрозы в сфере ИТ, такие как кибератаки, нарушения безопасности и сбои в работе сервера.
Жизненный цикл реагирования на инциденты — это многоэтапная программа вашей организации по выявлению перебоя в обслуживании или угрозы безопасности и реагированию на них.
Жизненный цикл реагирования на инциденты компании Atlassian
1. Обнаружить инцидент
В нашей компании для обнаружения инцидентов служат инструменты мониторинга и оповещения. Однако иногда мы узнаем об инциденте от клиентов или участников команд.
Оповещения об инцидентах могут приходить из разных источников, поэтому важно использовать решение, которое включает несколько инструментов оповещения и создания отчетов. Так из разрозненных и малоэффективных ответных действий получится сформировать слаженный процесс совместного реагирования на инциденты. Такое решение, как Jira Service Management, позволяет командам настраивать и фильтровать оповещения во всех инструментах мониторинга, ведения журналов и CI/CD, благодаря чему ускоряется «штурм» инцидентов и команды успешно справляются с потоком оповещений.
2. Наладить каналы связи для команды
Первый важный шаг — это наладить каналы связи для команды реагирования на инциденты. На данном этапе необходимо сосредоточить общение участников команды в знакомом месте, например в специальном канале Slack и системе видеоконференц-связи.
В Jira Service Management можно наладить эффективную координацию усилий при реагировании на инциденты. Команды могут взаимодействовать удобным для них способом (например, в Slack или по видеоконференцсвязи), а также упростить общение с клиентами благодаря автоматизации и возможностям индивидуальной настройки. Внешнюю коммуникацию мы рассмотрим на этапе 4.
3. Оценить воздействие и определить уровень опасности
На этом этапе следует оценить воздействие инцидента, чтобы команда могла решить, с кем еще нужно связаться и какие сведения передать клиентам и заинтересованным сторонам. Присвоенный инциденту уровень серьезности показывает степень его воздействия, а также используется при создании плана разрешения и определяет коммуникацию с внешними лицами. При эскалации инцидента и назначении ему уровня серьезности в Jira Service Management автоматически запускаются ответные действия, а также отправляются уведомления реагирующим лицам, которые должны следить за разрешением инцидента.
4. Проинформировать клиентов
Мы стремимся информировать заинтересованные стороны (как внутренние, так и внешние) в кратчайшие сроки. Оперативно сообщая точные сведения, можно завоевать доверие клиентов и других сотрудников организации. Напомним, что разрешение инцидентов можно ускорить, если настроить взаимодействие в команде с учетом ее рабочих потребностей. Это также позволяет ее участникам точнее контролировать содержание нужных сообщений и время их отправки. Более того, если настроить автоматическую отправку ответов клиентам из заявок, команда сможет больше времени уделить разрешению инцидента.
5. Выполнить эскалацию инцидента правильным специалистам
Команде, которая первой отреагировала на инцидент, часто требуется подключить к разрешению другие команды с помощью возможностей оповещения в Jira Service Management. Всех реагирующих лиц можно собрать прямо в заявке по инциденту. Для этого сгруппируйте связанные заявки и упомяните нужных сотрудников. Таким образом можно организовать процесс уведомления и предоставить участникам все нужные сведения.
6. Распределить роли в команде реагирования на инцидент
Когда в команду реагирования приходит новый участник, менеджер инцидентов отводит ему роль. Здесь вам пригодится полноценный и заранее подготовленный сборник сценариев для реагирования на инциденты, в котором будут четко определены роли и обязанности. С его помощью участники команды реагирования смогут заблаговременно изучить роли и будут в курсе своих обязанностей к моменту возникновения инцидента.
7. Разрешить инцидент
Инцидент считается разрешенным, когда устранены текущие или потенциальные последствия для бизнеса. В этот момент процесс экстренного реагирования завершается, а команда переключается на итоговые задачи (при их наличии) и ретроспективу по инциденту.
С оптимальным решением для управления инцидентами (например, Jira Service Management) можно отследить подробную хронологию инцидента. Тогда реагирующие лица смогут проанализировать данные об инциденте после его устранения и составят отчет, который поможет командам найти основную причину инцидента и избежать его повторения. А если подобный инцидент все же повторится, сведения такого разбора заметно облегчат его разрешение.
Жизненный цикл реагирования на инциденты института NIST
Еще один жизненный цикл реагирования на инциденты, считающийся эталоном в отрасли, разработан Национальным институтом стандартов и технологий США (NIST). Институт NIST — это государственное учреждение, которое участвует в разработке стандартов и методик, связанных с реагированием на инциденты и кибербезопасностью.
Аббревиатура NIST (National Institute of Standards and Technology) в переводе звучит как Национальный институт стандартов и технологий. Это государственное учреждение США, которое с гордостью называет себя «одной из старейших физико-технических лабораторий страны». Институт занимается всеми аспектами технологий, включая кибербезопасность. В этой сфере он завоевал репутацию одного из двух главных экспертов по реагированию на инциденты, предложив собственный подход.
Институт NIST и компания Atlassian сходятся во мнении о том, что не каждый инцидент можно предотвратить. Поэтому лучше всего подготовиться.
«Превентивные меры, принятые на основании результатов оценок рисков, могут привести к уменьшению числа инцидентов, однако не все инциденты можно предотвратить. Поэтому необходимо предусмотреть возможность реагирования на инциденты, чтобы оперативно выявить инцидент, максимально уменьшить потери и вред, устранить уязвимости, вызвавшие инцидент, и восстановить работу ИТ-услуг», — институт NIST.
Согласно предложенному институтом NIST жизненному циклу, процесс реагирования на инциденты состоит из четырех основных этапов: подготовка; обнаружение и анализ; локализация, ликвидация и восстановление; меры, принимаемые после события.
Этап 1. Подготовка
На этапе подготовки организация выполняет работу, чтобы подготовиться к реагированию на инцидент, в том числе устанавливает нужные инструменты, выделяет ресурсы и обучает команду. Этот этап подразумевает выполнение действий, нацеленных на предупреждение инцидентов.
Этап 2. Обнаружение и анализ
По данным института NIST, для многих организаций в рамках реагирования часто сложнее всего безошибочно обнаружить и оценить инциденты.
Этап 3. Локализация, ликвидация и восстановление
В ходе этого этапа организация стремится как можно эффективнее ограничить воздействие инцидента и устранить перебои в обслуживании.
Этап 4. Меры, принимаемые после события
В процессе реагирования на инциденты наиболее важно делать выводы из произошедшего и совершенствоваться. Этот аспект работы игнорируется чаще других. На этом этапе анализируется инцидент и меры, принятые в рамках реагирования. Организация стремится снизить вероятность повторного возникновения инцидента и понять, как можно улучшить меры по реагированию на инциденты в будущем.
Реагирование на инциденты и современные команды DevOps
За последнее десятилетие движение DevOps помогло командам изменить подходы к сборке, развертыванию и эксплуатации ПО. Вместе с ними изменился подход этих команд к реагированию на инциденты.
Подход DevOps к управлению инцидентами не сильно отличается от традиционной методики эффективного управления инцидентами. В рамках подхода DevOps важно привлекать команды разработчиков к управлению инцидентами на самых ранних этапах (в том числе, на дежурстве) и распределять задачи с учетом опыта и знаний, а не должности.
Реагирование на инциденты и непрерывное совершенствование
В начале статьи мы говорили о циклах и прямых линиях. Вы могли заметить, что у всех этих подходов к управлению инцидентами есть одна общая черта — они нелинейны. Каждый подход состоит из одних и тех же составляющих: способов определения, обнаружения и выявления инцидентов; способов быстрого реагирования и принятия мер для устранения инцидентов; способов анализа инцидентов для лучшего обнаружения и реагирования в будущем. Анализировать произошедший инцидент просто ради процесса не имеет смысла. Невозможно вернуться в прошлое и предотвратить случившееся. Разобравшись с инцидентом, вы получите опыт, с помощью которого можно улучшить процесс обнаружения и реагирования в будущем. Цикл для команд завершается постоянным, непрерывным обучением и совершенствованием.
Реагирование на инциденты — это сложный и нелинейный механизм. Однако все его этапы легко отслеживаются в таком решении для управления инцидентами, как Jira Service Management, благодаря встроенным инструментам для общения и совместной работы. Гибкие возможности централизованного управления оповещениями и объединения команд позволят вам быстрее реагировать на инциденты и разрешать их.
Составление графика дежурств с помощью Opsgenie
С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.
Читать учебное руководствоПлюсы и минусы различных подходов к управлению дежурствами
Дежурные команды быстро развиваются. Узнайте о плюсах и минусах различных подходов к управлению дежурствами.
Читать статью