Управление инцидентами для высокоскоростных команд
Публичные и закрытые разборы инцидентов
Умение выбрать подходящее время для предоставления публичного отчета по инциденту
Было время, когда практически каждый ИТ-инцидент ограничивался четырьмя стенами организации, в которой он произошел. Но сегодня, когда работа выполняется в веб-сервисах и облачной инфраструктуре, такое случается редко. Технологические инциденты представляют собой настоящую проблему со связью «один ко многим», и это сильно изменило способы реагирования на инциденты, их изучения и взаимодействия между командами.
Рассмотрим разбор инцидента (часто называемый анализом результатов реагирования на инцидент, или PIR).
Разбор инцидента объединяет людей и позволяет обсудить детали инцидента: почему он произошел, его последствия, какие действия были предприняты для смягчения последствий и устранения инцидента и какие меры необходимо предпринять, чтобы предотвратить его повторение.
Разбор инцидента можно разделить на два отдельных артефакта: собрание, на котором идет обсуждение инцидента, и соответствующий отчет о разборе, который создается как результат этого собрания.
Когда речь заходит о разборе инцидента, эти два действия, проведение собрания и составление отчета, часто используются как взаимозаменяемые понятия. Под «разбором» люди могут подразумевать как одно из них, так и сразу оба понятия.
Партнеры, клиенты и конечные пользователи также могут захотеть узнать о том, что произошло и какие действия вы предприняли для их удобства. Публикация разбора инцидента на общедоступном веб-сайте не всегда уместна, но ваша команда по маркетингу или связям с общественностью может помочь подобрать правильные формулировки, чтобы предоставить людям содержательный отчет и укрепить доверие к вашим услугам.
Когда проводить разбор инцидента
В Atlassian мы всегда проводим разбор инцидентов с уровнями опасности 1 и 2 (серьезные инциденты). Для незначительных инцидентов разбор необязателен. Мы призываем проводить разбор в любых ситуациях, когда это может быть полезно.
Кто выполняет разбор инцидента?
Обычно ответственность за выполнение соответствующего разбора несет команда, которая занимается обслуживанием сервиса, ставшего причиной возникновения инцидента. Команда выбирает ответственного за разбор инцидента и назначает ему задачу разбора инцидента. Этот человек является «владельцем разбора» и управляет всеми этапами его выполнения (включая создание чернового варианта и его утверждение) вплоть до итоговой публикации. Инциденты уровня инфраструктуры и платформы часто затрагивают различные отделы компании, что усложняет процесс выполнения разбора и делает его более трудоемким. По этой причине мы иногда назначаем выделенного менеджера в качестве владельца разбора инцидентов, происходящих на уровне инфраструктуры или платформы, т. к. эти сотрудники лучше подходят для работы с несколькими группами и способны справиться с требуемым масштабом работ.
Предоставление доступа к внутреннему отчету о разборе инцидента
Мы обнаружили, что после утверждения разбора можно умножить его ценность, поделившись полученным опытом со всей компанией. Для этого в Atlassian предусмотрено автоматическое действие, которое создает черновик записи в блоге в Confluence после подтверждения заявки на разбор.
Создание публичного отчета о разборе инцидента
Несмотря на то что такая практика менее распространена, зачастую неплохой идеей бывает публикация общедоступной версии разбора после инцидента.
Обычно так делают для крупномасштабных потребительских сервисов, сбои которых затрагивают большое количество пользователей. Чаще всего они публикуют не полную, а сокращенную версию внутреннего отчета, поскольку важно удалить конфиденциальную или личную информацию.
Предоставление доступа к публичному отчету о разборе инцидента
Выбрать правильный канал для публикации общедоступного разбора может оказаться не так просто. Некоторые команды могут выложить ее прямо в блоге или сайте компании. У других команд есть отдельный блог о разработке, куда разбор подошел бы по тематике.
В нашем продукте, Statuspage, пользователи могут опубликовать общедоступный разбор непосредственно на своей странице статуса после решения инцидента.
Изучайте информирование об инцидентах с помощью Statuspage
В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.
Читать учебное руководствоВажность процесса разбора инцидентов
Разбор инцидента, или анализ результатов реагирования на инцидент, — это лучший способ проработать произошедшее и зафиксировать полученный опыт.
Читать статью