Управление инцидентами для высокоскоростных команд
Навести порядок в хаосе: роль руководителя команды реагирования на инцидент
Кто такой руководитель команды реагирования на инцидент (IC) и зачем он нужен?
Ни для кого не секрет, что серьезные инциденты сильно сказываются на финансовых показателях компании. Именно поэтому управление инцидентами является важной и постоянно развиваемой частью практики ITSM. Но кто несет ответственность за восстановление работоспособности систем во время инцидента?
Обычно за это отвечает команда ИТ или DevOps. Но независимо от того, какие отделы занимаются серьезными инцидентами, обычно разрешением инцидента руководит ответственный за ликвидацию.
Кто такой руководитель команды реагирования на инцидент?
Ответственный за ликвидацию инцидентов (также известен как менеджер инцидентов) состоит в команде ИТ или DevOps и отвечает за управление реагированием на инциденты. Главная задача этого человека — добиться полного разрешения инцидента в кратчайшие сроки. Для этого он может управлять ресурсами, планом и коммуникациями, вовлеченными в процесс разрешения.
Сотрудников с похожей ролью можно встретить в пожарных командах и аварийно-спасательных службах, хотя у них риски зачастую выше. Ответственный за ликвидацию инцидентов — это всегда главный авторитет, за которым остается последнее слово в любых решениях по инциденту.
Зачем командам реагирования нужен руководитель?
Ответственный за ликвидацию инцидентов — это главное контактное лицо и источник достоверной информации об инциденте. Он видит общую картину, управляет всеми ресурсами, знает, какие решения уже применялись или готовятся к реализации, планирует дальнейшие действия и руководит ими.
Без ответственного за ликвидацию инцидентов связь и командная работа нарушаются. Повышается риск того, что команды будут выполнять одну и ту же работу, даже не зная об этом, упустят из виду более глобальные вопросы и не смогут быстро обмениваться точной информацией с пользователями системы, внутренними заинтересованными сторонами, руководителями и коллегами. Чем масштабнее и сложнее технологические или командные структуры в организации, тем важнее эта роль для эффективного управления инцидентами.
Обязанности руководителя команды реагирования на инцидент
Подготовка к инциденту
Задача ответственных за ликвидацию инцидентов — наладить каналы связи, пригласить нужных участников в эти каналы во время инцидента и обучить участников команды не только методам управления инцидентами, но и обмену информацией во время инцидента.
Принятие решений
Ответственные за ликвидацию должны быстро оценивать инцидент и принимать решения о необходимых мерах, нужных участниках команды и дальнейших действиях на каждом этапе процесса разрешения. Они должны уметь слушать, собирать и обобщать рекомендации экспертов, а также определять их важность.
Лучшие ответственные за ликвидацию инцидентов — это уверенные руководители с развитыми навыками решения проблем.
Делегирование
Руководители команды реагирования должны делегировать задачи своим командам и знать, когда команду нужно пополнить новыми разработчиками, специалистами по коммуникациям и т. д.
Надзор
Пока разработчики погружаются в детали, пытаясь найти причины инцидента и способы его разрешения в коде, ответственный за ликвидацию должен изучать картину в целом. Какие решения уже были опробованы? Что помогло в прошлый раз? Как лучше всего поступить, если текущая стратегия не принесет результатов?
Ответственные за ликвидацию инцидентов контролируют весь процесс разрешения от начала и до конца. Они должны задавать правильные вопросы, регулярно запрашивать отчеты о статусе у каждого участника команды и определять последовательность дальнейших действий.
Координация команды
Чем серьезнее инцидент, тем больше шансов, что его разрешение потребует задействовать несколько команд. Руководитель команды реагирования курирует обмен информацией и принимает меры, чтобы все были в курсе дел. Он также следит, чтобы все беседы велись кратко и по существу с целью быстрого разрешения инцидента.
Контроль паники
Инциденты — это стрессовые ситуации с высокой ценой ошибки. Согласно результатам исследований, люди под воздействием стресса принимают менее эффективные решения. Поэтому еще одна задача ответственного за ликвидацию инцидентов — следить за тем, чтобы команды сохраняли спокойствие и концентрацию.
Ответственный за ликвидацию инцидентов должен уметь и стараться выводить эмоционально перегруженных людей из команды реагирования на инцидент, успокаивать команду словами, когда это необходимо, и регулярно привлекать внимание к поставленной задаче. Также он должен по возможности освобождать команды от лишней нагрузки и защищать участников от нарастающей тревоги и постоянного потока вопросов, поступающих от заинтересованных сторон в организации и за ее пределами.
Управление эскалацией и ресурсами
При необходимости руководители команды реагирования отвечают за эскалацию вопросов более опытным разработчикам или разработчикам с более узкой специализацией и (или) за привлечение дополнительных ресурсов для более быстрого разрешения.
Планирование
До и во время инцидента у руководителя команды реагирования должны быть наготове план дальнейших действий и запасной план.
Отчеты о разборе инцидентов
После разрешения инцидента ответственный за ликвидацию обязан провести разбор инцидента. Для этого он должен подготовить документы, куда команды могут внести свои мысли, запланировать соответствующие собрания и составить рекомендации, которые помогут предотвратить инциденты в будущем или смягчить их последствия.
Как стать руководителем команды реагирования на инцидент
В основные обязанности ответственного за ликвидацию инцидентов входят управление ресурсами, обмен информацией и решение проблем. Любой человек, обладающий соответствующими навыками, будь то руководитель высшего звена или стажер, может стать отличным ответственным за ликвидацию.
К ответственным за ликвидацию инцидентов, как правило, предъявляются следующие требования.
- Развитые навыки общения
- Глубокие знания систем управления инцидентами и соответствующих рекомендаций
- Навыки решения проблем
- Способность принимать решения быстро и уверенно
- Умение слушать и обобщать
- Опыт разрешения серьезных инцидентов (в качестве наблюдателя либо непосредственного участника)
- Навыки лидера — умение взять на себя руководство в стрессовой ситуации
Прежде чем принять на себя ответственность за ликвидацию инцидента, в большинстве компаний вам придется понаблюдать за другими исполнителями этой роли и постичь азы. В таких случаях рекомендуется спокойно изучать действия наставника. Все вопросы лучше задавать уже после разрешения инцидента.
Рекомендации для руководителей команды реагирования на инциденты
Будьте в курсе отраслевых рекомендаций
Поскольку ответственным за ликвидацию поручено управлять командами в процессе разрешения, им должны быть известны рекомендации по реагированию на инцидент и информированию об инциденте. Также им будет полезно обращаться к справочнику Atlassian по управлению инцидентами.
Планируйте заранее
Кроме того, важно составить стратегический план реагирования на инциденты до их возникновения. Чем более подробно задокументирован ваш процесс перед инцидентом, тем проще будет руководителю команды реагирования и участникам команд следовать ему в условиях повышенной нагрузки и сильного стресса во время инцидента.
Знайте свои команды
Когда руководитель понимает модель отношений в команде, а также сильные и слабые стороны ее участников, он эффективнее делегирует обязанности, а инцидент разрешается быстрее.
Помните о задаче
Даже во время серьезного инцидента звонки и беседы команды в Slack могут отклониться от сути дела. Ответственный за ликвидацию инцидентов должен быть готов пресечь отклонения от курса и вновь привлечь внимание команды к поставленной задаче.
Иногда достаточно краткого устного или письменного напоминания. Иногда для этого нужно исключить некоторых участников из состава команды или привлечь новых сотрудников. В идеале ответственный за ликвидацию должен быть готов отключить даже генерального директора или своего руководителя от звонка, если этот человек мешает работать.
Сохраняйте спокойствие
Идеальные ответственные за ликвидацию инцидентов могут сохранять хладнокровие и концентрацию в условиях кризиса. Если тому или иному ответственному за ликвидацию это не свойственно, соответствующие качества можно тренировать и совершенствовать.
Уделяйте основное внимание ретроспективе по инциденту
После разрешения инцидента ответственный за ликвидацию должен провести разбор инцидента без поиска виновных, чтобы понять, как команда может улучшить процесс управления инцидентами и общие системы в будущем. Лучшие ответственные за ликвидацию инцидентов не просто спокойно управляют действиями по разрешению инцидента. Они также прилагают усилия, чтобы компания могла извлечь ценный урок из инцидента и стала лучше.
Заключение
Полноценные решения для управления службами могут пойти на пользу каждому ответственному за ликвидацию инцидентов. Jira Service Management расширяет возможности коммуникации, позволяет централизовать работу с оповещениями и включает статьи базы знаний.
Составление графика дежурств с помощью Opsgenie
С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.
Читать учебное руководствоПлюсы и минусы различных подходов к управлению дежурствами
Дежурные команды быстро развиваются. Узнайте о плюсах и минусах различных подходов к управлению дежурствами.
Читать статью