Управление инцидентами для высокоскоростных команд
Как команды внедряют ChatOps для управления инцидентами
Ни для кого не секрет, что чем лучше ваша коммуникация, тем лучше вы управляете инцидентами.
Команды, отличающиеся крепкой коммуникацией и тесным сотрудничеством, быстрее разрешают инциденты и сохраняют высокую степень удовлетворенности как внутри компании, так и среди внешних пользователей. Они также лучше подготовлены к проведению ретроспектив, которые способствуют выявлению основных проблем и предотвращению будущих инцидентов.
Поэтому неудивительно, что модель ChatOps стала неотъемлемой частью процессов по управлению инцидентами во многих командах.
Почему ChatOps
Как говорит Шон Риган, руководитель отдела по маркетингу продуктов Jira и BitBucket, ChatOps — это применение разговоров на практике:
«ChatOps — это модель совместной работы, которая объединяет людей, инструменты, процессы и автоматизацию в прозрачный рабочий процесс. Этот поток объединяет предстоящие, текущие и выполненные задачи в одном месте, укомплектованном людьми, ботами и связанными инструментами. Прозрачность сжимает цикл обратной связи, улучшает обмен информацией и повышает эффективность совместной работы команды. И это не говоря уже о командной культуре и взаимном обучении…»
«Чат — это новый способ зафиксировать коллективные знания команды и использовать их для внесения долгосрочных изменений в процесс поставки продуктов и ведения совместной работы. Звучит не особо революционно, но как только вы начнете вести работу подобным образом, вы уже не захотите возвращаться к прежнему способу».
Как работает ChatOps при управлении инцидентами?
В контексте управления инцидентами модель ChatOps позволяет перенести рабочий процесс обработки инцидентов в одно место, чтобы поддерживать принципы agile в команде и держать всех в курсе происходящего.
Она систематизирует всю коммуникацию об инцидентах, отчеты, планы и прогресс и предоставляет всем участникам актуальную информацию в режиме реального времени. Кроме того, она предоставляет командам DevOps, ИТ-специалистов, командам по коммуникациям, безопасности, юридическим вопросам и другим командам возможность сотрудничать не только для разрешения инцидентов, но и для их предотвращения и снижения их последствий в будущем.
Преодоление информационной разрозненности во время инцидентов
Все имеют доступ к одной и той же информации
Чем более разрозненно обсуждение инцидентов, тем больше вероятность возникновения ошибок коммуникации, которые могут сорвать работу над проектом. Пригласите всех в одну чат-комнату, чтобы снизить уровень риска.
Общение в режиме реального времени
Это означает, что все, кто должен быть в курсе событий и принимать меры, — от разработчиков, занимающихся разрешением инцидентов, до менеджеров социальных сетей, работающих с конечными пользователями, — всегда получают актуальную информацию без задержек.
Меньше переключений контекста
Без ChatOps управление инцидентами обычно выполняется с помощью различных приложений, а сообщения передаются по электронной почте, телефону, SMS и т. д. Такая работа сопряжена с большим количеством переключений контекста, и на ее отслеживание уходит значительное количество умственных ресурсов.
ChatOps позволяет оптимизировать все (насколько это возможно) в одном месте. Оповещения и отчеты приходят в чат, беседы ведутся в нем же. Таким образом, существует только одно место, куда могут обратиться команды по обработке инцидентов для получения актуальной информации.
Никаких игр в испорченный телефон
Любой, кто знаком со старой игрой «Испорченный телефон», знает, что исходное сообщение меняется буквально за одну-две передачи. ChatOps устраняет этот риск. Если у всех есть доступ к одним и тем же исходным беседам, риск ошибок коммуникации значительно снижается.
Встроенный письменный отчет для ретроспектив инцидентов
Что пошло не так? Сколько времени ушло на разрешение инцидента? Что в конечном итоге стало решением проблемы? Можно ли автоматизировать это решение для будущих инцидентов?
Это вопросы, которые вы, скорее всего, будете исследовать в ходе ретроспективы инцидента. И при наличии единой записи переговоров с проставленными метками времени вам будет намного проще ответить точно и правильно.
Рекомендации по ChatOps для управления инцидентами
Подключите к чату систему оповещения
Чем чаще вашим разработчикам приходится переключаться между чатом и другими системами, чтобы разрешить инцидент, тем больше времени вы теряете на переключении между задачами. Вместо того чтобы при возникновении инцидента отправлять оповещения на электронную почту и телефон, отправляйте их непосредственно в чат-комнату для ускорения процесса разрешения.
Установите продуманные пороговые значения для оповещений
Усталость от оповещений — это реальная угроза, особенно в разгар серьезного инцидента. Поэтому, когда мы предлагаем отправлять оповещения непосредственно в чат, мы не имеем в виду каждое оповещение.
Какие оповещения помогут вашей команде быстро и эффективно реагировать на инцидент? Какие оповещения окажутся просто шумом? Какие оповещения дублируются?
Задайте эти вопросы заранее и установите продуманные пороговые значения для оповещений в чате, чтобы оптимизировать их и снизить риск пропуска чего-то важного из-за усталости от оповещений. Инструмент типа Opsgenie позволяет настроить, какие действия следует отправлять в комнату чата, и фильтрует оповещения на основе их свойств.
Настройте отдельную комнату для каждого серьезного инцидента
Команды, занимающиеся серьезным инцидентом, не должны волноваться о том, что увязнут в несерьезных инцидентах, повседневной болтовне или других инцидентах с невысоким приоритетом. Выделите отдельную комнату для каждого серьезного инцидента.
Перенесите действия в чат
С помощью таких сочетаний, как Slack и Opsgenie, чат управления инцидентами можно превратить в нечто большее, чем просто канал связи. Вы можете включить непосредственно в чат текстовые команды или кнопки, которые позволят выполнять действия с инцидентами, например назначать оповещения, указывать владельцев, добавлять заметки, отключать уведомления об инцидентах или даже создавать новые оповещения.
Пригласите несколько команд
Зачастую быть в курсе новостей об инциденте в режиме реального времени должны несколько команд и ролей — от команд DevOps и ИТ до специалистов по взаимодействию с клиентами, менеджеров социальных сетей, отделов безопасности и юридических отделов. Заранее выясните, каким ролям и командам необходимы актуальные сведения об инциденте, и пригласите их в свой чат.
Делайте акцент на безопасности
Убедитесь, что ваш чат безопасен и доступ к нему имеют лишь те, кто будет принимать меры.
Сохраняйте историю чата
После разрешения инцидента приходит время для ретроспективы, и ChatOps упрощает этот процесс. Поскольку все взаимодействие по инциденту происходит в одной комнате, после его разрешения вы получаете полную запись всех разговоров, действий, оповещений и отчетов в одном месте. Ее можно сохранить для дальнейшего применения, использовать для обновления сборников сценариев по инцидентам и обращаться к ней во время ретроспективы для разработки способов устранения или снижения риска возникновения подобных инцидентов в будущем.
Использование Slack для управления инцидентами: шесть обязательных элементов
Подробнее о ChatOps, шести важных функциях интеграции чата для решений по управлению инцидентами и сравнении интеграций Slack, используемых крупнейшими игроками при управлении инцидентами.
Составление графика дежурств с помощью Opsgenie
С помощью этого руководства вы научитесь настраивать график дежурств, использовать правила переадресации дежурств, настраивать оповещения о начале дежурства, а также изучите другие возможности Opsgenie.
Читать учебное руководствоПлюсы и минусы различных подходов к управлению дежурствами
Дежурные команды быстро развиваются. Узнайте о плюсах и минусах различных подходов к управлению дежурствами.
Читать статью