Close

Управление инцидентами для высокоскоростных команд

Чему команды по управлению инцидентами могут научиться у авиакомпаний?

Хорошо известно, что самолет — это самый безопасный вид транспорта и что на протяжении десятилетий в авиации активно развивалось управление инцидентами. На самом деле в 1959 году на каждый миллион полетов приходилось 40 происшествий со смертельным исходом. Спустя 10 лет это число уменьшилось до двух. На сегодняшний день оно составляет 0,1.

По большому счету в сфере авиации ставки могут быть гораздо выше, чем в индустрии ПО (поскольку вероятность смерти от проблем с электронной коммерцией ниже, чем от неисправности самолета). При этом повседневная практика предотвращения инцидентов и управления ими в этих сферах не так уж и различается. В обеих отраслях существует необходимость в управлении рисками, отправке оповещений и борьбе с усталостью от них. В обеих отраслях необходимо предусмотреть такой режим работы, при котором можно решать срочные задачи в любое время суток. Кроме того, в обеих отраслях происходят инциденты разной степени опасности и фанатично отслеживаются показатели KPI. И там, и там предприятия несут ответственность перед общественностью и своими клиентами.

Именно поэтому техническим специалистам есть чему поучиться у авиакомпаний, практикующих бескомпромиссный подход к совершенствованию своего процесса управления инцидентами и их предупреждения. Далее вы узнаете пять принципов ведущих авиакомпаний, которые могут стать хорошим подспорьем для вашей команды.

Учет управления инцидентами при проектировании и запуске продукта

И в сфере авиации, и в сфере ИТ учет инцидентов при проектировании может оказать значительное влияние на итоговые потери, понесенные в результате будущих инцидентов.

В 1988 году в самолетах начали размещать кресла, рассчитанные на перегрузку до 16g, чтобы защитить пассажиров от травм головы и грудной клетки и исключить вероятность деформации кресла во время аварии, из-за которой пострадавшие оказывались в безвыходном положении. По оценкам, установка этих кресел помогла спасти множество жизней пассажиров и предотвратить травмы, в результате чего выгода составила 78,9 млн долларов США за 25 лет. Все это оказалось возможным благодаря тому, что при проектировании учитывалась возможность возникновения инцидентов.

В технологической сфере похожую пользу принесла популяризация принципа «кто разработал, тот и поддерживает». Он объединяет обязанности по разработке и управлению инцидентами. Преимущество этого подхода заключается в том, что команды по разработке лучше понимают риски возникновения инцидентов и с большей вероятностью смогут предотвратить их и свести влияние к минимуму.

Автоматизируйте, чтобы снизить вероятность ошибки

Ошибка летчика считается самой распространенной причиной авиакатастроф. В случае инцидентов с программным обеспечением и ИТ вина тоже часто ложится на людей. В обеих сферах на помощь может прийти автоматизация. На примере многих отраслей доказано, что автоматизация значительно снижает число ошибок. Поэтому совершенно неудивительно, что в авиационной отрасли автоматизация с каждым годом становится все популярнее. Уже сейчас примерно 90 % полета выполняется на автопилоте, а варианты со стопроцентной автоматизацией находятся на стадии тестирования.

Человеческий фактор обладает высокой значимостью. Поэтому один из главных вопросов, которые задают в ходе разборов инцидентов в компании Atlassian, звучит так: «Можно ли что-то автоматизировать, чтобы избежать этой проблемы в будущем?» Довольно часто проблему можно предотвратить с помощью простого технического исправления.

Вот один показательный случай, произошедший в компании Atlassian пару лет назад.

Один инженер допустил серьезную ошибку в синтаксисе конфигурационного файла для критически важного оборудования. Из-за этого работа во всей компании остановилась на 45 минут. Этот инцидент обошелся нам в сотни тысяч долларов… Люди совершают ошибки, и с этим ничего не поделаешь. Вопрос в другом: как мы можем уменьшить вероятность ошибки со стороны человека?

Проблему решили раз и навсегда, просто добавив в конфигурационный файл автоматическую проверку на возможность запуска. Она выполняется перед загрузкой и исключает необходимость какого-либо взаимодействия человека с конфигурацией системы. Проблема, вызвавшая сбой, больше не возникнет благодаря быстрому техническому исправлению.

Четко распределяйте приоритеты и настройте оповещения в зависимости от уровня важности инцидента

Если авиация в чем-то и добилась успеха, то это в бескомпромиссной расстановке приоритетов. Дело в том, что даже в чрезвычайной ситуации некоторые проблемы требуют более срочного решения на фоне других. Когда есть опасность крушения самолета, пилоту нужно очень четко понимать, на каких оповещениях следует сосредоточить внимание и в какой последовательности.

Именно поэтому в каждый момент времени компьютер в самолете отслеживает более 10 000 единиц данных, но лишь в 10 % полетов пилот получает хотя бы одно оповещение. Нужно ли пилоту знать, что значение настройки антиобледенителя иллюминатора изменилось с высокого значения на среднее? Надо ли уведомлять, что один гидравлический насос вышел из строя и другой насос был задействован вместо него без влияния на самолет или его курс? Авиационные эксперты дают ответ «нет» на оба вопроса.

В случае отказа двигателя или проблемы с давлением в салоне оповещения обязательно выводятся в кабине пилота, а уровень их важности предельно ясен. Для его обозначения используются не только визуальные сигналы, такие как текст и красные индикаторы, но и звуковые и сенсорные подсказки, например вибрация механизма управления или голосовые предупреждения.

Как вы уже могли догадаться, количество сигналов зависит от важности оповещения. Если самолет вот-вот уйдет в пике, пилот увидит красное текстовое сообщение, включатся красные индикаторы, прозвучит голосовое предупреждение и завибрирует механизм управления.

Следующее по важности оповещение сопровождается всеми перечисленными подсказками кроме вибрации штурвала. Оповещение более низкого уровня важности обозначается при помощи индикаторов и текстового сообщения желтого цвета. И оповещение следующего, еще более низкого уровня важности, которое не требует действий со стороны пилота, представляет собой текстовое сообщение желтого цвета на экране. Благодаря такой скрупулезной иерархии пилотам несложно понять, на что обращать внимание.

Установите высокие пороговые значения для оповещений

В авиационной отрасли не только хорошо умеют обозначать важность оповещений, но и понимают, о чем точно нужно сообщить пилоту.

Наибольшая важность отведена худшим чрезвычайным ситуациям, когда самолет упадет, если пилот незамедлительно не примет решительные меры.

Вторые по важности оповещения, также известные как предупреждения, тоже требуют от пилота немедленных действий, но их появление не означает, что самолет вот-вот упадет. Они могут сигнализировать о падении давления в салоне или конфликтной ситуации в воздухе, из-за которой возникла угроза столкновения.

К третьей категории относятся предостережения, которые пилот должен принять к сведению; при этом сиюминутные меры не требуются. На примере предостережений можно убедиться в том, насколько бескомпромиссно в авиации подходят к расстановке приоритетов. В самолете даже возгорание двигателя или отказ одного из них, возможно, удостоится лишь предостережения.

Благодаря такому строгому подходу к расстановке приоритетов в сфере авиации удалось побороть усталость от оповещений и заодно повысить безопасность пассажиров.

Держите сборники сценариев и контрольные списки под рукой

Когда пилот получает оповещение и узнает, что вышел из строя кондиционер (это может вызвать падение давления в салоне) или один из двигателей в опасности, для разрешения инцидента он полагается не только на свою подготовку. Этого требуют нормы, принятые в авиационной отрасли.

Подготовка пилота сыграет свою роль, однако безопаснее (и к тому же быстрее) сообщить дальнейшие действия напрямую. Поэтому все оповещения в кабине пилота сопровождаются контрольным списком дальнейших действий с учетом оповещения. Такой подход не автоматизирует процесс, но приносит похожую пользу. Вместо того чтобы полностью положиться на подготовку персонала, система прописывает меры, которые вероятнее всего помогут устранить проблему.

Наработки по оптимизации методик ИМ в области авиации оказались полезны и в других областях. Так, специалисты в сфере технологий теперь могут непрерывно совершенствовать реагирование на инциденты и управление ими.

Узнайте больше о том, как Jira Service Management помогает командам реагировать на инциденты и разрешать их, а также непрерывно улучшать работу после возникновения инцидентов.

продолжение темы
Roles and responsibilities