Close

빠른 속도의 팀을 위한 인시던트 관리

인시던트 관리 팀은 항공 업계에서 무엇을 배울 수 있습니까?

비행이 가장 안전한 여행 방법이라는 것은 잘 알려진 사실이며, 항공 업계는 수십 년 동안 인시던트 관리를 적극적으로 개선해 왔습니다. 실제로 1959년에는 1백만 편의 비행마다 40건의 치명적인 사고가 발생했습니다. 10년 후, 이 수치는 2건으로 떨어졌으며 오늘날은 0.1건입니다.

일반적으로 말하자면, 항공의 위험도는 소프트웨어보다 높을 수 있지만(전자 상거래 서비스 중단으로 사망할 가능성보다 비행기 장비 오작동으로 사망할 가능성이 더 큼) 인시던트 예방 및 관리라는 일상적인 관행은 크게 다르지 않습니다. 두 업계 모두 위험을 관리하고 알림을 발행하며 알림 피로를 해결해야 합니다. 또한 긴급한 24시간 요구 사항을 처리하는 일정이 필요합니다. 모두 심각도 수준이 다른 인시던트가 발생하며, KPI를 세심하게 추적합니다. 그리고 둘 다 대중과 고객으로부터 책임을 지도록 요구받습니다.

따라서 기술 업계는 인시던트 관리 및 예방을 개선하기 위한 항공 업계의 단호한 접근 방식을 통해 한두 가지를 배울 수 있습니다. 다음은 팀이 최고의 항공 회사에서 얻을 수 있는 5가지 관행입니다.

인시던트 관리를 염두에 두고 설계 및 제공

항공과 기술 업계 모두에서 인시던트를 염두에 둔 설계는 인시던트로 인해 발생할 궁극적인 비용에 큰 영향을 미칠 수 있습니다.

1988년 항공 업계에 16G 좌석이 도입되면서 충돌 시 변형으로 인해 좌석에 갇힐 가능성과 머리 및 가슴 부상을 줄이는 보호 기능이 추가되었습니다. 생명을 구하고 부상을 예방한 이 좌석의 추정 이점은 25년 동안 총 7,890만 달러에 달했습니다. 그리고 이 모든 것은 인시던트 발생 가능성을 고려한 설계 덕분입니다.

기술 세계에서는 개발 및 인시던트 관리 책임을 병합하는 “직접 구축, 직접 운영”의 부상을 통해 비슷한 이점을 얻습니다. 이 접근 방식의 긍정적인 결과 중 하나는 기술 구축을 담당하는 팀이 인시던트 위험을 더 잘 인식하며, 인시던트 위험을 예방하고 영향을 최소화하기 위해 노력할 가능성이 높다는 것입니다.

자동화를 통한 오류 발생 가능성 감소

조종사로 인한 오류는 항공 재해의 가장 일반적인 원인으로 꼽힙니다. 소프트웨어 및 IT 인시던트의 경우 사람이 비난의 대상이 되는 경우가 많습니다. 자동화는 두 분야 모두에서 도움이 되며 많은 산업 분야에서 오류를 크게 줄이는 것으로 입증되었습니다. 따라서 항공 업계가 매년 자동화를 향해 계속 나아가고 있다는 사실도 충분히 이해가 됩니다. 이미 자동 조종 장치는 비행의 약 90%를 수행하며 완전히 자동화된 옵션이 테스트 중입니다.

사람의 실수는 자주 발생하기 때문에 Atlassian에서는 사후 검토를 진행할 때 다음 질문을 가장 많이 묻습니다. 이런 일이 다시 발생하지 않도록 자동화할 수 있는 것이 있습니까? 간단한 기술 수정으로 문제를 방지할 수 있는 경우가 많기 때문입니다.

이에 대한 한 가지 좋은 예시 사례가 몇 년 전에 Atlassian에서 일어났습니다.

“한 엔지니어가 중요한 장비 일부의 구성 파일 구문에 큰 실수를 저질렀고, 회사 전체의 시스템이 45분 동안 중단되었습니다. 수치화하면 수십만 달러에 달하는 문제입니다. 사람은 실수를 저지르기 마련입니다. 그 문제는 해결할 수 없습니다. 그렇다면 사람의 실수를 어떻게 줄일 수 있을까요?

“결국 간단하고 영구적인 해결은 로딩 전에 구성 파일에 대해 자동화된 '시작 가능' 검사를 적용하여 결국 시스템 구성과 사람 간의 모든 상호 작용을 제거하는 것이었습니다. 서비스 중단을 야기했던 문제는 이제 빠른 기술 수정을 통해 방지할 수 있습니다.”

우선 순위를 명확하게 정의하고 우선 순위에 따른 알림 설계

항공 업계에서 뛰어난 점이 하나 있다면 우선 순위를 냉정하게 좁히는 것입니다. 사실 긴급 상황에서도 일부 문제는 다른 문제보다 더 시급하기 때문입니다. 비행기가 추락할 위험에 처했을 때 조종사는 어떤 긴급 상황에 주목해야 하는지, 어떤 순서로 주의를 기울여야 하는지 매우 명확하게 알아야 합니다.

그래서 컴퓨터는 비행기에서 한 번에 10,000개 이상의 데이터 포인트를 추적하고 있지만 모든 항공편의 10%만이 조종사에게 단일 알림을 전달합니다. 창문 제빙 장치가 높은 설정에서 중간 설정으로 변경되는 것에 대해 조종사가 알아야 할까요? 비행기나 비행 경로에 영향을 미치지 않는데도 하나의 유압 펌프가 고장 나서 다른 유압 펌프가 작동한다는 것을 알아야 할까요? 항공 업계의 전문가에 따르면 답은 둘 다 '아니오'입니다.

엔진 고장이나 기내 압력 문제와 같이 알림이 필요하고 조종석에 표시되는 경우 우선 순위 수준은 매우 명확하며, 텍스트 및 빨간색 표시등과 같은 시각적 신호뿐만 아니라 흔들리는 조종 장치 또는 음성 경고와 같은 청각적 및 물리적 신호로도 표시됩니다.

예상하시겠지만 가장 높은 알림 수준이 신호도 가장 많습니다. 비행기가 급강하하려는 경우 조종사는 빨간색 문자 메시지, 빨간색 표시등, 음성 경고를 받으며 조종 장치도 흔들리게 됩니다.

바로 아래 수준에서는 흔들리는 스틱을 제외하고 위에 나열한 모든 알림이 표시됩니다. 그 아래 수준에서는 표시등이 생성되고 노란색 문자 메시지가 나타납니다. 조종사의 조치가 필요하지 않은 그 아래 수준에서는 화면에 간단한 노란색 문자 메시지로 표시됩니다. 엄격한 계층 구조를 통해 조종사는 주의를 기울여야 할 사항을 쉽게 파악할 수 있습니다.

알림 임계값을 높게 설정

항공 업계는 알림의 우선 순위를 명확하게 표시하는 것 외에도 알림이 필요한 상황과 전혀 필요 없는 상황을 매우 잘 이해합니다.

최우선 순위 수준은 최악의 긴급 상황에만 사용됩니다. 조종사가 즉각적이고 결정적인 조치를 취하지 않으면 비행기가 추락하는 긴급 상황입니다.

경고로 알려진 두 번째 우선 순위 문제도 조종사의 즉각적인 조치가 필요하지만 정확히 그 순간에 비행기가 추락하지는 않습니다. 여기에는 기내 압력 손실이나 비행기를 충돌 위험에 빠뜨리는 교통 충돌과 같은 상황이 포함됩니다.

세 번째 티어는 주의로, 조종사가 인식해야 하지만 즉각적인 대응은 필요하지 않습니다. 여기서 항공 업계의 냉정한 티어 설정이 분명하게 드러납니다. 심지어 엔진 화재 또는 단일 엔진 고장마저도 주의에 불과하기 때문입니다.

우선 순위 지정에 대한 단호한 접근 방식은 항공 업계에서 알림 피로를 방지하고 승객을 더 안전하게 유지하는 데 도움이 되었습니다.

플레이북과 확인 목록 준비

알림을 통해 조종사가 에어컨 장치가 중단되었거나(기내 압력 하락으로 이어질 수 있음) 엔진 중 하나가 위험하다는 사실을 알게 된 경우, 항공 업계는 인시던트를 해결하기 위해 조종사의 교육에 의존하지 않습니다.

조종사의 교육도 필요하긴 하지만 다음 단계를 직접 알리는 것이 더 안전하며 당연히 더 빠르기 때문입니다. 따라서 조종석 알림은 특정 알림과 일치하도록 설계된 다음 단계의 확인 목록과 함께 제공됩니다. 정확히 말해 자동화는 아니지만, 이 접근 방식도 비슷한 이점이 있습니다. 시스템은 조종사의 교육에 전적으로 의존하는 대신 문제를 해결할 가능성이 가장 높은 사항을 설명합니다.

IM 관행 최적화를 위한 항공 업계의 노력은 기술을 포함한 다른 분야에 인시던트 대응 및 관리를 지속적으로 개선할 수 있는 방법을 보여주었습니다.

팀이 인시던트 발생 후 대응하고 해결하며 지속적으로 개선할 수 있도록 Jira Service Management가 지원하는 방법에 대해 자세히 알아보세요.