IT 지원 워크플로를 개선하는 방법
IT 서비스 연속성 관리란 무엇입니까?
IT 서비스 연속성 관리(ITSCM)는 ITIL 서비스 제공의 핵심 요소입니다. ITSCM은 재해 수준의 인시던트 전후 및 그 도중에 서비스 가용성과 성능을 최고 수준으로 유지하는 것을 목표로 인시던트 방지, 예측, 관리를 계획하는 데 중점을 둡니다.
ITSCM의 목표는 인시던트가 불가피하게 발생할 경우를 대비해서 효율적이고 표준화된 프로세스를 마련하여 인시던트로 인한 가동 중지 시간, 비용 및 비즈니스 영향을 줄이는 것입니다.
계획이 없으면 인시던트 복구를 늦추거나 중단시킬 수 있는 요인이 많습니다. 결국, 대기 중 전문가가 오전 3시에 졸린 눈으로 대응하는 상황이 발생할 수 있습니다. 몇 주 또는 몇 달 동안 다른 작업을 하느라 코드를 어떻게 작성했는지 잊어버렸을 수도 있고, 재해 수준의 인시던트 규모에 당황할 수 있으며, 아니면 이슈 해결 경험이 별로 없는 재해 복구 팀의 신입 직원이 대응해야 할 수도 있습니다.
서비스 연속성 관리에 대해 적절하게 문서화되고 명확한 계획을 세우면 학습 곡선, 오랫동안 다루지 않은 코드, 재해로 인한 당황스러움 또는 한밤중에 오는 알림으로 인한 지연을 최소화할 수 있습니다.
ITSCM 및 ITIL 4
ITIL 4에서 서비스 연속성 관리는 비즈니스 연속성 관리(BCM)를 지원하기 위한 프로세스입니다. 프로세스의 목적은 주요 서비스 중단 이후에 합의된 비즈니스 타임라인 내에 서비스가 다시 가동되도록 하는 것입니다.
ITSCM 및 인시던트 관리 비교
ITIL 4는 다양한 영향 수준에서 인시던트를 처리하는 인시던트 관리와 대규모 재해에 대한 계획을 세우는 ITSCM을 구분합니다.
그렇다면 어떤 것이 재해로 간주될까요? 대답은 비즈니스마다 다를 수 있지만, Business Continuity Institute에서는 재해를 “조직에 큰 손해를 입히거나 심각한 손실을 입히는 것으로, 그 결과로 조직이 사전에 결정된 최소 기간 동안 중요한 비즈니스 기능을 제공하지 못하게 되는 예상치 못한 갑작스러운 이벤트”라고 정의합니다.
재해라고 부르는 것의 규모, 사전에 결정된 최소 시간, 중요한 비즈니스 기능의 정의는 각 비즈니스에서 스스로 정의하고 문서화해야 할 세 가지 사항입니다.
ITSCM 및 비즈니스 연속성 관리(BCM)
비즈니스 연속성 관리는 IT 외부에서 관리되는 프로세스로, 비즈니스에 대한 위험을 파악하고 그러한 위험을 완화하기 위해 노력합니다. 재해 수준의 인시던트와 같이 IT와 관련된 위험도 있으며, 자연 재해나 시설 화재와 같이 IT 팀의 통제를 벗어난 위험도 있습니다.
BCM에는 ITSCM과 기타 위험 완화 프로세스가 포함되어 있으므로, IT 팀은 BCM 팀과 긴밀하게 협업하여 다음을 수립하는 것이 좋습니다.
- 재해 수준의 IT 인시던트 방지 및 복구 계획이 포함된 비즈니스 연속성 계획(BCP)
- IT 재해가 비즈니스에 미칠 수 있는 영향을 파악하는 비즈니스 영향 분석(BIA)
ITSCM 목표
비즈니스 관점에서 볼 때 ITSCM의 목표는 재해 수준의 인시던트로 인한 가동 중지 시간, 비용 및 비즈니스 영향을 줄이는 것입니다. 더 전술적인 수준에서의 목표는 다음과 같습니다.
- 전반적인 비즈니스 연속성을 보호하기 위해 BCM과 긴밀하게 협업
- 재해 발생 시 IT 서비스 지속성과 복구를 위한 계획 수립 및 관리
- 공급업체와 협업하여 비즈니스와 관련된 제품 및 서비스에 대한 가동 중지 시간의 영향을 최소화
- 위험과 영향을 분석하고 시간이 지남에 따라 그에 따라 계획을 수정
ITSCM 프로세스
Atlassian의 자체 연속성 계획은 재해 계획 프로세스가 지속적이고 리더십 중심적이며 철저한 테스트를 거친다는 전제를 바탕으로 수립되었습니다. Atlassian은 고객에게 헛소리를 하지 않겠다는 의지를 가지고 있습니다. Atlassian의 프로세스에는 계획, 커뮤니케이션, 명확한 책임, 테스트, 지속적인 개선이 포함됩니다.
계획수립
계획 프로세스는 개괄적인 질문을 한 다음 그 답변에 따라 계획을 세우는 것으로 시작됩니다. 시작 단계에서는 다음과 같은 질문이 포함되어야 합니다.
- 어떤 인시던트 대응을 갖추고 있는가?
- 어떤 가치를 따르는가?
- 어떤 재해에 대비해야 하는가? 비즈니스에 내재된 위험과 위협은 무엇인가?
- 어떤 시스템을 지원해야 하는가? 어떤 시스템이 중요한가?
- 각 재해에 대해 어떻게 대응할 것인가?
- 중요한 시스템을 지원하고 복원하는 데 필요한 정보는 어디에 있는가?
- 어떻게 하면 정보를 중앙 집중화하고 복원 프로세스를 간소화할 수 있는가?
- 프로세스와 문서가 협업을 중심으로 이루어지며 관리하는 팀에서 검토할 수 있는가?
질문에 대한 답변을 얻었다면 다음 단계는 그 답변을 사용하여 다음을 정의하는 것입니다.
- 재해 복구 정책
- IT 책임의 범위
- 각 위험이 비즈니스에 미치는 영향의 범위
- 각 위험 시나리오에 대한 계획 및 프로세스
- 인력 및 문서 요구 사항
성공적인 ITSCM 계획 단계의 핵심은 결과로 나온 계획을 문서화하고 템플릿화하여 명확하고 반복 가능하게 만드는 것입니다. 인시던트 대응 플레이북 또는 기타 런북과 같은 자산을 가지고 있으면 위험이 높은 시나리오에서 대응자에게 정보 소스 및 체계화의 출처가 될 수 있습니다.
ITSCM의 방식에 따라, Confluence 기반의 Jira Service Management와 같이 기본적으로 제공되는 기술 자료에 액세스할 수 있는 솔루션을 사용하면 수정, 최적화 및 협업이 가능한 지속적인 문서화를 할 수 있습니다. 그러면 대응자는 이전의 문제 해결 문서와 최신 리소스에 액세스할 수 있습니다.
명확한 책임
재해 발생 시 책임자는 누구입니까? 계획, 프로세스 및 설명서의 유지 관리 및 업데이트에 대한 책임은 누구에게 있습니까? ITSCM에는 재해 자체뿐만 아니라 지속적인 모니터링 및 개선 작업에 대한 역할과 책임이 항상 명확해야 합니다. 대응자는 Jira Service Management를 사용하여 이슈에 대해 적합한 팀이나 담당자를 태그하여 책임이 적절하게 위임되도록 하고 교차 기능 공동 작업을 지원할 수 있습니다.
Atlassian의 접근 방식 중 하나는 사이트 신뢰성 엔지니어, 위험 및 컴플라이언스 팀과 정기적인 재해 복구 회의를 가지는 것입니다. 회의에서는 재해 복구와 관련된 격차에 대해 논의하고 추가 계획, 개선, 평가 또는 변경이 필요한 부분을 파악합니다.
커뮤니케이션
열린 태도는 Atlassian의 핵심 가치이며, Atlassian은 조직이 ITSCM 계획에 대해 더 많은 정보를 받을수록 더 효과적인 계획이 만들어진다고 믿습니다.
인시던트 대응 프로세스 전반에 걸쳐 유연한 커뮤니케이션 채널을 제공하면 팀은 원하는 방식으로 계속 소통할 수 있습니다. Jira Service Management는 포함 가능한 상태 위젯, 전용 상태 페이지, 이메일, 채팅 도구, 소셜 미디어, SMS와 같은 여러 커뮤니케이션 채널을 통합하여 가동 중지 시간을 최소화합니다.
커뮤니케이션은 이해 관계자에게 계속 정보를 제공하고 재해 수준의 인시던트 중에 최고 경영진이 패닉 상태를 모면하는 데 도움이 될 뿐만 아니라, 팀이 필요한 경우 다른 팀에 지원을 요청하고 조직 내 혼란으로 인한 마찰의 위험을 완화할 수 있도록 해줍니다.
테스트
테스트하지 않는 한 계획이 효과가 있는지 어떻게 알 수 있을까요? 이것이 ITSCM의 기본적인 질문이며 이 관행의 성공을 위해서는 테스트와 인시던트 관리 훈련이 반드시 필요한 이유입니다.
테스트는 프로세스의 약점, 예상치 못한 이슈, 팀에 재교육이나 더 나은 설명서가 필요한 부분을 파악하는 데 도움이 될 수 있습니다.
평가 및 개선
ITSCM은 한 번으로 끝나는 프로세스가 아닙니다. 세심한 사전 계획과 지속적인 교육, 평가 및 개선이 필요합니다. 바로 이것이 Atlassian에서 정기적으로 재해 복구 회의를 갖는 이유입니다. 시스템 백업을 테스트하고 데이터 센터 중단이나 AWS 리전 장애 시 어떤 일이 일어나는지 훈련하는 이유이기도 하며 가치가 있는 ITSCM 계획이 지속적으로 모니터링되고 끊임없이 변화하는 이유입니다.
대부분의 회사는 ITSCM 프로세스를 일련의 단계로 표현하지만, Atlassian에서는 프로세스가 동그란 원에 가깝다고 생각합니다. 계획은 정의된 역할과 책임으로 이어져야 합니다. 거기서부터 팀은 조직 전체와 커뮤니케이션하고, 테스트를 거듭하고, 평가하고, 모니터링하고, 개선하고, 개선 사항에 대해 계획을 업데이트하고, 역할을 추가로 정의하고, 지속적으로 커뮤니케이션해야 합니다.
다시 강조하면, 이 때 기본 제공하는 공동 작업 기술 자료가 필요합니다. 기술 자료 문서는 평가 및 설명서 측면에서 매우 중요한 리소스입니다. 인시던트 사후 검토 보고서는 인시던트 이후의 수정 및 복구 작업에도 중요하지만, 나중에 발생할 수 있는 문제에 대해서도 오랫동안 리소스로 사용할 수 있습니다. Confluence 기반의 Jira Service Management는 평가 및 개선 솔루션을 실행하기 위한 효과적인 협업 플랫폼을 제공합니다.
ITSCM 역할 및 책임
조직 전반에서 ITSCM 관행을 효과적으로 계획하고 구현하기 위해, 많은 비즈니스는 서비스 연속성 관리자와 서비스 연속성 복구 팀을 지정합니다.
서비스 연속성 관리자(SCM)
이름에서 알 수 있듯이, 서비스 연속성 관리자는 서비스 연속성을 감독하는 역할을 맡습니다. 일반적으로 프로세스를 처음부터 끝까지 책임지고, 계획 개발을 이끌고, 지속적인 모니터링과 평가 활동을 관리하고, 재해 발생 시 실행 중인 계획을 감독합니다.
일반적으로 경험이 많은 선임 기술 지원 전문가가 이 역할을 맡지만, 이러한 관리자는 일상적인 기술 업무에 직접 관여하지 않는 관리 역할을 맡고 있을 수도 있습니다.
서비스 연속성 복구 팀
SCM이 이끄는 이 팀은 테스트와 인시던트 훈련을 담당하고 ITSCM을 지속적으로 개선합니다. 이 팀에는 일반적으로 기술 담당자, QA 전문가 또는 테스트 사용자, ITSCM과 팀 간 커뮤니케이션 라인을 열어 놓을 책임이 있는 조직 내 부서 담당자가 포함됩니다.
ITSCM이 중요한 이유는 무엇입니까?
명확한 재해 복구 계획을 갖춘 조직은 재해 발생 시 더 빠르고 완전하게 복구할 수 있습니다.
ITSCM은 일상적인 서비스 중단에 대한 계획을 세우는 것이 아니라, 최악의 시나리오를 다루고 그러한 상황이 발생할 경우 고객과 직원의 삶에 초래하는 혼란을 최소화하는 것입니다.
뛰어난 ITSCM 관행에서 얻을 수 있는 세 가지 분명한 이점은 다음과 같습니다.
- 적절한 ITSCM 계획이 마련되어 있으면 재해가 발생했을 때 필수 서비스를 빠르게 다시 가동시킬 수 있습니다.
- 조직은 항상 주요 재해에 대비하고 신속하고 적절하게 대응할 수 있습니다.
- 재해 발생 시 어떤 일이 벌어질지, 그리고 시스템이 얼마나 오랫동안 가동 중단될 것으로 예상되는지 비즈니스 전반에서 모두가 파악할 수 있습니다.
ITSCM이 Jira Service Management를 통해 고객 서비스 품질을 개선하고 조직의 가동 중지 시간을 최소화하는 방법을 알아보세요.