복원력에 대한 Atlassian의 접근 방식
Cloud 제품과 여기에 사용되는 기반 시스템, 서비스를 계속 사용할 수 있도록 유지하고 부정적이거나 계획되지 않은 이벤트의 영향을 견딜 수 있게 하는 것은 사용자만큼이나 Atlassian에도 중요합니다. 제품이 필요할 때 사용할 수 있도록 Atlassian은 비즈니스 복원력을 제공하는 기술, 직원, 프로그램을 구현했습니다.
복원력 있는 제품 만들기
Atlassian은 공동 책임 모델에 따라 Cloud 제품을 운영합니다. 즉, 신뢰성을 달성하려면 여러분과 Atlassian의 파트너십이 필요합니다. 이 모델에 따라 Atlassian은 인프라, 제품, 서비스의 고가용성, 안정성, 복구 가능성을 보장할 책임이 있습니다. 계획되지 않은 이벤트 발생 시 비즈니스를 운영할 수 있도록 재해 복구 프로그램 및 비즈니스 연속성 계획을 구현하는 것은 여러분의 책임입니다.
높은 가용성
Atlassian은 클라우드 서비스 공급자로 AWS(Amazon Web Services)를 사용하며 전 세계 여러 리전에 있는 AWS의 고가용성 Data Center 시설을 활용합니다. 각 AWS 리전은 독립된 지리적 위치이며, 여기에는 가용성 영역(AZ)이라는 격리되고 물리적으로 분리된 여러 데이터 센터 그룹이 있습니다.
각 가용성 영역은 다른 영역의 장애와 분리되고 동일한 리전의 다른 AZ에 낮은 비용으로 대기 시간이 짧은 네트워크 연결을 제공하도록 설계되었습니다. 이 다중 영역 고가용성은 지리적 및 환경적 위험에 대한 1차 방어선이며, 이것은 다중 AZ 배포에서 실행되는 서비스는 AZ 장애를 견딜 수 있어야 한다는 것을 의미합니다.
자세히 알아보려면 아키텍처 및 운영 사례 페이지를 읽어보세요.
신뢰성
Atlassian은 모든 팀이 신뢰할 수 있는 서비스 및 제품을 제공할 수 있도록 최선을 다하고 있습니다. 효과적으로 그렇게 하기 위해 Atlassian의 재해 복구(DR) 프로그램은 중요한 IT 시스템 및 서비스가 사용 가능하고 신뢰할 수 있으며 중단 시 신속하게 복원할 수 있도록 보장하는 프로세스, 정책, 기술을 구현하는 데 중점을 둡니다.
위에서 언급한 기능 외에도 Atlassian은 모니터링 및 알림을 구현하고 재해 복구 테스트를 실행했습니다.
모니터링 및 알림
Atlassian은 잠재적인 문제를 조기에 감지하는 것을 목표로 광범위한 지표를 지속적으로 모니터링합니다. 임계값을 위반하는 경우 인시던트 대응 프로세스를 통해 즉각적인 조치를 취할 수 있도록 그러한 지표를 기반으로 SRE(사이트 안정성 엔지니어) 또는 관련 제품 엔지니어링 팀에 알리는 경고를 구성합니다.
SRE는 또한 컴플라이언스 프레임워크에 정렬되도록 위험 및 컴플라이언스 팀과 협력하여 DR 프로그램에서 중요한 역할을 합니다. 각 팀에는 해당 팀과 관련된 재해 복구 측면을 감독하고 관리할 수 있도록 돕는 DR 챔피언도 있습니다.
재해 복구(DR) 테스트
Atlassian의 DR 테스트는 관련 프로세스 설명서 및 시스템에 대한 장애 조치 테스트를 포함해 프로세스 및 기술 측면을 다룹니다. 이 테스트는 기본 테이블탑 시뮬레이션 연습부터 완전한 범위의 가용성 영역 또는 리전 장애 조치 테스트에 이르기까지 다양합니다. 테스트 복잡성과 관계없이 Atlassian은 테스트 결과를 캡처 및 문서화하고 가능한 개선을 분석 및 식별한 후 Jira 티켓을 활용해 테스트를 종료하여 전체 프로세스의 지속적인 개선을 보장하기 위해 노력하고 있습니다.
신뢰할 수 있는 서비스 보장
Atlassian은 매달 고객에게 보장해야 하는 가동 시간을 정의하는 서비스 수준 계약(SLA)을 통해 신뢰성에 대한 약속을 증명합니다.
또한 복구 시간 목표(RTO) 및 복구 지점 목표(RPO)와 같은 기타 측정치도 사용합니다. Atlassian Cloud 제품의 신뢰성에 영향을 주는 계획되지 않은 이벤트가 발생하면 Atlassian은 다음 RPO 및 RTO에 따라 Cloud 제품의 정상 운영 복원을 목표로 삼을 것입니다.
RPO | 1시간 |
---|---|
RTO | 6시간 |
제품 및 서비스의 가용성을 확인하려면 Atlassian의 Statuspage를 방문하세요.
복구 능력
고가용성(HA) 아키텍처를 통해 Cloud 제품의 가용성에 영향을 미칠 수 있는 대부분의 장애 발생 시 서비스를 복원할 수 있습니다. 하지만 인프라 내의 데이터 손상 또는 삭제와 같은 더 전통적인 데이터 백업 및 복구 메커니즘을 사용해야 하는 시나리오도 있습니다.
이런 시나리오를 해결하기 위해 Atlassian에서는 포괄적인 백업 프로그램을 운영합니다. 이 프로그램에는 시스템 복구 요구 사항에 따라 백업 조치가 설계된 내부 시스템 및 Cloud 제품이 포함됩니다. 백업을 지속적으로 테스트하는 프로세스 및 도구가 마련되어 있습니다.
하지만 이 백업은 스크립트를 사용하여 재정의된 필드 또는 삭제된 이슈, 프로젝트 또는 사이트와 같이 고객이 시작한 파괴적인 변경 사항을 되돌리는 데 사용되지 않습니다. 데이터 손실을 방지하려면 정기적으로 백업하는 것이 좋습니다. 백업을 만드는 데 대한 자세한 내용은 설명서를 참조하세요.
계획되지 않은 이벤트의 영향 최소화
Atlassian의 비즈니스 복원력 팀은 건전한 비즈니스 연속성(BC) 관행을 통해 비즈니스 중단 동안 및 중단 이후에도 Atlassian의 필수 기능이 계속 작동하도록 보장하기 위해 노력합니다.
BC 프로그램은 DR 프로그램과 함께 작동하도록 설계되었으며 Atlassian의 활동은 업계 표준에 정렬된 연간 수명 주기를 기반으로 합니다. 접근 방식의 일부로 Atlassian은 사람, 프로세스, 기술을 보호하는 데 필요한 효과적인 연속성 전략을 수립하는 기반인 비즈니스 영향 분석(BIA) 프로세스를 적어도 매년 실시합니다. BIA의 산출물은 DR 및 BC 노력에 대한 전략을 추진하는 데 직접적인 도움이 됩니다. 그 결과로 Atlassian의 중요 비즈니스 서비스는 필수 기술은 물론 그 이면에 있는 사람 및 프로세스의 복구를 지원하는 효과적인 DR 및 BC 계획을 총체적으로 개발할 수 있습니다.
비즈니스 연속성 보장에 대한 Atlassian의 접근 방식
Atlassian은 3가지 보완적인 접근 방식을 통해 비즈니스 복원력 및 복구 전략의 역량 및 확신을 지속적으로 구축하기 위해 노력합니다.
- 연습: 테이블 위에서, 기능적으로 또는 전체 규모로 진행할 수 있는 기존 계획을 검토해 보고 계획에 참여하는 모든 관련자에게 비즈니스 중단 시 책임을 실천할 기회를 줍니다. 그러면 이해 관계자가 관련 연속성 계획을 자세히 검토하고 실제 위기 상황에서와 마찬가지로 절차를 따를 수 있게 합니다.
- 워(전쟁) 게임: 기존 위협 또는 가능한 위협에 대한 대응의 스트레스 테스트를 진행할 수 있도록 합니다. Atlassian은 계획에 모든 위험 요소 접근 방식을 활용하지만 워(전쟁) 게임을 통해서는 가능성이 높거나 영향력이 큰 특정 시나리오에 대한 접근 방식의 스트레스 테스트를 진행하여 대응 및 복구 전략이 견고한지 확인할 수 있습니다.
- 테스트: 합격/불합격 테스트이며 계획이 효과적인지 객관적으로 측정할 수 있습니다. 효율성을 측정하고 관리할 수 있도록 재해 복구 전략을 테스트하려는 경우에 Atlassian에서 가장 많이 사용하는 접근 방식입니다.