Подход Atlassian к отказоустойчивости
Обеспечение доступности ваших облачных продуктов, а также систем и сервисов, которые они используют, и их способности противостоять негативным или незапланированным событиям для нас не менее важно, чем для вас. Чтобы ваши продукты всегда были готовы к работе в нужное время, мы задействовали технологии, персонал и программы, обеспечивающие отказоустойчивость бизнеса.
Создание устойчивых продуктов
Облачные продукты Atlassian работают в рамках модели совместной ответственности. Это значит, что за достижение отказоустойчивости вы и компания Atlassian отвечаете в равной мере. Согласно этой модели мы отвечаем за гарантию высокой доступности, надежности и возможности восстановления нашей инфраструктуры, продуктов и услуг. Ваша зона ответственности — внедрение программы аварийного восстановления и плана непрерывной работы, гарантирующих возможность восстановления работоспособности вашего бизнеса в случае непредвиденного события.
БЕСПЕРЕБОЙНАЯ РАБОТА
Поставщик облачных услуг Atlassian — компания Amazon Web Services (AWS). Atlassian использует высокодоступные центры обработки данных AWS в нескольких регионах мира. Каждый регион AWS представляет собой отдельное географическое местоположение с несколькими изолированными и физически разделенными группами центров обработки данных — так называемыми зонами доступности (AZ).
Каждая зона доступности проектируется так, чтобы не зависеть от сбоев в других зонах и поддерживать экономичное сетевое соединение с низкой задержкой с другими зонами доступности своего региона. Такая высокая доступность, достигаемая за счет многозональности, служит первой линией защиты от рисков, связанных с географией и средой. Службы, работающие в многозональных развертываниях, сохраняют работоспособность при отказе отдельных зон доступности.
Чтобы получить дополнительную информацию, см. страницу об архитектуре и методах работы.
Надежность
Atlassian неизменно стремится к тому, чтобы все наши команды предоставляли надежные услуги и продукты. Для эффективного решения этой задачи мы ориентировали свою программу аварийного восстановления (DR) на внедрение процессов, политик и технологий, гарантирующих доступность, надежность и возможность быстрого восстановления особо важных ИТ-систем и услуг в случае отказа.
В дополнение к перечисленным выше возможностям мы внедрили мониторинг и оповещение, а также тестируем механизмы аварийного восстановления.
Мониторинг и оповещения
Мы непрерывно отслеживаем широкий спектр показателей, чтобы как можно раньше обнаружить потенциальные проблемы. Эти показатели используются для настройки оповещений для инженеров по обеспечению надежности сайта (SRE) или соответствующих команд по проектированию продукта. При превышении порогового значения показателей незамедлительно принимаются меры согласно процедуре реагирования на инциденты.
Кроме того, команда SRE играет ведущую роль в программе DR, совместно с командой по управлению рисками и обеспечению соответствия требованиям работая над соблюдением принципов соответствия требованиям. Каждая из наших команд включает эксперта по DR, который помогает ее участникам в управлении аварийным восстановлением в рамках их функциональных обязанностей, а также контролирует этот процесс.
Тесты аварийного восстановление (DR)
Тестирование DR охватывает различные аспекты процессов и технологий, в том числе документирование нужных процессов и тестирование аварийного переключения систем. Такое тестирование может варьироваться от стандартного обсуждения моделируемой ситуации до полной проверки аварийного переключения в зонах доступности и регионах. Результаты тестирования тщательно фиксируются и документируются независимо от сложности. Проводится их анализ и выявляются возможности для улучшения, которые затем обрабатываются в виде заявок Jira. Благодаря этому весь процесс непрерывно совершенствуется.
Гарантия надежных услуг
В подтверждение нашего стремления к надежности мы заключаем соглашения об уровнях обслуживания (SLA). В них устанавливается время безотказной работы, которое мы обязуемся ежемесячно гарантировать нашим клиентам.
Кроме того, мы используем и другие значения, такие как целевое время восстановления (RTO) и целевые точки восстановления (RPO). В случае непредвиденного события, отражающегося на надежности облачных продуктов Atlassian, компания Atlassian будет стремиться восстановить нормальную работу своих облачных продуктов в соответствии со следующими значениями RPO и RTO:
RPO | 1 час |
---|---|
RTO | 6 часов |
Чтобы узнать о доступности наших продуктов и услуг, посетите Statuspage.
Восстанавливаемость
Наша архитектура высокой доступности (HA) позволяет восстанавливать обслуживание в большинстве случаев сбоев, которые могут повлиять на доступность наших облачных продуктов. Однако в некоторых сценариях необходимо использовать более традиционные механизмы резервного копирования и восстановления данных, например при повреждении или удалении данных внутри нашей инфраструктуры.
Для решения этих проблем в Atlassian используется комплексная программа резервного копирования. Эта программа охватывает внутренние системы и облачные продукты, средства резервного копирования которых соответствуют требованиям к восстановлению работоспособности систем. Наши процессы и инструменты постоянно тестируют резервные копии.
Однако эти резервные копии не используются для восстановления данных, уничтоженных клиентами, в том числе в результате перезаписи полей с помощью скриптов, удаления задач, проектов или сайтов. Во избежание потери данных рекомендуется выполнять регулярное резервное копирование. Подробнее о создании резервных копий читайте в нашей документации.
Снижение влияния незапланированных событий к минимуму
Команда Atlassian по устойчивости бизнеса обеспечивает работоспособность основных функций во время и после дестабилизации бизнеса посредством надежных методов обеспечения непрерывности бизнеса (BC).
Программа BC разработана для использования совместно с нашей программой DR, а наша деятельность основана на ежегодном жизненном цикле, соответствующем отраслевым стандартам. В рамках своего подхода мы анализируем влияние на бизнес (BIA) не реже одного раза в год. Этот процесс является основой для создания эффективных стратегий обеспечения непрерывности, необходимых для защиты наших сотрудников, процессов и технологий. Результаты BIA используются для определения стратегии по обеспечению DR и BC. В результате наши важнейшие бизнес-сервисы могут разрабатывать комплексные эффективные планы DR и BC, которые способствуют восстановлению как основной технологии, так и соответствующего персонала и процессов.
Наш подход к обеспечению непрерывности бизнеса
Мы постоянно стремимся усилить наши стратегии обеспечения отказоустойчивости бизнеса и восстановления после аварий с помощью трех взаимодополняющих методов.
- Тренировки. Цель — пересмотр действующих планов. Могут быть теоретическими, практическими или полномасштабными. Каждый участник, задействованный в плане, получает возможность полностью выполнить свои обязанности в случае дестабилизации бизнеса. Заинтересованные стороны могут тщательно проанализировать соответствующие планы непрерывности и выполнить инструкции, как в случае реального сбоя.
- Учения. Позволяют провести стресс-тест нашей реакции на реальную или возможную угрозу. Хотя мы стараемся планировать действия на случай любого риска, учения позволяют испытать на прочность наши стратегии реагирования и восстановления для конкретных угроз с высокой вероятностью или последствиями.
- Тесты. Работают по принципу «прошел / не прошел» и позволяют объективно измерить эффективность наших планов. Именно таким способом мы обычно проверяем свои стратегии аварийного восстановления для измерения и повышения эффективности.