Аварийное восстановление продуктов Atlassian Data Center
Важной составляющей любого плана непрерывной работы является стратегия аварийного восстановления. В ней описаны процессы, которые необходимо выполнить в случае аварии, чтобы ваш бизнес мог восстановиться и вы могли продолжить работу.
Что такое аварийное восстановление?
Применительно к продуктам Atlassian Data Center это означает обеспечение доступности в случае выхода основного экземпляра из строя. Как правило, с этой целью мы разрабатываем стратегию холодного резервирования для всех продуктов Data Center. Иными словами, работа не должна останавливаться ни на миг, и стратегия аварийного переключения играет ключевую роль в обеспечении высокой доступности и в планировании аварийного восстановления.
Аварийное восстановление реализовано для продуктов Atlassian Data Center так, что вы можете настроить репликацию индексов, обновление вложений и синхронизацию баз данных в соответствии с требованиями своего плана аварийного восстановления.
Типы планов аварийного восстановления
ИТ-инциденты могут происходить спонтанно или по вине человека. Среди их причин — киберугрозы, человеческий фактор, ошибки в планировании и дефекты аппаратного или программного обеспечения. Как бы ни проявила себя авария, простои ведут к снижению производительности и к потере прибыли. Чем крупнее организация, тем больше команд зависят от эффективности плана аварийного восстановления.
Планы аварийного восстановления следует разработать для каждого инструмента, который используют в организации, в том числе для продуктов с самостоятельным управлением (к ним относятся, например, решения Atlassian версии Data Center) и для облачных продуктов. В последние годы популярность приобрели инструменты DRaaS (аварийное восстановление как услуга). Это сторонние сервисы репликации и хостинга, посредством которых реализуется возможность аварийного переключения на резервный экземпляр в другом местоположении.
В зависимости от используемой в организации инфраструктуры вам также может потребоваться план аварийного восстановления, охватывающий физические аспекты ИТ-инфраструктуры, сетевую инфраструктуру организации и все используемые виртуальные машины.
Преимущества плана аварийного восстановления
План аварийного восстановления — это документированный процесс быстрого восстановления критически важных бизнес-приложений после аварии. Но пока не произойдет авария, планы аварийного восстановления носят по большей части теоретический характер.
План аварийного восстановления хорош тем, что восстановление проходит быстрее, а вероятность простоя или потери данных в случае аварии сводится к минимуму.
План аварийного восстановления составляют, исходя из трех показателей: целевой точки восстановления (RPO), целевого срока восстановления (RTO) и целевой стоимости восстановления (RCO).
Целевая точка восстановления
Целевая точка восстановления определяет, насколько актуальными должны быть системы после сбоя, или какой объем данных вы можете позволить потерять в результате аварии.
Целевой срок восстановления
Целевой срок восстановления определяет, насколько скоро ваша резервная система должна стать доступной после сбоя.
Целевая стоимость восстановления
Целевая стоимость восстановления обозначает сумму, которую вы хотели бы потратить на решение для аварийного восстановления или соответствующий план.
Настройка продуктов Data Center для реализации стратегии аварийного восстановления
Настройте продукты Atlassian Data Center так, чтобы реализовать стратегию аварийного восстановления и тем самым обеспечить непрерывную работу бизнеса и соблюдение целевых сроков восстановления даже в случае выхода из строя всей системы или офиса. Благодаря Jira, Confluence и Bitbucket версии Data Center ваша команда может настроить экземпляры холодного резервирования на случай аварии.
Для начала ваша команда создаст резервную систему, но пока не будет запускать ее. Затем необходимо будет реализовать стратегию репликации данных. Создание реплики данных в резервном местоположении составляет основу стратегии холодного резервирования. Если после переключения на резервный экземпляр вы обнаружите, что он неактуален или что на повторную индексацию базы данных уйдет много времени, от него не будет толку.
Обратите внимание: пока у вас есть активная лицензия Data Center, вам не нужно приобретать дополнительные или отдельные лицензии для запуска Jira, Confluence или Bitbucket в экземпляре холодного резервирования.
Тестирование аварийного восстановления
Команды аварийно-спасательных служб, например пожарные и медики, регулярно тренируют навыки спасения. Так почему бы вашей команде не последовать их примеру? Благодаря тренировкам ваша команда получит опыт работы в стрессовой ситуации, станет более уверенной, а значит, будет быстрее и эффективнее разрешать инциденты.
Если вы хотите протестировать аварийное восстановление Jira, Confluence и Bitbucket, перед этим рекомендуем изолировать данные рабочей среды. Затем проверьте, готова ли ваша резервная система, и запустите приложение. Обязательно отслеживайте файлы журналов, чтобы выявить противоречия. После тестирования выполните сброс решения для аварийного восстановления: верните компоненты резервной системы в то состояние, в котором возможна репликация. Скорее всего, вам будет проще, если вы настроите резервную инфраструктуру заново.
Разница между непрерывной работой бизнеса и аварийным восстановлением
Термины «непрерывная работа бизнеса» и «аварийное восстановление» часто употребляют как синонимы, но они относятся к разным понятиям.
Непрерывность бизнеса
Непрерывная работа бизнеса достигается за счет стратегии, с помощью которой организация сокращает продолжительность простоев в своей работе до минимума.
Планируя непрерывную работу, в первую очередь нужно провести анализ влияния на бизнес, который должен включать оценку бизнес-функций, расстановку приоритетов между ними, а также определение возможных последствий ИТ-инцидента. В ходе анализа влияния на бизнес можно также определить максимально допустимую продолжительность простоя и целевой срок восстановления. Провести анализ влияния на бизнес важно для того, чтобы выявить потенциальные зависимости.
Следующим шагом в разработке плана непрерывной работы является оценка рисков. Организация должна проанализировать угрозы с учетом анализа влияния на бизнес и оценить вероятность и степень серьезности потенциальных аварий. Затем организация может расставить приоритеты между бизнес-процессами и провести оценку недостатков существующих политик. Оценка рисков также может подтолкнуть организацию к увеличению расходов ради достижения лучших результатов.
Аварийное восстановление
Аварийное восстановление является одним из аспектов обеспечения непрерывной работы бизнеса. Это процессы, которые организация должна выполнить в случае аварии, чтобы восстановиться и продолжить работу. В эффективном плане аварийного восстановления учитываются потребности, определенные в ходе анализа влияния на бизнес и оценки рисков.
Ресурсы, посвященные аварийному восстановлению
Bitbucket Data Center упрощает аварийное восстановление Git
Аварийное восстановление Atlassian Data Center
Руководство по аварийному восстановлению для Jira
Позаботьтесь о будущем
С помощью продуктов Atlassian Data Center вы можете обеспечить непрерывную работу бизнеса и соблюдение целевого срока восстановления даже в случае выхода из строя всей системы или офиса