Close

L'approccio di Atlassian alla resilienza


Mantenere i tuoi prodotti cloud e i sistemi e servizi sottostanti che utilizzano disponibili e capaci di resistere all'impatto di eventi negativi o non pianificati è fondamentale per noi quanto lo è per te. Per fare in modo che tu possa utilizzare i tuoi prodotti tutte le volte che ne hai bisogno, abbiamo implementato tecnologie, persone e programmi in modo da garantire resilienza aziendale.

Come creare prodotti resilienti

Atlassian gestisce i propri prodotti Cloud in conformità a un modello di responsabilità condivisa. Questo significa che l'affidabilità è il risultato di una collaborazione tra te e Atlassian. In base a questo modello, abbiamo la responsabilità di garantire livelli elevati di disponibilità, affidabilità e ripristinabilità della nostra infrastruttura e dei nostri prodotti e servizi. Hai la responsabilità di implementare un programma di ripristino di emergenza e un piano di continuità aziendale che ti assicurino la capacità di condurre la tua attività qualora si verifichi un evento non pianificato.

DISPONIBILITÀ ELEVATA

Utilizziamo Amazon Web Services (AWS) come fornitore di servizi cloud e le sue strutture di data center ad alta disponibilità in più regioni del mondo. Ogni regione AWS è una posizione geografica separata con più gruppi di data center, isolati e fisicamente separati, noti come zone di disponibilità (AZ).

Ogni zona di disponibilità è progettata per essere isolata dai guasti di altre zone e per fornire una connettività di rete conveniente e a bassa latenza ad altre zone di disponibilità nella stessa regione. Questa elevata disponibilità multizona è la prima linea di difesa contro i rischi geografici e ambientali. In altre parole, i servizi eseguiti in implementazioni che coprono più zone di disponibilità devono essere in grado di sopperire a un guasto di una zona di disponibilità.

Per saperne di più, leggi la pagina sull'architettura e le pratiche operative.

Affidabilità

Atlassian si impegna a garantire che tutti i propri team forniscano servizi e prodotti affidabili. Per farlo in modo efficace, il nostro programma di ripristino di emergenza (DR) è focalizzato sull'implementazione di processi, policy e tecnologie che assicurino che i sistemi e i servizi IT critici siano disponibili, affidabili e ripristinabili rapidamente in caso di interruzione.

Oltre alle funzionalità indicate sopra, abbiamo implementato il monitoraggio e gli avvisi ed eseguito test di ripristino di emergenza.

Monitoraggio e avvisi

Monitoriamo continuamente un'ampia gamma di metriche con l'obiettivo di rilevare tempestivamente i potenziali problemi. Sulla base di tali metriche, gli avvisi sono configurati per comunicare le violazioni delle soglie agli ingegneri responsabili dell'affidabilità del sito (SRE) o ai team di progettazione dei prodotti pertinenti, affinché possano intraprendere azioni tempestive tramite il nostro processo di risposta agli imprevisti.

Gli SRE svolgono anche un ruolo chiave nel programma di ripristino di emergenza perché collaborano con il nostro team di rischio e conformità per allinearsi ai framework di conformità. Ognuno dei nostri team include anche un promotore di DR per la supervisione e la gestione degli aspetti del ripristino di emergenza correlati al team specifico.

Test del ripristino di emergenza (DR)

I nostri test di DR trattano aspetti relativi a processi e tecnologia, inclusa la documentazione di processo pertinente e test di failover sui nostri sistemi. Questi test spaziano dagli esercizi di simulazione teorica standard ai test di portata completa sulla zona di disponibilità o i failover regionali. Indipendentemente dalla complessità del test, ci adoperiamo con diligenza per acquisire e documentare i risultati, analizzare e identificare i possibili miglioramenti e poi individuare delle soluzioni con l'aiuto dei ticket Jira per garantire un miglioramento continuo del processo complessivo.

Come garantire servizi affidabili

Il nostro impegno verso l'affidabilità è dimostrato dai nostri accordi sui livelli di servizio (SLA), in cui è definita la quantità di tempo di operatività che dobbiamo garantire ai nostri clienti ogni mese.

Inoltre, utilizziamo anche altre misurazioni, come gli obiettivi del tempo di ripristino (RTO) e gli obiettivi dei punti di ripristino (RPO). Qualora si verifichi un evento imprevisto che influisce sull'affidabilità dei prodotti Atlassian Cloud, Atlassian cercherà di ripristinare la normale operatività dei suoi prodotti Cloud in conformità ai seguenti RPO e RTO:

RPO 1 ora
RTO 6 ore

Per visualizzare la disponibilità dei nostri prodotti e servizi, visita Statuspage.

Capacità di ripristino

La nostra architettura ad alta disponibilità (HA) ci consente di ripristinare il servizio nel caso della maggior parte delle interruzioni che potrebbero influire sulla disponibilità dei nostri prodotti Cloud. Ci sono alcuni scenari, tuttavia, che richiedono di utilizzare meccanismi di backup e ripristino dei dati più tradizionali, come il danneggiamento o la cancellazione dei dati all'interno della nostra infrastruttura.

Per risolvere questo tipo di problemi, gestiamo un programma di backup completo presso Atlassian. Il programma include i nostri sistemi interni e i nostri prodotti Cloud, in cui le misure di backup sono progettate in linea con i requisiti di ripristino del sistema. Disponiamo di processi e strumenti che testano continuamente i backup.

Tuttavia, questi backup non vengono utilizzati per ripristinare le modifiche distruttive avviate dal cliente, come campi sovrascritti con script o ticket, progetti e siti eliminati. Per evitare la perdita di dati, consigliamo di effettuare i backup con regolarità. Scopri di più sulla creazione di backup nella nostra documentazione.

Ridurre al minimo l'impatto degli eventi non pianificati

Il team Business Resilience di Atlassian lavora per garantire che le nostre funzioni essenziali rimangano operative durante e dopo un'interruzione dell'attività attraverso solide pratiche di continuità aziendale (BC, Business Continuity).

Il programma BC è progettato per funzionare insieme al nostro programma DR e le nostre attività si basano su un ciclo di vita annuale allineato agli standard del settore. Come parte del nostro approccio, conduciamo il nostro processo di analisi dell'impatto aziendale (BIA) almeno una volta all'anno, che è alla base della creazione di strategie di continuità efficaci necessarie per proteggere le nostre persone, i nostri processi e la nostra tecnologia. L'output di queste analisi contribuisce a dare impulso alla strategia per le attività di DR e BC. Di conseguenza, i nostri servizi aziendali critici sono in grado di sviluppare in modo olistico piani di DR e BC efficaci che aiutano non solo nel ripristino della nostra tecnologia essenziale, ma offrono anche supporto alle persone e ai processi alla base.

Il nostro approccio alla garanzia della continuità aziendale

Cerchiamo continuamente di sviluppare capacità e di garantire le nostre strategie di resilienza e ripresa aziendale attraverso tre approcci complementari:

  • Esercizi: hanno lo scopo di rivedere i piani esistenti. Possono essere teorici, funzionali o su larga scala e forniscono a tutti coloro che partecipano al piano l'opportunità di mettere in pratica le proprie responsabilità in caso di interruzione dell'attività. Consentono agli stakeholder di rivedere in dettaglio i piani di continuità pertinenti e di seguire le procedure come farebbero in una situazione di crisi reale.
  • Strategie di azione: ci consentono di sottoporre a stress test la nostra risposta a una minaccia esistente o possibile. Sebbene utilizziamo un approccio alla pianificazione basato su tutti i rischi, le strategie di azione ci consentono di mettere alla prova l'approccio che adottiamo verso scenari specifici altamente probabili o di impatto elevato per garantire che solide strategie di risposta e ripristino.
  • Test: sono di tipo superamento/non superamento e ci consentono di misurare in modo oggettivo l'efficacia dei nostri piani. È l'approccio che adottiamo in modo prevalente quando cerchiamo di testare le strategie di ripristino di emergenza, affinché possiamo misurare e gestire la nostra efficacia.