Disaster Recovery

Was ist Disaster Recovery?

Disaster Recovery ist der Plan und die Maschinerie, um Systeme zurückzuholen, nachdem etwas gründlich schiefgegangen ist. Ein Regionsausfall, eine beschädigte Datenbank, ein Deploy, der die Produktion lahmlegt, ein Ransomware-Treffer. Es ist die Antwort auf eine im Voraus gestellte Frage: Wenn das bricht, wie bringen wir es wieder zum Laufen, und wie viel verlieren wir unterwegs?

Zwei Zahlen definieren einen Wiederherstellungsplan. Das RTO, das Recovery Time Objective, ist, wie lange Sie ausfallen können, bevor es wirklich wehtut. Das RPO, das Recovery Point Objective, ist, wie viele Daten Sie verlieren können, gemessen als Abstand zurück zu Ihrem letzten guten Backup. Ein RTO von vier Stunden und ein RPO von fünf Minuten beschreiben sehr unterschiedliche Systeme und sehr unterschiedliche Kosten. Die Strategien reichen von Cold Backups, die Sie von Hand zurückspielen, bis zu einem Hot Standby in einer zweiten Region, der automatisch übernimmt. Eine Bank, die ein Live-Replikat fährt, das in Sekunden umschaltet, liegt am anspruchsvollen Ende dieser Spanne.

Disaster Recovery ist etwas anderes als ein Backup. Ein Backup ist eine Kopie der Daten. Disaster Recovery ist der getestete, eingeübte Prozess, diese Kopie unter Druck wieder in ein funktionierendes System zu verwandeln.

Disaster Recovery bei Dallonses

Wir setzen realistische RTO- und RPO-Ziele mit Kunden, bevor wir irgendetwas entwerfen, denn der richtige Plan hängt vollständig davon ab, was ein Ausfall sie wirklich kostet. Eine Marketing-Website und ein Zahlungssystem brauchen nicht dieselbe Antwort, und so zu tun verschwendet nur Geld oder lässt eine Lücke.

Von dort ist es konkrete Arbeit: automatisierte Backups, Failover, das getestet statt angenommen wurde, und Wiederherstellungs-Runbooks, denen jemand um 3 Uhr morgens ohne Raten folgen kann. Wir fügen das in die Plattformstandardisierung ein, damit Wiederherstellung sich über den ganzen Stack gleich verhält, achten auf Kostenoptimierung, damit Resilienz nicht still die Rechnung verdoppelt, und nutzen Performance-Monitoring, um den Fehler abzufangen, bevor er zur Katastrophe wird. Unternehmen kommen nach einem Schreck zu uns. Wir arbeiten ihn mit ihnen durch, damit der nächste ein Nicht-Ereignis ist.

Sicher, dass Ihre Systeme nach einem schlechten Tag zurückkommen? Gehen wir auf Nummer sicher.

Sprechen wir über Resilienz