Recuperación ante desastres

¿Qué es la recuperación ante desastres?

La recuperación ante desastres es el plan y la maquinaria para devolver los sistemas a la vida después de que algo salga muy mal. Una caída de región, una base de datos corrupta, un deploy que tumba producción, un golpe de ransomware. Es la respuesta a una pregunta hecha por adelantado: cuando esto se rompa, ¿cómo lo volvemos a poner en marcha y cuánto perdemos por el camino?

Dos números definen un plan de recuperación. El RTO, el objetivo de tiempo de recuperación, es cuánto puedes estar caído antes de que duela de verdad. El RPO, el objetivo de punto de recuperación, es cuántos datos te puedes permitir perder, medido como la distancia hasta tu último backup bueno. Un RTO de cuatro horas y un RPO de cinco minutos describen sistemas muy distintos y costes muy distintos. Las estrategias van desde backups en frío que restauras a mano hasta un standby caliente en una segunda región que toma el relevo de forma automática. Un banco que corre una réplica en vivo que conmuta en segundos está en el extremo exigente de ese rango.

La recuperación ante desastres es distinta de un backup. Un backup es una copia de los datos. La recuperación ante desastres es el proceso probado y ensayado para convertir esa copia de vuelta en un sistema que funciona, bajo presión.

La recuperación ante desastres en Dallonses

Fijamos objetivos realistas de RTO y RPO con los clientes antes de diseñar nada, porque el plan correcto depende por completo de lo que una caída les cuesta de verdad. Un sitio de marketing y un sistema de pagos no necesitan la misma respuesta, y fingir que sí solo malgasta dinero o deja un hueco.

A partir de ahí es trabajo concreto: backups automatizados, failover que se ha probado en vez de dar por hecho, y runbooks de recuperación que alguien pueda seguir a las 3 de la madrugada sin adivinar. Lo plegamos en la estandarización de plataformas para que la recuperación se comporte igual en todo el stack, vigilamos la optimización de costes para que la resiliencia no duplique la factura en silencio, y usamos el monitoreo de rendimiento para atrapar el fallo antes de que se convierta en el desastre. Las empresas vienen a nosotros tras un susto. Lo resolvemos con ellas para que el siguiente sea un no-evento.

¿Seguro que tus sistemas vuelven tras un mal día? Asegurémonos.

Hablemos de resiliencia