Spring GDS 25è Aniversari
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
La recuperació davant desastres és el pla i la maquinària per tornar els sistemes a la vida després que alguna cosa surti molt malament. Una caiguda de regió, una base de dades corrupta, un deploy que tomba producció, un cop de ransomware. És la resposta a una pregunta feta per endavant: quan això es trenqui, com el tornem a posar en marxa i quant perdem pel camí?
Dos números defineixen un pla de recuperació. El RTO, l'objectiu de temps de recuperació, és quant pots estar caigut abans que faci mal de debò. El RPO, l'objectiu de punt de recuperació, és quantes dades et pots permetre perdre, mesurat com la distància fins al teu últim backup bo. Un RTO de quatre hores i un RPO de cinc minuts descriuen sistemes molt diferents i costos molt diferents. Les estratègies van des de backups en fred que restaures a mà fins a un standby calent en una segona regió que pren el relleu de manera automàtica. Un banc que fa córrer una rèplica en directe que commuta en segons és a l'extrem exigent d'aquest rang.
La recuperació davant desastres és diferent d'un backup. Un backup és una còpia de les dades. La recuperació davant desastres és el procés provat i assajat per convertir aquesta còpia de nou en un sistema que funciona, sota pressió.
Fixem objectius realistes de RTO i RPO amb els clients abans de dissenyar res, perquè el pla correcte depèn del tot del que una caiguda els costa de debò. Un lloc de màrqueting i un sistema de pagaments no necessiten la mateixa resposta, i fingir que sí només malgasta diners o deixa un forat.
A partir d'aquí és feina concreta: backups automatitzats, failover que s'ha provat en lloc de donar per fet, i runbooks de recuperació que algú pugui seguir a les 3 de la matinada sense endevinar. Ho pleguem en l'estandardització de plataformes perquè la recuperació es comporti igual a tot l'stack, vigilem l'optimització de costos perquè la resiliència no dupliqui la factura en silenci, i fem servir el monitoratge de rendiment per atrapar la fallada abans que es converteixi en el desastre. Les empreses vénen a nosaltres després d'un ensurt. El resolem amb elles perquè el següent sigui un no-esdeveniment.
Segur que els teus sistemes tornen després d'un mal dia? Assegurem-nos-en.
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Convertir una marca en un negoci que funciona.
Mig milió de persones. Una app. Zero caos.















