Porozumění terminologii zotavení po havárii – RTO, RPO, Failover, BCP a další

Plán obnovy po katastrofě představuje klíčový prvek, který by každá organizace měla mít zavedený ještě předtím, než dojde k nějaké nečekané události.

V oblasti IT se jedná především o vypracování formálního dokumentu, který specifikuje plány, kroky a postupy pro efektivní řešení krizových situací a jejich následků.

Katastrofa je definována jako náhlá a nepředvídatelná událost, která může mít mnoho podob. Jakmile k ní dojde, jednotlivci i organizace se musí vypořádat s celou řadou problémů, včetně finančních ztrát a negativního dopadu na uživatelskou zkušenost.

V případě útoku je nezbytné být připraven minimalizovat jeho důsledky a co nejrychleji obnovit provoz. Právě zde se uplatní dobře zpracovaný plán obnovy po katastrofě, který vám pomůže tyto situace efektivně zvládnout. Dokáže omezit dopad na uživatelskou zkušenost, minimalizovat finanční ztráty a prostojů.

Pro úspěšné obnovení provozu je klíčové mít připravené plány, proškolený personál, strategie, potřebné vybavení a systémy. K tomu je však nutné hluboké porozumění procesu obnovy po katastrofě.

V tomto článku se podrobně podíváme na tuto problematiku, včetně klíčové terminologie. Díky tomu se budete moci efektivněji bránit a posílit svou pozici v takovýchto nepříznivých situacích.

Začněme!

Co je to katastrofa?

Katastrofou rozumíme nepředvídatelnou událost, která se může stát kdekoliv, včetně IT sektoru. Může jít o důsledek přírodních jevů, lidské činnosti nebo kombinace obou. Tyto události narušují běžný chod společnosti a mohou poškodit její infrastrukturu.

V důsledku katastrofy jsou zasaženy organizace, její zákazníci, dodavatelé, zaměstnanci a partneři. To vytváří značný tlak na finance, reputaci, důvěru zákazníků a celkovou bezpečnost firmy.

Proto je klíčové být na takovéto scénáře předem připraven. To zahrnuje okamžitou obnovu všech operací a dat, aby bylo možné co nejrychleji znovu poskytovat služby zákazníkům.

Katastrofy mohou mít mnoho podob. Mezi nejčastější patří kybernetické útoky, sabotáže, teroristické útoky, ransomware nebo fyzické hrozby, jako jsou hurikány, zemětřesení, požáry, záplavy, průmyslové havárie, výpadky elektřiny a mnohé další.

Co je myšleno obnovou po katastrofě?

Obnova po katastrofě je proces obnovení normálního provozu po události, která narušila chod společnosti. Zahrnuje obnovení přístupu k hardwaru, softwaru, vybavení, konektivitě, sítím, napájení a datům. Důležité je mít definované a dokumentované procesy a postupy, které pomohou organizaci připravit se na případnou krizi.

Pokud dojde ke zničení zařízení, může být potřeba rozšířit obnovu o další oblasti, jako je komunikace, doprava, zajištění zdrojů, pracoviště a další.

Proč je důležitý plán obnovy po katastrofě?

Zpracování kvalitního plánu obnovy po katastrofě, ať už se jedná o přírodní katastrofu nebo událost způsobenou lidmi, je pro každou společnost v IT sektoru zcela nezbytné. Je nutné zajistit, aby byly k dispozici vhodné zdroje a nástroje pro plynulé provedení tohoto plánu.

Pojďme se podrobněji podívat na to, proč je obnova po katastrofě tak klíčová.

Omezení škod

Katastrofy jsou nepředvídatelné. Nikdo nemůže s jistotou říct, kdy a jak se objeví. Nicméně, důkladná příprava vám umožní minimalizovat škody způsobené na vaší infrastruktuře.

Například v oblastech s rizikem záplav je vhodné umístit klíčové dokumenty a vybavení do vyšších pater, aby se zabránilo jejich poškození.

Podobně důležité je pravidelně zálohovat data, abyste se chránili před kybernetickými útoky, které mohou vést k úniku či ztrátě dat.

Obnovení služeb

Pokud máte kvalitní plán obnovy po katastrofě, je obnovení všech služeb zpět do normálního stavu rychlé a snadné. To znamená, že můžete v krátké době obnovit všechny důležité aktiva a služby.

Minimalizace přerušení

Nemůžete s jistotou vědět, co se stane v budoucnu. S dobře zpracovaným plánem obnovy se ale nemusíte obávat následků. Vaše infrastruktura bude moci pokračovat v provozu s minimálním přerušením.

Školení a příprava

IT infrastruktura je spravována mnoha pracovníky. Každý z nich musí být informován o postupech obnovy, aby v případě nouze jednali rychle a efektivně podle stanovených pokynů.

Kvalitní příprava snižuje stres u všech, kteří jsou s organizací spojeni. Navíc můžete zaměstnance proškolit, aby byli schopni přijmout nezbytná opatření, pokud dojde k neočekávané události.

Terminologie obnovy po katastrofě

Podívejme se blíže na terminologii, abychom lépe pochopili proces obnovy po katastrofě.

RTO

Recovery Time Objective (RTO) definuje maximální dobu, kterou si organizace může dovolit, aby byla mimo provoz, aniž by to mělo zásadní dopad na její finanční stabilitu.

Při definování RTO je nutné brát v úvahu prostoj, který může mít negativní vliv na organizaci v mnoha ohledech. RTO se využívá k návrhu efektivních strategií pro obnovení provozu i po katastrofě. Zákazníci se často ptají, jak dlouho bude trvat, než se aplikace vrátí do provozu – a právě RTO je odpovědí na tuto otázku.

Příklad: Pokud provozujete online transakční platformu, jako je PayPal nebo Pioneer, budete muset mít velmi rychlé RTO, abyste minimalizovali dopad na uživatele.

Jinými slovy, společnost stanoví RTO například na jednu nebo dvě hodiny, aby se vyhnula finančním ztrátám nebo poškození dat.

RPO

Recovery Point Objective (RPO) představuje maximální množství ztracených dat, které je organizace schopna akceptovat z hlediska času a objemu informací.

Zní to složitě?

Představte si například databázi, která zaznamenává bankovní transakce, včetně převodů, plateb a dalších operací. Při katastrofě je databáze obnovena z poslední zálohy. Rozdíl mezi stavem databáze před katastrofou a po obnově je v tomto případě RPO.

Některé společnosti mohou akceptovat obnovení dat z 24 hodin staré zálohy, pro jiné je tato situace katastrofální. Je proto důležité nastavit RPO dle potřeb vaší organizace. Může to zahrnovat zvýšení frekvence zálohování, přidání záložní databáze a další opatření.

Failover

Představte si, že cestujete autem na dlouhou vzdálenost. Z ničeho nic vám praskne pneumatika. Díky náhradní pneumatice a nástrojům pro výměnu ale můžete rychle pokračovat v cestě.

Failover funguje na podobném principu.

Znamená to, že během katastrofy potřebujete záložní připojení. Jednoduše řečeno, failover zahrnuje záložní sítě a systémy, které můžete použít pro přepnutí dat do systému obnovy v případě havárie.

Failover zajišťuje plynulý provoz vašich služeb i v případě selhání infrastruktury nebo hardwaru. Můžete tak zabránit ztrátě dat, finančním ztrátám a přerušení služeb pro vaše koncové uživatele.

Failover můžete nastavit manuálně nebo automaticky. V tomto druhém případě se data automaticky přesunou na záložní server.

Failback

Failback je proces, při kterém se původní produkce po zvládnutí katastrofy vrací na své původní místo. Během útoku společnosti implementují failover, díky kterému se všechna pracovní zatížení přenesou na repliku virtuálního počítače nebo záložní systém.

Návrat zpět by neměl být přeskakován. Když je vše obnoveno, je nutné přenést veškerá pracovní zatížení zpět na jejich původní virtuální počítače nebo systémy. Tento proces se nazývá failback a představuje návrat k původnímu stavu.

Failback se také používá pro plánovanou údržbu. Obecně platí, že failover je vždy následován failbackem. Jde tedy o dva kroky obnovy důležitých dat. Failback může probíhat mezi cloudovými prostředími, on-premise servery, cloudem a on-premise servery, nebo jakoukoliv jejich kombinací.

DR

Disaster Recovery (DR), neboli obnova po havárii, je proces, v rámci kterého jsou předem připravené plány pro obnovení aktiv v určitém časovém rámci.

DR umožňuje organizacím rychle reagovat a obnovit všechny služby po neočekávané události. Součástí DR je formální dokumentace, která obsahuje instrukce pro okamžité kroky v případě nouze.

BCP

Business Continuity Plan (BCP) je jeden z nejběžnějších plánů obnovy po havárii, který pomáhá IT infrastruktuře vyvíjet strategie pro řešení výpadků IT systémů, mobilních zařízení, počítačů a sítí.

BCP se liší od DR tím, že BCP se zaměřuje na obnovu podnikového softwaru a produktivity tak, aby odpovídaly potřebám společnosti.

V rámci BCP se vytváří systém obnovy k překonání potencionálních hrozeb, jako jsou kybernetické útoky nebo přírodní katastrofy. Cílem BCP je zajistit bezpečí a rychlé obnovení všech služeb po incidentu.

BCM

Business Continuity Management (BCM) je proces řízení rizik, který slouží jako štít proti hrozbám pro podnikové procesy. BCM navazuje na BCP a ověřuje, zda jsou plány obnovy adekvátní a zda všichni ve společnosti dokážou okamžitě reagovat a obnovit všechny důležité systémy.

BCM slouží jako rámec pro identifikaci rizik, kterým čelí infrastruktura z důvodu interních i externích hrozeb. Pravidelným testováním se ověřuje efektivita tohoto rámce s cílem zlepšit předvídatelnost, snížit rizika a optimalizovat plány do budoucna.

BIA

Business Impact Analysis (BIA) je proces, který analyzuje potenciální dopad katastrofy na klíčové systémy, operace a procesy společnosti. BIA předpovídá důsledky události ještě před tím, než k ní skutečně dojde, a shromažďuje informace potřebné k vytvoření účinných strategií obnovy. Také identifikuje finanční náklady spojené s výpadky, jako jsou náklady na náhradu zařízení, ztrátu příjmu, výplaty zaměstnanců a další.

Při vytváření BIA je nutné vzít v úvahu klíčové obchodní procesy, dopad výpadků na různé oblasti, přijatelnou dobu výpadku, tolerovatelné oblasti, finanční náklady a další.

Call Tree

Call Tree, neboli strom volání, je proces vytváření seznamu zaměstnanců, které je nutné kontaktovat v případě nouze. Jedná se o postup, který má stromovou strukturu.

Během katastrofy jedna osoba kontaktuje malou skupinu členů s naléhavou zprávou, tito zaměstnanci volají dalším skupinám a tak dále. Tímto způsobem jsou všichni zaměstnanci včas informováni a mohou zahájit kroky, které jim byly přiděleny, aby včas obnovili veškeré funkce a procesy. Vytvoření seznamu je jednoduché, ale jeho realizace v reálném čase může způsobit zmatek.

Je nutné pravidelně provádět testovací hovory, aby byli všichni členové krizového týmu v pohotovosti. Testy pomohou odhalit změněná nebo chybějící kontaktní údaje, které by mohly mít dopad na výkon celého systému.

Strom volání obsahuje informace, které se použijí v případě nouze k doručení pokynů. Lze ho sestavit ručně, ale automatizace usnadňuje a urychluje celý proces.

Command Center/Control Center

Je to virtuální nebo fyzické zařízení, které slouží k řízení plánů obnovy během krize. Komunikuje s týmem s cílem řídit systémy a funkce během katastrofy.

Dříve se infrastruktura spoléhala na řídicí centra, která řešila krize bez adekvátního přístupu. Dnes mají organizace dobře navržená řídicí centra, která umožňují okamžitou reakci.

Jakmile velitelské centrum zaznamená katastrofu, rychle přejde do fáze obnovy. Slouží jako reportovací místo pro služby, tisk, dodávky a další. Během krizových situací sjednocuje pracovníky z různých oddělení.

Reakce na incident

Reakce na incident je postup, který se používá k řešení kybernetických útoků. Provádí se s pomocí správných postupů a proškolených pracovníků, aby se co nejefektivněji ochránila síť a data.

Pokud má organizace připravený plán reakce na incidenty, může zabezpečit svá data před hrozbami v reálném čase. Specializovaní pracovníci neustále monitorují bezpečnostní hrozby a v případě incidentu rychle a efektivně reagují. Přijímají potřebná opatření k ochraně dat a k zajištění hladké obnovy po katastrofě.

Nejprve je důležité určit kritická data a uložit je do cloudu nebo na jiné vzdálené místo. Dále je nutné pravidelně aktualizovat plány reakce na incidenty, aby odrážely aktuální stav infrastruktury a vyvíjející se kybernetické hrozby.

Záloha

Zálohovací řešení pomáhají IT infrastruktuře udržovat kopie dat a bezpečně je ukládat. Pokud dojde k poškození databáze, náhodnému smazání dat nebo jinému problému, je nutné mít možnost data ze zálohy co nejrychleji obnovit.

Zálohování zahrnuje replikaci souborů a jejich uložení na bezpečné místo, aby byla všechna data přístupná po mimořádné události. Doporučuje se zálohovat data na více místech, aby bylo možné je obnovit i v případě, že jedno z úložišť selže.

Odolnost

Schopnost komunit, států, organizací a jednotlivců odolat katastrofě, aniž by došlo k zásadnímu ohrožení služeb a systémů, se nazývá odolnost vůči katastrofám.

Organizace musí být připravena odolat stresu kvůli různým rizikům. Místo čekání na pomoc by měla organizace mít schopnost minimalizovat ztráty lepším plánováním. To vám umožní efektivně zvládat katastrofy a obnovit IT infrastrukturu.

Hlavním cílem je zachovat a obnovit základní funkce a struktury ve správný čas. Chcete-li vybudovat odolnou organizaci, musíte se předem připravit a mít schopnost předvídat rizika, přizpůsobovat se změnám, sdílet znalosti, integrovat různá oddělení a řídit úrovně rizik.

SLA

Service Level Agreement (SLA) je dohoda o úrovni poskytovaných služeb, která zákazníkům sděluje, jak dlouho bude trvat obnovení služeb v případě nouze.

SLA zaručuje zákazníkům, že jejich data jsou v bezpečí a nejsou ohrožena nebo sdílena s třetími stranami. Jedná se o kontaktní bod pro zákazníky v případě problémů.

Každá IT infrastruktura by měla zákazníkům garantovat SLA. Je důležité o SLA s koncovými uživateli předem komunikovat.

SPOF

Single Point of Failure (SPOF) je zařízení, jednotlivec, zdroj nebo aplikace, na kterou je napojeno mnoho dalších systémů nebo aplikací.

Pokud dojde k výpadku tohoto SPOF, selžou s ním i všechny systémy, které jsou na něj napojeny. To negativně ovlivní celý proces a obchodní operace.

Proto je klíčové mít strategii, jak tyto problémy zvládnout. Prvním krokem je identifikovat zařízení nebo systém, který může ovlivnit největší část infrastruktury. Následně proveďte analýzu dopadu na podnikání a vyhodnoťte rizika.

Jakmile máte seznam všech SPOF, klasifikujte je podle procesu obnovy:

SPOF lze snadno obnovit s minimálními náklady a časem.
Obnova SPOF by byla obtížná, ale existuje spolehlivý proces pro jeho obnovu.
SPOF nelze obnovit.

Podle kategorie pak můžete adekvátně jednat.

Obnova systému

Během selhání hardwaru je nutné spustit proces obnovy, aby se systém nebo server vrátil do původního stavu. Pro úspěšnou obnovu je nutné mít připravené požadavky na obnovu, zálohy, kompatibilitu firmwaru a kompatibilitu hardwaru.

Obnova systému je proces, který resetuje počítač do předchozího nastavení nebo do stavu, v jakém byl při prvním spuštění. Tímto způsobem lze odstranit všechny virové infekce způsobené nainstalovaným softwarem nebo aplikacemi.

Tento proces zahrnuje plánování obnovy IT infrastruktury, které stanovuje a dodržuje postupy pro zajištění dostupnosti dat i v případě poruch způsobených člověkem nebo přírodou.

Obnovení systému

Obnovení systému je nástroj, který umožňuje obnovit soubory a informace do předchozího stavu.

S pomocí obnovení systému lze obnovit klíče registru, nainstalované programy, ovladače, systémové soubory a další. Tento nástroj pomůže při mnoha krizových situacích.

Testovací plán

Testovací plán je dokument, který obsahuje informace o testovací strategii, odhadech, zdrojích, termínech, cílech a harmonogramech. Slouží jako plán pro spouštění testů, které ověřují bezpečnost hardwaru a softwaru.

Testovací plán zahrnuje různé testy, které ověřují kroky pro zvládnutí katastrofy. Pravidelné testování je klíčové k tomu, aby organizace věděla o případných nedostatcích v plánu obnovy a byla připravena na krizové situace.

Závěr

Nikdo nemůže s jistotou říct, kdy dojde ke katastrofě. Proto jsou adekvátní bezpečnostní opatření nezbytná pro každé podnikání.

Terminologie obnovy po katastrofě vám pomůže pochopit, jak reagovat na útoky a katastrofy. Pomůže vám připravit se předem, abyste mohli efektivněji ochránit svou infrastrukturu. Díky tomu budete schopni vytvořit strategii obnovy v reálném čase a ušetřit tak miliony dolarů a udržet si důvěru zákazníků.