Klastr převzetí služeb při selhání

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 4. srpna 2016; kontroly vyžadují 9 úprav .

Failover cluster ( anglicky  High-Availability cluster , HA cluster  - high-availability cluster ) - cluster (skupina serverů ), navržený v souladu s technikami vysoké dostupnosti a zaručující minimální prostoje kvůli hardwarové redundanci. Bez klastrování způsobí selhání serveru selhání aplikací nebo síťových služeb , které podporuje.jsou nedostupné, dokud nebudou obnoveny. Klastrování s podporou převzetí služeb při selhání tuto situaci opravuje restartováním aplikací na jiných uzlech v clusteru bez zásahu správce, pokud jsou zjištěna selhání hardwaru nebo softwaru. Proces restartování je známý jako převzetí služeb při selhání . V rámci tohoto procesu může klastrovací software dále konfigurovat uzel před spuštěním aplikace na něm (například importovat a připojit příslušné systémy souborů, překonfigurovat síťový hardware nebo spustit jakékoli pomocné aplikace).

Klastry s podporou převzetí služeb při selhání jsou široce používány pro podporu kritických databází , síťových úložišť souborů, obchodních aplikací a systémů zákaznických služeb, jako jsou stránky elektronického obchodování .

Implementace HA clusterů jsou pokusy o dosažení chybové odolnosti clusteru jako celku odstraněním kritických bodů selhání, včetně redundance výpočetního výkonu, síťových připojení a ukládání dat, kombinovaných do redundantní SAN .

Požadavky na architekturu aplikace

Ne každá aplikace může běžet ve vysoce dostupném clusterovém prostředí. Vhodná rozhodnutí by měla být přijata v rané fázi vývoje softwaru. Aby aplikace běžela v clusteru HA, musí splňovat alespoň následující technické požadavky, z nichž poslední dva jsou kritické pro její spolehlivý provoz v clusteru a které je nejobtížnější plně splnit:

Stavební schémata

Nejběžnější dvouuzlové HA clustery představují minimální konfiguraci požadovanou pro zajištění odolnosti proti chybám. Často ale clustery obsahují mnohem více, někdy i desítky uzlů. Všechny tyto konfigurace lze obecně popsat jedním z následujících modelů:

Termíny logický hostitel nebo klastrovaný logický hostitel se používají k označení síťové adresy, která se používá pro přístup ke službám poskytovaným klastrem. Logické ID hostitele není vázáno na jediný uzel clusteru. Je to vlastně síťová adresa/název, která je spojena se službou (službami) poskytovanými clusterem. Pokud dojde k výpadku uzlu clusteru, například s běžící databází, bude databáze restartována na jiném uzlu clusteru a síťová adresa, kde uživatelé přistupují k databázi, bude zachována pro jakýkoli nový uzel, takže uživatelé budou mít stále přístup k databázi.

Spolehlivost jednoho uzlu

Klastry HA kromě popsaných schémat redundance mezi uzly využívají všechny metody obvykle používané v samostatných (neklastrových) systémech a síťové infrastruktuře k maximalizaci spolehlivosti. Tyto zahrnují:

Měření doby provozuschopnosti jednotlivých uzlů pomáhají minimalizovat šance na využití nativních mechanismů klastrování při selhání. V případě aktivace posledně jmenovaného může dojít k přerušení přístupu ke službě, byť jen na krátkou dobu, a je vhodnější předcházet kritickým poruchám zařízení.

Algoritmy obnovy po selhání

Systémy, které řeší chyby v distribuovaných počítačových systémech, používají různé strategie k řešení následků selhání. Například Apache Cassandra API Hector (API) poskytuje tři možnosti pro zpracování chyb:

Pro kontrolu stavu uzlů v clusteru se obvykle z každého z uzlů přenáší nepřetržitý periodický signál („puls“, anglicky  heartbeat ) ve vnitřní síti clusteru, podle jehož přítomnosti řídící software posuzuje normální provoz. sousedních uzlů. S tím souvisí ne zcela zřejmý, ale závažný problém „split-brain_(computing)“ -  v případě současného přerušení mnoha spojení ve vnitřní síti clusteru z důvodu výpadku napájení, síťového zařízení apod. , uzel nebude schopen tuto situaci správně zvládnout, začne se chovat, jako by všechny ostatní uzly clusteru selhaly, čímž se spustí duplicitní služby, které již v clusteru běží, což může vést k poškození dat ve sdíleném úložišti.

Viz také

Poznámky

Odkazy