Spolehlivost, dostupnost a provozuschopnost - Reliability, availability and serviceability

Spolehlivost, dostupnost a provozuschopnost (RAS), také známý jako spolehlivost, dostupnost a udržovatelnost (RAM), je počítačový hardware inženýrský termín zahrnující spolehlivostní inženýrství, vysoká dostupnost, a provozuschopnost design. Frázi původně používaly International Business Machines (IBM ) jako termín, který popisuje jejich robustnost sálové počítače.^[1]^[2]

Počítače navržené s vyššími úrovněmi RAS mají mnoho funkcí, které chrání integritu dat a pomáhají jim zůstat dostupný po dlouhou dobu bez selhání^[3] Tato integrita dat a provozuschopnost je zvláštní prodejní místo pro sálové počítače a systémy odolné vůči chybám.

Definice

Zatímco RAS vznikl jako termín orientovaný na hardware, systémové myšlení rozšířil koncept spolehlivosti-dostupnosti-provozuschopnosti na systémy obecně, včetně software.^[4]

Spolehlivost lze definovat jako pravděpodobnost, že systém bude do určité doby produkovat správné výstupy t.^[5] Spolehlivost je vylepšena funkcemi, které pomáhají předcházet, detekovat a opravovat chyby hardwaru. Spolehlivý systém tiše nepokračuje a nepřináší výsledky, které zahrnují neopravená poškozená data. Místo toho detekuje a, pokud je to možné, opravuje poškození, například: opakovaným pokusem o přechodnou operaci (měkký ) nebo občasné chyby, nebo pro neopravitelné chyby, izolaci poruchy a její nahlášení mechanismům obnovy na vyšší úrovni (které mohou převzetí služeb při selhání k nadbytečnému náhradnímu hardwaru atd.), nebo zastavením postiženého programu nebo celého systému a nahlášením poškození. Spolehlivost lze charakterizovat z hlediska střední doba mezi poruchami (MTBF), se spolehlivostí = exp (-t / MTBF).^[5]
Dostupnost znamená pravděpodobnost, že systém je v daném čase funkční, tj. doba, po kterou zařízení skutečně pracuje, jako procento z celkového času, který by měl být v provozu. Systémy s vysokou dostupností mohou hlásit dostupnost ve smyslu minut nebo hodin odstávky za rok. Funkce dostupnosti umožňují, aby systém zůstal v provozu, i když se vyskytnou poruchy. Vysoce dostupný systém by deaktivoval nefunkční část a pokračoval v provozu se sníženou kapacitou. Naproti tomu méně schopný systém může selhat a stát se zcela nefunkčním. Dostupnost se obvykle udává jako procento času, kdy se očekává, že bude systém k dispozici, např. 99,999 procent ("pět devíti ").
Provozuschopnost nebo udržitelnost je jednoduchost a rychlost, s jakou lze systém opravit nebo udržovat; pokud se čas na opravu vadného systému prodlouží, dostupnost se sníží. Provozuschopnost zahrnuje různé metody snadné diagnostiky systému v případě problémů. Včasné zjištění poruch může snížit nebo zabránit prostojům systému. Například některé podnikové systémy mohou automaticky zavolat servisní středisko (bez lidského zásahu), když dojde k poruše systému. Tradiční důraz byl kladen na provádění správných oprav s co nejmenším narušením normálního provozu.

Všimněte si rozdílu mezi spolehlivostí a dostupností: spolehlivost měří schopnost systému správně fungovat, včetně zabránění poškození dat, zatímco dostupnost měří, jak často je systém k dispozici pro použití, i když nemusí fungovat správně. Například server může běžet navždy, a proto má ideální dostupnost, ale může být nespolehlivý s častým poškozením dat.^[6]

Typy selhání

Fyzické poruchy mohou být dočasné nebo trvalé.

Trvalé poruchy vedou k pokračující chybě a jsou obvykle způsobeny některými fyzickými poruchami, jako je kov elektromigrace nebo dielektrické zhroucení.
Dočasné poruchy zahrnují přechodný a přerušovaný poruchy.
- Přechodný (aka měkký) poruchy vedou k nezávislým jednorázovým chybám a nejsou způsobeny trvalými poruchami hardwaru: příklady zahrnují částice alfa převrácení paměťového bitu, elektromagnetický šum nebo kolísání napájení.
- Občasné poruchy vznikají v důsledku slabé součásti systému, např. parametry obvodu se zhoršují, což vede k chybám, které se pravděpodobně budou opakovat.^[5]

Reakce na selhání

Přechodné a občasné poruchy lze obvykle řešit detekcí a opravou např. Kódy ECC nebo přehráním instrukcí (viz níže). Trvalé chyby povedou k neopravitelným chybám, které lze vyřešit nahrazením duplicitním hardwarem, například šetřením procesoru, nebo předáním neopravitelné chyby mechanismům obnovy na vysoké úrovni. Úspěšně opravená občasná porucha může být také hlášena do operační systém (OS) poskytovat informace pro prediktivní analýza poruch.

Hardwarové funkce

Mezi příklady hardwarových funkcí pro vylepšení RAS patří následující, seřazené podle subsystému:

Procesor:
- Detekce chyb instrukcí procesoru (např. Kontrola reziduí výsledků^[7]) s opakováním instrukce, např. alternativní obnovení procesoru v sálových počítačích IBM,^[8] nebo "Technologie přehrávání instrukcí" ve Windows Itanium systémy.^[9]
- Procesory běží krok zámku vystupovat hlavní kontrolor nebo volební schémata.
- Architektura kontroly stroje hlásit chyby do OS.
Paměť:
- Parita nebo ECC (počítaje v to korekce jednoho zařízení ) ochrana paměťových komponent (mezipaměti a systémová paměť) a paměť autobus; špatné vypnutí řádku mezipaměti; čištění paměti; šetřící paměť;^[10] špatná offline stránka; redundantní řízení bitů; redundantní pole nezávislé paměti (RAIM).
I / O:
- Kontrola cyklické redundance kontrolní součty pro přenos / opakování dat a ukládání dat, např. PCI Express (PCIe) Pokročilé hlášení chyb,^[11] redundantní I / O cesty.
Úložný prostor:
- NÁLET konfigurace pro ukládání magnetického disku.
- Systémy deníkových souborů pro opravu souborů po haváriích.
- Kontrolní součty na datech a metadatech a na pozadí drhnutí.
Napájení / chlazení:
- Duplikování komponent vyhnout se jednotlivé body selhání např. napájecí zdroje.
- Over-designing systém pro stanovené provozní rozsahy taktovací frekvence, teplota, napětí, vibrace.
- Teplotní senzory k škrcení provozní frekvence, když teplota překročí specifikaci.
- Přepěťová ochrana, nepřerušitelný zdroj energie, pomocný výkon.
Systém:
- Výměna za provozu součástí: procesory, vzpomínky
- Prediktivní analýza selhání předvídat, které občasné opravitelné chyby povedou nakonec k tvrdým neopravitelným chybám.
- Rozdělení / vytváření domén počítačových komponent, aby jeden velký systém fungoval jako několik menších systémů.
- Virtuální stroje snížit závažnost operační systém chyby softwaru.
- Redundantní I / O domény^[12] nebo I / O oddíly^[13] pro poskytování virtuálních I / O hostovaným virtuálním strojům.
- Klastrování počítačů schopnost s převzetí služeb při selhání schopnost, pro úplnost nadbytek hardwaru a softwaru.
- Dynamická aktualizace softwaru vyhnout se nutnosti restartovat systém a jádro například aktualizace softwaru Ksplice pod Linuxem.
- Nezávislý servisní procesor pro provozuschopnost: vzdálené monitorování, výstrahy a ovládání.

Odolné proti chybám rozšířil myšlenku tím, že RAS být určující vlastností jejich počítačů pro aplikace jako akciový trh burzy nebo kontrola letového provozu, kde by havárie systému byly katastrofické. Počítače odolné proti chybám (např. viz Tandemové počítače a Stratus Technologies ), které mají tendenci mít kvůli spolehlivosti duplicitní součásti spuštěné v uzamčeném kroku, se staly méně populární kvůli jejich vysokým nákladům. Systémy vysoké dostupnosti, použitím distribuované výpočty techniky jako počítačové klastry, se často používají jako levnější alternativy.^{[Citace je zapotřebí ]}

Viz také

Reference

^ Siewiorek, Daniel P .; Swarz, Robert S. (1998). Spolehlivé počítačové systémy: návrh a hodnocení. p.508.. „Zkratka RAS (spolehlivost, přístupnost a provozuschopnost) se v IBM rozšířila jako náhrada za podmnožinu pojmu správa obnovy.“
^ Divize zpracování dat, International Business Machines Corp., 1970 (1970). „Zpracovatel dat, čísla 13–17“. Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: více jmen: seznam autorů (odkaz)- "Spolehlivost [...], kterou zažívají ostatní uživatelé systému / 370, je výsledkem strategie založené na RAS (Reliability-Availability-Serviceability)"
^ Siewert, Sam (březen 2005). „Velké lekce železa, část 2: Spolehlivost a dostupnost: Jaký je rozdíl?“ (PDF).
^ Například:Laros III, James H. (2012). Energeticky efektivní vysoce výkonné výpočty: Měření a ladění. SpringerBriefs v informatice. et al. Springer Science & Business Media. p. 8. ISBN 9781447144922. Citováno 2014-07-08. Historicky byly systémy spolehlivosti dostupnosti a použitelnosti (RAS) běžně poskytovány prodejci v systémech tříd sálových počítačů. [...] Systém RAS je systematické sjednocení softwaru a hardwaru za účelem správy a monitorování všech hardwarových a softwarových komponent systému podle jejich individuálního potenciálu.
^ ^A ^b ^C E.J. McClusky & S.Mitra (2004). „Fault Tolerance“ v příručce Computer Science Handbook 2ed. vyd. A.B. Tucker. CRC Press.
^ Spencer, Richard H .; Floyd, Raymond E. (2011). Pohledy na strojírenství. Bloomington, Indiana: AuthorHouse. p. 33. ISBN 9781463410919. Citováno 2014-05-05. [...] systémový server může mít vynikající dostupnost (běží navždy), ale stále má časté poškození dat (není příliš spolehlivé).
^ Daniel Lipetz a Eric Schwarz (2011). „Samokontrola v současných jednotkách s plovoucí desetinnou čárkou. Sborník 20. sympozia IEEE o počítačové aritmetice z roku 2011“ (PDF). Archivovány od originál (PDF) dne 2012-01-24.
^ L. Spainhower & T. A. Gregg (září 1999). „IBM S / 390 paralelní podnikový server G5 odolnost proti chybám: historická perspektiva. IBM Journal of Research and Development. Svazek 43, vydání 5“ (PDF). CiteSeerX 10.1.1.85.5994.
^ „Technologie Intel Instruction Replay detekuje a opravuje chyby“. Citováno 2012-12-07.
^ HP. „Vývoj paměťových technologií: přehled systémových paměťových technologií Stručné informace o technologii, 9. vydání (strana 8)“ (PDF). Archivovány od originál (PDF) dne 24. 7. 2011.
^ Intel Corp. (2003). „PCI Express poskytuje podnikovou spolehlivost, dostupnost a provozuschopnost“.
^ „Osvědčené postupy pro spolehlivost dat se serverem Oracle VM Server pro SPARC“ (PDF). Citováno 2013-07-02.
^ „Úvahy o IBM Power Redundancy“. Citováno 2013-07-02.

externí odkazy

Funkce spolehlivosti, dostupnosti a provozuschopnosti (RAS) Itanium Přehled funkcí RAS obecně a specifické vlastnosti systému Procesor Itanium.
Systém POWER7 RAS Klíčové aspekty spolehlivosti, dostupnosti a provozuschopnosti energetických systémů. Daniel Henderson, Jim Mitchell a George Ahrens. 10. února 2012 Přehled funkcí RAS v POWER procesory.
Intel Corp. Spolehlivost, dostupnost a provozuschopnost pro Always-on Enterprise (příloha B) a Rodina procesorů Intel Xeon E7: podpora serverů RAS nové generace. Bílý papír. Přehled funkcí RAS v Xeon procesory.
Přehled systému zEnterprise 196. IBM Corp. (kapitola 10) Přehled funkcí RAS společnosti IBM procesor z196 a zEnterprise 196 serveru.
Maximalizace spolehlivosti a dostupnosti aplikací se serverem SPARC M5-32 Funkce RAS serveru Oracle SPARC M5-32

[1] Siewiorek, Daniel P .; Swarz, Robert S. (1998). Spolehlivé počítačové systémy: návrh a hodnocení. p.508.. „Zkratka RAS (spolehlivost, přístupnost a provozuschopnost) se v IBM rozšířila jako náhrada za podmnožinu pojmu správa obnovy.“

[2] Divize zpracování dat, International Business Machines Corp., 1970 (1970). „Zpracovatel dat, čísla 13–17“. Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: více jmen: seznam autorů (odkaz)- "Spolehlivost [...], kterou zažívají ostatní uživatelé systému / 370, je výsledkem strategie založené na RAS (Reliability-Availability-Serviceability)"

[3] Siewert, Sam (březen 2005). „Velké lekce železa, část 2: Spolehlivost a dostupnost: Jaký je rozdíl?“ (PDF).

[4] Například:Laros III, James H. (2012). Energeticky efektivní vysoce výkonné výpočty: Měření a ladění. SpringerBriefs v informatice. et al. Springer Science & Business Media. p. 8. ISBN 9781447144922. Citováno 2014-07-08. Historicky byly systémy spolehlivosti dostupnosti a použitelnosti (RAS) běžně poskytovány prodejci v systémech tříd sálových počítačů. [...] Systém RAS je systematické sjednocení softwaru a hardwaru za účelem správy a monitorování všech hardwarových a softwarových komponent systému podle jejich individuálního potenciálu.

[McClusky-5] A ^b ^C E.J. McClusky & S.Mitra (2004). „Fault Tolerance“ v příručce Computer Science Handbook 2ed. vyd. A.B. Tucker. CRC Press.

[6] Spencer, Richard H .; Floyd, Raymond E. (2011). Pohledy na strojírenství. Bloomington, Indiana: AuthorHouse. p. 33. ISBN 9781463410919. Citováno 2014-05-05. [...] systémový server může mít vynikající dostupnost (běží navždy), ale stále má časté poškození dat (není příliš spolehlivé).

[7] Daniel Lipetz a Eric Schwarz (2011). „Samokontrola v současných jednotkách s plovoucí desetinnou čárkou. Sborník 20. sympozia IEEE o počítačové aritmetice z roku 2011“ (PDF). Archivovány od originál (PDF) dne 2012-01-24.

[8] L. Spainhower & T. A. Gregg (září 1999). „IBM S / 390 paralelní podnikový server G5 odolnost proti chybám: historická perspektiva. IBM Journal of Research and Development. Svazek 43, vydání 5“ (PDF). CiteSeerX 10.1.1.85.5994.

[9] „Technologie Intel Instruction Replay detekuje a opravuje chyby“. Citováno 2012-12-07.

[10] HP. „Vývoj paměťových technologií: přehled systémových paměťových technologií Stručné informace o technologii, 9. vydání (strana 8)“ (PDF). Archivovány od originál (PDF) dne 24. 7. 2011.

[11] Intel Corp. (2003). „PCI Express poskytuje podnikovou spolehlivost, dostupnost a provozuschopnost“.

[12] „Osvědčené postupy pro spolehlivost dat se serverem Oracle VM Server pro SPARC“ (PDF). Citováno 2013-07-02.

[13] „Úvahy o IBM Power Redundancy“. Citováno 2013-07-02.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]