Spolehlivost, dostupnost a provozuschopnost - Reliability, availability and serviceability

Spolehlivost, dostupnost a provozuschopnost (RAS), také známý jako spolehlivost, dostupnost a udržovatelnost (RAM), je počítačový hardware inženýrský termín zahrnující spolehlivostní inženýrství, vysoká dostupnost, a provozuschopnost design. Frázi původně používaly International Business Machines (IBM ) jako termín, který popisuje jejich robustnost sálové počítače.[1][2]

Počítače navržené s vyššími úrovněmi RAS mají mnoho funkcí, které chrání integritu dat a pomáhají jim zůstat dostupný po dlouhou dobu bez selhání[3] Tato integrita dat a provozuschopnost je zvláštní prodejní místo pro sálové počítače a systémy odolné vůči chybám.

Definice

Zatímco RAS vznikl jako termín orientovaný na hardware, systémové myšlení rozšířil koncept spolehlivosti-dostupnosti-provozuschopnosti na systémy obecně, včetně software.[4]

  • Spolehlivost lze definovat jako pravděpodobnost, že systém bude do určité doby produkovat správné výstupy t.[5] Spolehlivost je vylepšena funkcemi, které pomáhají předcházet, detekovat a opravovat chyby hardwaru. Spolehlivý systém tiše nepokračuje a nepřináší výsledky, které zahrnují neopravená poškozená data. Místo toho detekuje a, pokud je to možné, opravuje poškození, například: opakovaným pokusem o přechodnou operaci (měkký ) nebo občasné chyby, nebo pro neopravitelné chyby, izolaci poruchy a její nahlášení mechanismům obnovy na vyšší úrovni (které mohou převzetí služeb při selhání k nadbytečnému náhradnímu hardwaru atd.), nebo zastavením postiženého programu nebo celého systému a nahlášením poškození. Spolehlivost lze charakterizovat z hlediska střední doba mezi poruchami (MTBF), se spolehlivostí = exp (-t / MTBF).[5]
  • Dostupnost znamená pravděpodobnost, že systém je v daném čase funkční, tj. doba, po kterou zařízení skutečně pracuje, jako procento z celkového času, který by měl být v provozu. Systémy s vysokou dostupností mohou hlásit dostupnost ve smyslu minut nebo hodin odstávky za rok. Funkce dostupnosti umožňují, aby systém zůstal v provozu, i když se vyskytnou poruchy. Vysoce dostupný systém by deaktivoval nefunkční část a pokračoval v provozu se sníženou kapacitou. Naproti tomu méně schopný systém může selhat a stát se zcela nefunkčním. Dostupnost se obvykle udává jako procento času, kdy se očekává, že bude systém k dispozici, např. 99,999 procent ("pět devíti ").
  • Provozuschopnost nebo udržitelnost je jednoduchost a rychlost, s jakou lze systém opravit nebo udržovat; pokud se čas na opravu vadného systému prodlouží, dostupnost se sníží. Provozuschopnost zahrnuje různé metody snadné diagnostiky systému v případě problémů. Včasné zjištění poruch může snížit nebo zabránit prostojům systému. Například některé podnikové systémy mohou automaticky zavolat servisní středisko (bez lidského zásahu), když dojde k poruše systému. Tradiční důraz byl kladen na provádění správných oprav s co nejmenším narušením normálního provozu.

Všimněte si rozdílu mezi spolehlivostí a dostupností: spolehlivost měří schopnost systému správně fungovat, včetně zabránění poškození dat, zatímco dostupnost měří, jak často je systém k dispozici pro použití, i když nemusí fungovat správně. Například server může běžet navždy, a proto má ideální dostupnost, ale může být nespolehlivý s častým poškozením dat.[6]

Typy selhání

Fyzické poruchy mohou být dočasné nebo trvalé.

  • Trvalé poruchy vedou k pokračující chybě a jsou obvykle způsobeny některými fyzickými poruchami, jako je kov elektromigrace nebo dielektrické zhroucení.
  • Dočasné poruchy zahrnují přechodný a přerušovaný poruchy.
    • Přechodný (aka měkký) poruchy vedou k nezávislým jednorázovým chybám a nejsou způsobeny trvalými poruchami hardwaru: příklady zahrnují částice alfa převrácení paměťového bitu, elektromagnetický šum nebo kolísání napájení.
    • Občasné poruchy vznikají v důsledku slabé součásti systému, např. parametry obvodu se zhoršují, což vede k chybám, které se pravděpodobně budou opakovat.[5]

Reakce na selhání

Přechodné a občasné poruchy lze obvykle řešit detekcí a opravou např. Kódy ECC nebo přehráním instrukcí (viz níže). Trvalé chyby povedou k neopravitelným chybám, které lze vyřešit nahrazením duplicitním hardwarem, například šetřením procesoru, nebo předáním neopravitelné chyby mechanismům obnovy na vysoké úrovni. Úspěšně opravená občasná porucha může být také hlášena do operační systém (OS) poskytovat informace pro prediktivní analýza poruch.

Hardwarové funkce

Mezi příklady hardwarových funkcí pro vylepšení RAS patří následující, seřazené podle subsystému:

Odolné proti chybám rozšířil myšlenku tím, že RAS být určující vlastností jejich počítačů pro aplikace jako akciový trh burzy nebo kontrola letového provozu, kde by havárie systému byly katastrofické. Počítače odolné proti chybám (např. viz Tandemové počítače a Stratus Technologies ), které mají tendenci mít kvůli spolehlivosti duplicitní součásti spuštěné v uzamčeném kroku, se staly méně populární kvůli jejich vysokým nákladům. Systémy vysoké dostupnosti, použitím distribuované výpočty techniky jako počítačové klastry, se často používají jako levnější alternativy.[Citace je zapotřebí ]

Viz také

Reference

  1. ^ Siewiorek, Daniel P .; Swarz, Robert S. (1998). Spolehlivé počítačové systémy: návrh a hodnocení. p.508.. „Zkratka RAS (spolehlivost, přístupnost a provozuschopnost) se v IBM rozšířila jako náhrada za podmnožinu pojmu správa obnovy.“
  2. ^ Divize zpracování dat, International Business Machines Corp., 1970 (1970). „Zpracovatel dat, čísla 13–17“. Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: více jmen: seznam autorů (odkaz)- "Spolehlivost [...], kterou zažívají ostatní uživatelé systému / 370, je výsledkem strategie založené na RAS (Reliability-Availability-Serviceability)"
  3. ^ Siewert, Sam (březen 2005). „Velké lekce železa, část 2: Spolehlivost a dostupnost: Jaký je rozdíl?“ (PDF).
  4. ^ Například:Laros III, James H. (2012). Energeticky efektivní vysoce výkonné výpočty: Měření a ladění. SpringerBriefs v informatice. et al. Springer Science & Business Media. p. 8. ISBN  9781447144922. Citováno 2014-07-08. Historicky byly systémy spolehlivosti dostupnosti a použitelnosti (RAS) běžně poskytovány prodejci v systémech tříd sálových počítačů. [...] Systém RAS je systematické sjednocení softwaru a hardwaru za účelem správy a monitorování všech hardwarových a softwarových komponent systému podle jejich individuálního potenciálu.
  5. ^ A b C E.J. McClusky & S.Mitra (2004). „Fault Tolerance“ v příručce Computer Science Handbook 2ed. vyd. A.B. Tucker. CRC Press.
  6. ^ Spencer, Richard H .; Floyd, Raymond E. (2011). Pohledy na strojírenství. Bloomington, Indiana: AuthorHouse. p. 33. ISBN  9781463410919. Citováno 2014-05-05. [...] systémový server může mít vynikající dostupnost (běží navždy), ale stále má časté poškození dat (není příliš spolehlivé).
  7. ^ Daniel Lipetz a Eric Schwarz (2011). „Samokontrola v současných jednotkách s plovoucí desetinnou čárkou. Sborník 20. sympozia IEEE o počítačové aritmetice z roku 2011“ (PDF). Archivovány od originál (PDF) dne 2012-01-24.
  8. ^ L. Spainhower & T. A. Gregg (září 1999). „IBM S / 390 paralelní podnikový server G5 odolnost proti chybám: historická perspektiva. IBM Journal of Research and Development. Svazek 43, vydání 5“ (PDF). CiteSeerX  10.1.1.85.5994.
  9. ^ „Technologie Intel Instruction Replay detekuje a opravuje chyby“. Citováno 2012-12-07.
  10. ^ HP. „Vývoj paměťových technologií: přehled systémových paměťových technologií Stručné informace o technologii, 9. vydání (strana 8)“ (PDF). Archivovány od originál (PDF) dne 24. 7. 2011.
  11. ^ Intel Corp. (2003). „PCI Express poskytuje podnikovou spolehlivost, dostupnost a provozuschopnost“.
  12. ^ „Osvědčené postupy pro spolehlivost dat se serverem Oracle VM Server pro SPARC“ (PDF). Citováno 2013-07-02.
  13. ^ „Úvahy o IBM Power Redundancy“. Citováno 2013-07-02.

externí odkazy