Odolnost proti chybám softwaru - Software fault tolerance

Odolnost proti chybám softwaru je schopnost počítačový software pokračovat v normálním provozu navzdory přítomnosti systému nebo Hardware poruchy. Software odolný vůči chybám má schopnost uspokojit požadavky navzdory poruchám.[1][2]

Úvod

Jedinou konstantní věcí je změna. To rozhodně platí více o softwarových systémech než o téměř jakémkoli jevu,[3] ne veškerý software se mění stejným způsobem jako software odolnost proti chybám metody jsou navrženy tak, aby překonaly chyby při provádění úpravou hodnot proměnných tak, aby byly přijatelné stav programu.[4] Potřeba kontrolovat chyby softwaru je jednou z nejnáročnějších výzev, kterým dnes softwarový průmysl čelí. Tolerance chyb musí být klíčovým faktorem v rané fázi vývoj softwaru.

Existují různé mechanismy pro odolnost proti chybám softwaru, mezi nimiž jsou:

  • Bloky obnovy
  • Software verze N.
  • Software pro samokontrolu

Selhání operačního systému

Počítačové aplikace uskutečňují volání pomocí aplikační programovací rozhraní (API) pro přístup ke sdíleným prostředkům, jako je klávesnice, myš, obrazovka, disková jednotka, síť a tiskárna. Mohou selhat dvěma způsoby.

  • Blokované hovory
  • Poruchy

Blokované hovory

Blokovaný hovor je požadavek na služby z operačního systému, který zastaví počítačový program, dokud nejsou k dispozici výsledky.

Například volání TCP blokuje, dokud nebude k dispozici odpověď ze vzdáleného serveru. K tomu dochází pokaždé, když provedete akci pomocí webového prohlížeče. Intenzivní výpočty způsobují zdlouhavá zpoždění se stejným účinkem jako blokované volání API.

K manipulaci s blokováním se používají dvě metody.

  • Vlákna
  • Časovače

Threading umožňuje samostatnou sekvenci provádění pro každé volání API, které lze blokovat. To může zabránit pozastavení celkové aplikace při čekání na prostředek. To má tu výhodu, že se neztratí žádná informace o stavu volání API, zatímco probíhají další aktivity.

Mezi jazyky se závitem patří následující.

AdaAfnixC ++C#CILKEiffelovaErlang
JávaLispPurpurováModula 3Napier 88Ozrychle
pSatherPerl 5.8.7+PHPKrajtaRRubínPokec
Tcl / TkPROTI

Časovače umožňují přerušení blokovaného hovoru. Periodický časovač umožňuje programátoru emulovat vlákna. Přerušení obvykle ničí veškeré informace týkající se stavu blokovaného volání API nebo intenzivního výpočtu, takže programátor musí tyto informace sledovat samostatně.

Mezi jazyky bez podprocesů patří následující.

BashJavascriptSQLVisual Basic

U časovačů dojde k poškození stavu. Tomu se lze vyhnout následujícím postupem.

Poruchy

Porucha je vyvolána signály v systémech kompatibilních s POSIX a tyto signály pocházejí z volání API, z operačního systému a z jiných aplikací.

Jakýkoli signál, který nemá obslužný kód, se stane chybou, která způsobí předčasné ukončení aplikace.

Obslužná rutina je funkce, která se provádí na vyžádání, když aplikace obdrží signál. Tomu se říká zpracování výjimek.

Signál ukončení je jediný signál, který nelze zpracovat. Všechny ostatní signály mohou být směrovány na funkci obslužné rutiny.

Funkce obslužné rutiny přicházejí ve dvou širokých variantách.

  • Inicializováno
  • V souladu

Inicializované funkce obslužné rutiny se při spuštění softwaru spárují s každým signálem. To způsobí spuštění funkce obslužné rutiny, když dorazí odpovídající signál. Tuto techniku ​​lze použít s časovači k emulaci vláken.

Funkce obslužné rutiny in-line jsou přidruženy k volání pomocí specializované syntaxe. Nejznámější je následující používaný s C ++ a Java.

Snaž se
{
API_call ();
}
chytit
{
signal_handler_code;
}

Selhání hardwaru

Odolnost proti chybám hardwaru u softwaru vyžaduje následující.

Zálohování udržuje informace pro případ, že je nutné vyměnit hardware. To lze provést jedním ze dvou způsobů.

  • Automatické plánované zálohování pomocí softwaru
  • Pravidelné ruční zálohování
  • Obnovení informací

Zálohování vyžaduje strategii obnovy informací, aby byly informace o zálohování k dispozici v náhradním systému. Proces obnovení je obvykle časově náročný a informace budou k dispozici až po dokončení procesu obnovení.

Redundance závisí na replikaci informací na více než jednom výpočetním zařízení počítače, takže zpoždění obnovy je krátké. Toho lze dosáhnout pomocí nepřetržitého zálohování do živého systému, který zůstává neaktivní, dokud není potřeba (synchronizované zálohování).

Toho lze dosáhnout také replikací informací vytvářených na více identických systémech, což může eliminovat zpoždění obnovy.


Viz také

Reference

  1. ^ "Tolerance chyb softwaru". Univerzita Carnegie Mellon.
  2. ^ „Přenosné a na chyby odolné softwarové systémy“ (PDF). Massachusetts Institute of Technology.
  3. ^ Eckhardt, D. E., „Základní rozdíly ve spolehlivosti N-modulární redundance a programování N-verzí“, The Journal of Systems and Software, 8, 1988, str. 313–318.
  4. ^ Ray Giguette a Johnette Hassell, „Směrem k vynalézavé metodě tolerance softwarových chyb“, regionální konference ACM Southeast, duben 1999.

Další čtení