Konzistence dat - Data consistency - Wikipedia

Konzistence dat označuje, když se stejná data uchovávaná na různých místech neshodují.

Konzistence point-in-time

Konzistence point-in-time je důležitou vlastností záloha soubory a kritický cíl softwaru, který vytváří zálohy. Je také relevantní pro konstrukci systémů diskových pamětí, konkrétně pro to, co se stane, když jsou neočekávaně vypnuty.

Jako relevantní příklad zálohování zvažte web s databází, jako je online encyklopedie Wikipedia, který musí být v provozu nepřetržitě, ale také musí být pravidelně zálohován, aby byl chráněn před katastrofou. Části Wikipedie jsou neustále aktualizovány každou minutu každého dne, databáze Wikipedie je mezitím uložena na serverech ve formě jednoho nebo několika velmi velkých souborů, jejichž zálohování vyžaduje minuty nebo hodiny.

Tyto velké soubory - stejně jako u jakékoli databáze - obsahují četné datové struktury, které na sebe odkazují podle umístění. Například některé struktury jsou indexy které umožňují databázovému subsystému rychle najít výsledky hledání. Pokud se datové struktury přestanou navzájem správně odkazovat, pak lze říci, že databáze je poškozený.

Příklad počítadla

Důležitost konzistence point-in-time lze ilustrovat s tím, co by se stalo, kdyby byla provedena záloha bez ní.

Předpokládejme, že databáze Wikipedie je obrovský soubor, který má důležitý index umístěný na 20% cesty a ukládá data článku na hranici 75%. Zvažte scénář, kdy editor přijde a vytvoří nový článek současně se zálohováním, které se vytváří jako jednoduchá „kopie souboru“, která kopíruje od začátku do konce velkých souborů a nedělá Nezohledňujeme konzistenci dat - a v době úpravy článku je z 50% kompletní. Nový článek se přidá do prostoru článku (na značce 75%) a přidá se odpovídající položka rejstříku (na značce 20%).

Protože záloha je již v polovině hotová a index je již zkopírován, záloha se zapíše s přítomnými daty článku, ale s chybějícím odkazem na index. V důsledku nekonzistence je tento soubor považován za poškozený.

Ve skutečném životě může být skutečná databáze, jako je Wikipedia, upravována tisíckrát za hodinu a odkazy jsou prakticky vždy rozšířeny po celém souboru a mohou se počítat na miliony, miliardy nebo více. Sekvenční záloha „kopírování“ by doslova obsahovala tolik malých poškození, že by záloha byla zcela nepoužitelná bez zdlouhavého procesu opravy, který by neposkytoval žádnou záruku, pokud jde o úplnost obnoveného obsahu.

Proces zálohování, který správně zohledňuje konzistenci dat, zajišťuje, že zálohování je snímek toho, jak celá databáze vypadala v jediném okamžiku. V daném příkladu z Wikipedie by to zajistilo, že byla záloha zapsána bez přidaný článek na hranici 75%, aby data článku byla konzistentní s dříve zapsanými daty indexu.

Systémy ukládání do mezipaměti disku

Konzistence point-in-time je také relevantní pro subsystémy počítačových disků.

Konkrétně operační systémy a souborové systémy jsou navrženy s očekáváním, že počítačový systém, na kterém běží, může kdykoli ztratit napájení, selhat, selhat nebo jinak přestat fungovat. Pokud jsou správně navrženy, zajišťují, že při ztrátě napájení nebudou data nenávratně poškozena. Operační systémy a souborové systémy to zajišťují tím, že se data zapisují na pevný disk v určitém pořadí, a spoléhají na to, aby detekovaly a obnovily neočekávané vypnutí.

Na druhou stranu důsledné zapisování dat na disk v pořadí, které maximalizuje integritu dat, má také dopad na výkon. Proces zapisovat do mezipaměti se používá ke konsolidaci a opětovnému pořadí operací zápisu, takže je lze provádět rychleji minimalizací času stráveného přesunem hlav disků.

Problémy s konzistencí dat vznikají, když se při ukládání do mezipaměti mění pořadí, ve kterém se zápisy provádějí, protože existuje možnost neočekávaného vypnutí, které porušuje očekávání operačního systému, že všechny zápisy budou potvrzeny postupně.

Například za účelem uložení typického souboru dokumentu nebo obrázku může operační systém zapsat na disk následující záznamy v následujícím pořadí:

  1. Záznam v deníku, který říká, že soubor XYZ se má uložit do sektoru 123.
  2. Skutečný obsah souboru XYZ se zapíše do sektoru 123.
  3. Sektor 123 je nyní označen jako obsazený v záznamu volného / použitého prostoru.
  4. Položka deníku, která zaznamenává soubor zcela uložený, a jeho název je XYZ a nachází se v sektoru 123.

Operační systém se spoléhá na předpoklad, že pokud vidí, že je položka č. 1 (říká se, že soubor se má uložit), ale položka č. 4 chybí (potvrzuje úspěch), že operace uložení byla neúspěšná, a proto by se měla vrátit zpět veškeré neúplné kroky, které již byly provedeny k jeho uložení (např. označení sektoru 123 jako volného, ​​protože nikdy nebyl správně vyplněn, a odstranění jakéhokoli záznamu XYZ z adresáře souborů). Spoléhá se na to, že tyto položky budou na disk přiděleny v pořadí.

Předpokládejme, že algoritmus ukládání do mezipaměti určuje, že by bylo nejrychlejší zapsat tyto položky na disk v pořadí 4-3-1-2, a začne to dělat, ale napájení se vypne po zápisu 4, před 3, 1 a 2, a takže k těmto zápisům nikdy nedojde. Když je počítač znovu zapnutý, systém souborů by pak ukázal, že obsahuje soubor s názvem XYZ, který je umístěn v sektoru 123, ale tento sektor tento soubor opravdu neobsahuje. (Místo toho bude sektor obsahovat smetí nebo nuly nebo náhodnou část nějakého starého souboru - a to se zobrazí, pokud je soubor otevřen).

Dále mapa volného prostoru systému souborů nebude obsahovat žádnou položku ukazující, že sektor 123 je obsazený, takže později pravděpodobně přiřadí tento sektor dalšímu souboru, který má být uložen, věřit, že je k dispozici. Souborový systém pak bude mít dva soubory, oba neočekávaně nárokující stejný sektor (známý jako křížově propojený soubor ). Výsledkem je, že zápis do jednoho ze souborů přepíše část druhého souboru a neviditelně jej poškodí.

Subsystém ukládání do mezipaměti disku, který zajišťuje konzistenci point-in-time, zaručuje, že v případě neočekávaného vypnutí by byly čtyři prvky zapsány jedním z pouhých pěti možných způsobů: zcela (1-2-3-4), částečně (1, 1-2, 1-2-3), nebo vůbec.

Mezi špičkové hardwarové řadiče disků typu nalezeného na serverech patří malý záložní jednotka baterie ve své mezipaměti, aby mohli nabídnout zvýšení výkonu při ukládání do mezipaměti a zároveň zmírňovat riziko neúmyslného vypnutí. Záložní jednotka baterie udržuje paměť napájenou i během vypnutí, takže když je počítač napájen zpět, může rychle dokončit všechny zápisy, které dříve spáchal. S takovým řadičem může operační systém vyžadovat čtyři zápisy (1-2-3-4) v tomto pořadí, ale řadič může rozhodnout, že nejrychlejší způsob jejich zápisu je 4-3-1-2. Ovladač v zásadě lži do operačního systému a hlásí, že zápisy byly dokončeny v pořádku (lež, která zvyšuje výkon na úkor poškození dat, pokud dojde ke ztrátě napájení), a záložní baterie chrání před rizikem poškození dat tím, že dává řadiči způsob, jak tiše opravit všechna poškození, která by v důsledku toho mohla nastat.

Pokud se napájení vypíše poté, co byl zapsán prvek 4, obsahuje baterie zálohovaná paměť záznam o závazku pro další tři položky a zajišťuje, aby byly při další dostupné příležitosti zapsány („vyprázdněny“) na disk.

Konzistence transakcí

Konzistence (databázové systémy) v říši Distribuovaná databáze systems odkazuje na vlastnost mnoha KYSELINA databáze, aby zajistily, že výsledky a Transakce databáze jsou viditelné pro všechny uzly současně. To znamená, že jakmile byla transakce potvrzena, všechny strany, které se pokoušejí získat přístup k databázi, mohou vidět výsledky této transakce současně.

Dobrým příkladem důležitosti konzistence transakcí je databáze, která zpracovává převody peněz. Předpokládejme, že převod peněz vyžaduje dvě operace: zápis debetu na jednom místě a kreditu na jiném místě. Pokud se systém zhroutí nebo vypne, když je jedna operace dokončena, ale druhá ne, a není zde nic, co by to napravilo, lze říci, že systému chybí konzistence transakcí. U převodu peněz je žádoucí, aby byla dokončena buď celá transakce, nebo žádná. Oba tyto scénáře udržují rovnováhu pod kontrolou.

Konzistence transakcí zajišťuje právě to - že systém je naprogramován tak, aby byl schopen detekovat neúplné transakce, když je zapnutý, a vrátit zpět (nebo „vrátit zpět“) část všech neúplných transakcí, které jsou nalezeny.

Konzistence aplikace

Konzistence aplikace, podobná konzistenci transakcí, se používá ve větším měřítku. Namísto rozsahu jedné transakce musí být data konzistentní v mezích mnoha různých toků transakcí z jedné nebo více aplikací. Aplikace může být tvořena mnoha různými typy dat, různými typy souborů a datovými kanály z jiných aplikací. aplikace. Konzistence aplikace je stav, ve kterém jsou synchronizovány všechny související soubory a databáze představující skutečný stav aplikace.

Protože

externí odkazy