BagIt - BagIt
BagIt je sada konvencí hierarchického systému souborů určených k podpoře diskového úložiště a síťového přenosu libovolného digitálního obsahu. „Taška“ se skládá z „užitečného zatížení“ (libovolný obsah) a „značek“, které jsou metadata soubory určené k dokumentaci uložení a přenosu tašky. Požadovaný soubor tagu obsahuje manifest uvádějící každý soubor v užitečném obsahu a jeho odpovídající kontrolní součet. Název, BagIt, je inspirován metodou „enclose and Deposit“,[1] někdy označované jako „zabalit a označit“.
Tašky jsou ideální pro digitální obsah, který se obvykle uchovává jako sbírka souborů. Rovněž se dobře hodí pro export, pro archivační účely, obsahu běžně uchovávaného v databázových strukturách, který přijímající strany pravděpodobně nepodporují. Spoléhání se na více platforem (Okna a Unix ) konvence pojmenování souborového systému, užitečné zatížení tašky může obsahovat libovolný počet adresáře a podadresáře (složky a podsložky). Taška může specifikovat obsah užitečného zatížení nepřímo prostřednictvím souboru „fetch.txt“, který obsahuje seznam URL pro obsah, který lze načíst po síti a dokončit balíček; jednoduchý paralelizace (např. spuštění 10 instancí Wget ) může tuto funkci využít k rychlému přenosu velkých pytlů. Mezi výhody tašek patří:
- Široká adopce v digitálních knihovnách (např Knihovna Kongresu ).
- Snadná implementace pomocí všudypřítomných a běžných nástrojů souborového systému.
- Obsah, který pochází jako soubory, je třeba zkopírovat pouze do adresáře užitečného zatížení.
- Ve srovnání s XML zabalení, obsah nemusí být kódován (např. Base64 ) což šetří čas a úložný prostor.
- Přijatý obsah je připraven k použití ve známém stromu souborového systému.
- Snadné provedení rychlého síťového přenosu paralelním spuštěním běžných nástrojů pro přenos.
Specifikace
BagIt je aktuálně definován v RFC 8493.[2] Definuje jednoduchou konvenci pojmenování souborů, kterou používá digitální kurace komunita pro balení libovolného digitálního obsahu, aby jej bylo možné spolehlivě přepravovat prostřednictvím obou fyzických médií (pevný disk, CD ROM, DVD ) a síťové převody (FTP, HTTP, rsync, atd.). BagIt se také používá pro správu digitální uchování obsahu v průběhu času. Diskuse o specifikaci a jejích budoucích směrech probíhá na internetu Seznam diskusí Digital Curation.
Specifikace BagIt je uspořádána kolem pojmu „taška“. Taška je pojmenována adresář systému souborů který minimálně obsahuje:
- adresář „data“, který obsahuje užitečné zatížení, nebo datové soubory, které obsahují zachovaný digitální obsah. Soubory lze také umístit do podadresářů, ale prázdné adresáře nejsou podporovány
- alespoň jeden soubor manifestu, který rozpisuje názvy souborů přítomných v adresáři „data“ a jejich kontrolní součty. Zvláštní algoritmus kontrolního součtu je zahrnut jako součást názvu souboru manifestu. Například soubor manifestu s MD5 kontrolní součet má název „manifest-md5.txt“
- soubor „bagit.txt“, který identifikuje adresář jako tašku, verzi specifikace BagIt, kterou dodržuje, a Kódování znaků používá se pro soubory značek
Po obdržení sáčku může software prozkoumat soubor manifestu, aby se ujistil, že jsou přítomny soubory užitečného zatížení a že jejich kontrolní součty jsou správné. To umožňuje identifikaci náhodně odstraněných nebo poškozených souborů. Níže je uveden příklad minimální tašky „myfirstbag“, která obsahuje dva soubory užitečného zatížení. Obsah souborů značek je uveden pod jejich názvy souborů.
myfirstbag / | - data | - 27613-h | - obrázky | - q172.png | - q172.txt | - manifest-md5.txt | 49afbd86a1ca9f34b677a3f09655eae9 data / 27613-h / images / q172.png | 408ad21d50cef31da4df6d9ed81b01a7 data / 27613-h / images / q172.txt - bagit.txt BagIt-verze: 0.97 Tag-File-Character-Encoding: UTF-8
V tomto příkladu se užitečné zatížení skládá z a Přenosná síťová grafika obrazový soubor a Optické rozpoznávání znaků textový soubor. Obecně identifikace a definice formáty souborů je mimo rozsah specifikace BagIt; Atributy souboru jsou rovněž mimo rozsah.
Specifikace umožňuje několik volitelných souborů značek (kromě manifestu). Jejich kódování znaků musí být identifikováno v souboru „bagit.txt“, do kterého musí být vždy zakódováno UTF-8. Specifikace definuje následující volitelné soubory značek:
- soubor „bag-info.txt“, který podrobně popisuje metadata tašky pomocí dvojic klíč / hodnota oddělených dvojtečkou (podobně jako Záhlaví HTTP )
- soubor manifestu tagu, který uvádí soubory tagů a jejich přidružené kontrolní součty (např. „tagmanifest-md5.txt“)
- soubor „fetch.txt“, který uvádí adresy URL, ze kterých lze navíc načítat soubory užitečného zatížení nebo nahradit soubory užitečného zatížení v adresáři „data“
Do verze 15 koncept také popisoval, jak serializovat tašku v archivní soubor, jako ZIP nebo DEHET. Od verze 15 dále již není serializace součástí specifikací, ale nikoli z technických důvodů, ale pouze z důvodu rozsahu a zaměření specifikace.
Dějiny
Specifikace BagIt vyplynula ze spolupráce mezi Kongresová knihovna a Kalifornská digitální knihovna při přenosu digitálního obsahu vytvořeného jako součást Národní program pro digitální informační infrastrukturu a ochranu. Počátky nápadu sahají do doby, kdy byla práce provedena v University of Tsukuba na modelu „uzavřít a uložit“ pro vzájemné uložení archivovaných zdrojů, aby bylo možné dlouhodobě pracovat digitální uchování.[3] Praxe používání manifestů a kontrolních součtů je poměrně běžná praxe, o čemž svědčí jejich použití v ZIP (formát souboru), Deb (formát souboru), stejně jako na veřejných stránkách FTP.
V roce 2007 Kalifornská digitální knihovna potřebné k přenosu několika terabajtů obsahu (převážně Archivace webu data) do Knihovna Kongresu. Specifikace BagIt umožňovala zabalit obsah do „pytlů“ s metadaty balíku a manifestem, který podrobně kontroloval součty souborů, které byly později ověřeny při přijetí pytlů. Specifikace byla sepsána jako IETF vypracovat John Kunze v prosinci 2008, kdy prošla několika revizemi, než byla vydána jako RFC.[2] V roce 2009 Knihovna Kongresu vytvořil video, které popisuje specifikaci a případy použití.[4][5] V roce 2018 byla verze 1.0 zveřejněna jako RFC skupinou Internet Engineering Task Force.
Viz také
Reference
- ^ „Model spolupráce mezi archivními systémy pro zvýšení spolehlivosti uchovávání metodou Enclose-and-Deposit“ (PDF). 2005. Archivovány od originál (PDF) dne 2016-03-05. Citováno 2015-05-07.
- ^ A b „Formát balení souboru BagIt (V1.0)“. Citováno 29. října 2018.
- ^ Tabata, Koichi. „Model spolupráce mezi archivními systémy pro zvýšení spolehlivosti uchovávání metodou Enclose-and-Deposit“ (PDF). Archivovány od originál (PDF) dne 26. července 2011. Citováno 12. října 2010.
- ^ BagIt: Přenos digitálního obsahu pro uchování. Knihovna Kongresu. 2009. Citováno 12. října 2010.
- ^ „BagIt: Přenos digitálního obsahu pro uchování (přepis)“ (PDF). Knihovna Kongresu. 2009. Archivováno (PDF) z původního dne 10. října 2010. Citováno 12. října 2010.
externí odkazy
- RFC 8493: kanonická specifikace BagIt
- BagIt na GitHubu: nejnovější pracovní kopie specifikace se zdrojovými soubory pro publikování na IETF.
- Digitální kurátor Google Group: kde se nejvíce diskutuje o použití specifikace a jejím dalším vývoji.
- Specifikace BagIt z Kalifornské digitální knihovny: CDL zjistilo, že pro vývojové účely pomáhá mít místní dokumentaci o specifikaci BagIt.
- Specifikace BagIt z kongresové knihovny: podobně Library of Congress učinil snímek specifikace k dispozici.