Australský webový archiv - Australian Web Archive
The Australský webový archiv (AWA) je veřejně dostupný online databáze archivovaných australských webových stránek hostovaných Národní knihovna Austrálie (NLA) na svém Trove platforma, online agregátor databáze knihoven. Zahrnuje vlastní NLA Archiv PANDORA, Webový archiv australské vlády (AGWA) a Národní knihovna Austrálie je „.au“ doména sbírky. Přístup probíhá prostřednictvím jediného rozhraní v Trove, které je veřejně dostupné.[1][2][3] Australský webový archiv byl vytvořen v březnu 2019,[4] a je jedním z největších webové archivy ve světě.[5] Jeho účelem je poskytnout zdroj pro historiky a výzkumníky, nyní i do budoucna.[5]
Historie tří složek
Služba PANDORA začala archivovat webové stránky v říjnu 1996.[6]
V roce 2005 začala NLA archivovat výroční snímky celé australské webové domény (URL s přípona. „.au“[4]),[7] shromažďovány prostřednictvím velkých plazit se sklizně.[8] Pozdnější, nejčasnější weby z webové domény .au, sahající až do roku 1996, byly získány z Internetový archiv. V roce 2019 byl tento obsah poprvé zpřístupněn veřejnosti prostřednictvím Trove.[9]
Infrastruktura PANDORA, která dobře funguje při selektivní archivaci v malém měřítku, se nepřizpůsobuje rozsáhlému „hromadnému sklízení“ webového obsahu, takže bylo nutné vyvinout nový technický systém, pomocí něhož by služba archivace webu integrovala doručování archivovaných webů v rámci živého rozhraní webových stránek bez problémů doručuje archivované webové stránky uživateli, což je technicky obtížné dosáhnout.[10]
AGWA
Australská vláda webové stránky jsou záznamy společenství, a jsou tedy publikacemi, které je třeba spravovat v souladu s Zákon o archivech z roku 1983.[11]
Webový archiv australské vlády (AGWA) se skládá z hromadné archivace Vláda společenství webové stránky. NLA zahájila pravidelné sklizně webových stránek v červnu 2011,[12] poté, co byla překonána významná překážka, se správní dohodou uzavřenou v květnu 2010, která umožňovala NLA shromažďovat, uchovávat a zpřístupňovat vládní webové stránky, aniž by bylo nutné vyžadovat předchozí povolení pro každou webovou stránku nebo dokument, jak tomu bylo dříve. Tato služba používá Heritrix webový prohledávač pro sklizeň, Soubory WARC pro úložiště a Open Wayback pro dodání služby. Vláda vydává obrovské množství publikací, ale je třeba překonat mnoho výzev při snaze o zachování obsahu, například jeho náhlé zmizení. V březnu 2014 byla AGWA veřejně přístupná.[10]
AGWA splňuje požadavky na uchování a uchování webových stránek jako „zachovat jako národní archiv“ (RNA) materiál pod Zákon o archivech; nicméně videa a soubory dokumentů (např Soubory PDF nebo Wordové dokumenty ) nejsou vždy zachyceny, takže je nutné je spravovat samostatně.[11]
Na začátku roku 2015 obsahovala AGWA obsah, od roku 2005 činil přibližně 144 milionů souborů a zabíral 15 terabajtů. Zahrnovalo pouze weby vlády Commonwealthu, které jsou shromažďovány hromadnou sklizní téměř 1000 semen URL. Časový plán sklizní ještě není běžně stanoven, ale sklizně se v současné době provádějí zhruba třikrát ročně.[10]
Sloučení
V roce 2017 byly AGWA a archiv PANDORA sloučeny s ostatními sbírkami webového archivu, aby vytvořily kolekci webového archivu Trove.[9] Po dalším vývoji a vytvoření australského webového archivu lze webové stránky státní správy archivované prostřednictvím společnosti AGWA a nyní zahrnuté v AWA stále vyhledávat samostatně pomocí možnosti „Pokročilé vyhledávání“.[9]
Popis AWA
Webový archiv NLA popisuje jako „soubor snímků webů zachycených, když jsou přístupné na webu a poté uchovány ve statické kopii“. Sbírka archivovaná v AWA je „relevantní pro kulturní, společenský, politický, výzkumný a komerční život a aktivity Austrálie a Australanů“. Shromažďuje webové materiály prostřednictvím plánované archivace vybraných webů a publikací i některých dalších ad hoc sklizeň související s významnými událostmi.[9]
Od března 2019, kdy to začalo, AWA již obsahovala kolem 600 terabajtů dat s 9 miliardami záznamů.[5][13] Obsahuje více funkcí než Wayback Machine, pořádané Internetový archiv, umožňující fulltextové vyhledávání používat vyhledávač vestavěné v domě. Vývojáři také vymysleli techniky pro odfiltrování nežádoucího „šumu“. Data zůstanou na serverech knihovny, i když přesun na server mrak v budoucnu se předpokládá s rostoucím obsahem.[5] Během vývoje bylo hlavní zaměření na použitelnost pro širokou škálu uživatelů, zejména na vyhledávací funkce.[9]
Archiv je plně prohledávatelný na základě kombinace technik používaných vývojáři. Každý tým vytvořil jedinečný a komplexní vyhledávací algoritmus úpravou verze Google Algoritmus pro hodnocení stránek (založený na frekvenci kliknutí na stránku), upravený tak, aby vedl k lepším a kvalitnějším zdrojům. Mezi další technologie patří a Bayesiánský filtr (účinně a filtr nevyžádané pošty ), a Není bezpečné pro práci klasifikátor z Yahoo, a strojové učení.[14]
Před hledáním je možnost „Omezit na webovou doménu gov.au“,[15] a vládní webové stránky archivované prostřednictvím AGWA lze stále vyhledávat samostatně pomocí možnosti „Pokročilé vyhledávání“.[9] Další možnosti v Rozšířeném hledání jsou omezení podle časového rozsahu snímků, domény a typu souboru.[16]
Vzhledem k tomu, že mnoho z dřívějších webových stránek z 90. let 20. století je nyní ztraceno, zejména kvůli časté změně webových platforem, je australský webový archiv významnou iniciativou, která pomůže zachránit současné i budoucí webové stránky, zejména australský obsah.[4] Materiál bude nadále přidáván do archivu a další online materiály shromažďovány v souladu s Zákon o národní knihovně z roku 1960, zákonný vklad ustanovení Copyright Act 1968 a NLA politika výběru digitálních sbírek.[9]
Asijsko-pacifické weby
Webové stránky v Asijsko-pacifický region nejsou zahrnuty do AWA, ale NLA spolupracuje s Internetový archiv shromažďovat a uchovávat „vybrané asijsko-tichomořské weby související s konkrétními událostmi nebo společensko-politickými skupinami“.[17]
Viz také
Reference
- ^ „Zachování a přístup k síťovým dokumentárním zdrojům Austrálie“. Archiv Pandory. Citováno 30. dubna 2020.
- ^ „Archivované weby“. Národní knihovna Austrálie. 23. března 2020. Citováno 30. dubna 2020.
- ^ Koerbin, Paul (11. února 2015). „Webový archiv australské vlády“. Národní knihovna Austrálie. Citováno 30. dubna 2020.
- ^ A b C Bruns, Axel (14. března 2019). „Australský webový archiv je významným úspěchem - ale odtud se to bude zhoršovat.“. Konverzace. Citováno 30. dubna 2020.
- ^ A b C d Nott, George (11. března 2019). „Národní knihovna zahajuje„ obrovský “archiv australského internetu“. Computerworld. Citováno 6. května 2020.
- ^ „Historie a úspěchy“. PANDORA. 18. února 2009. Citováno 6. května 2020.
- ^ McKenzie, Amelia (12. března 2019). „Zachování australské webové historie: začátek australského webového archivu“. Národní knihovna Austrálie. Citováno 6. května 2020.
- ^ „Archived websites (1996 - now)“. Trove. Citováno 6. května 2020.
- ^ A b C d E F G „O australském webovém archivu“. Centrum nápovědy Trove. Citováno 8. května 2020.
- ^ A b C Koerbin, Paul (11. února 2015). „Webový archiv australské vlády: Shromažďování vládního online dokumentárního dědictví jde do velkého rozsahu“. Národní knihovna Austrálie. Citováno 6. května 2020.
- ^ A b „Archivování webových stránek australské vlády“. Národní archiv Austrálie. Citováno 8. května 2020.
- ^ „Archivované weby“. Národní knihovna Austrálie. 7. prosince 2018. Citováno 6. května 2020.
- ^ POZNÁMKA: Stránka nápovědy AWA říká 400 tb, 8 miliard záznamů
- ^ „Podívejte se na webový archiv Austrálie“. Southern Phone. 11. dubna 2019. Citováno 8. května 2020.
- ^ „Australský webový archiv“. Trove. Citováno 8. května 2020.
- ^ „Australský webový archiv - pokročilé vyhledávání“. Trove. Citováno 8. května 2020.
- ^ „Archivované weby“. Národní knihovna Austrálie. 23. března 2020. Citováno 8. května 2020.