Webarchiv - Webarchiv
![]() | |
Typ webu | Digitální knihovna |
---|---|
K dispozici v | čeština, Angličtina |
Založený | 2000 |
Hlavní sídlo | Praha, Česká republika |
Rodič | Národní knihovna České republiky |
URL | Webarchiv.cz |
Spuštěno | 2001 |
Webarchiv je digitální archiv důležitých českých webových zdrojů (tj. zveřejněn na internetu) Internet ), které jsou shromažďovány s cílem jejich dlouhodobého uchování.
Zachování začalo v roce 2000, organizováno pomocí Národní knihovna České republiky ve spolupráci s Moravská knihovna a Ústav výpočetní techniky v Brně Masarykova univerzita. V současné době je Webarchiv organizován Národní knihovna České republiky pouze.
Webarchiv využívá nástroje vyvinuté Internetovým archivem a Mezinárodní konsorcium pro uchování internetu (IIPC), jako je Heritrix pro archivace webu.[1]
Webarchiv je členem IIPC od roku 2007.
Druhy sklizně
Hlavním cílem projektu Webarchiv je implementace komplexního řešení v oblasti archivace národního webu, tj. Bohemických online narozených dokumentů. To zahrnuje nástroje a metody pro shromažďování, archivaci a uchování webových zdrojů a také dlouhodobý přístup k nim. Probíhá jak rozsáhlá automatizovaná těžba celého národního webu, tak selektivní archivace, včetně tematických „událostních“ sbírek. V současné době jsou tyto metody testovány a jsou předmětem dalšího výzkumu. Aby bylo možné provozovat všechny operace rutinním způsobem, musí být splněny dvě podmínky: musí být zajištěno dlouhodobé financování a musí být vyřešeny aktuální právní otázky (především právní předpisy o zákonném vkladu).[2]
Webarchiv má dvě sbírky archivovaných webových stránek. Jeden je k dispozici prostřednictvím online přístupu; je to omezená datová sada, jejíž obsah je kryta dohodami s původními vydavateli. K druhé kolekci lze přistupovat pouze v knihovně. Podle českého autorského zákona je online přístup k archivovaným webům založen na dohodě s vlastníkem webu nebo na licenci Creative Commons. Web bez této dohody je blokován z online archivu a je přístupný pouze z terminálů knihovny.[3]
Komplexní sklizně
Hlavním cílem komplexních procházení je automatická těžba největšího počtu českých webových zdrojů. Seznam adres URL je od organizace CZ.NIC.
Selektivní sklizně
Sbírka zdrojů s ručně vybranou historickou, vědeckou nebo kulturní hodnotou. Sbírka je přístupná online z důvodu smluv s vydavateli.
Hlavním cílem komplexních procházení je automatická těžba největšího počtu českých webových zdrojů. Požadavky komplexního procházení jsou:
Doména - shromažďují se webové zdroje české domény (.cz). Lze také sklízet zdroje s jinými doménami, ale musí splňovat volitelné požadavky:
Další požadavky jsou volitelné:[4]
Formát - získávání různých formátů zdrojů závisí na technickém nastavení kombajnu[4]
Přístup - získávají se pouze volně přístupné zdroje[4]
Počet souborů - maximálně 5 000 souborů z jedné domény[4]
Tématické sklizně
Kolekce témat jsou sbírky zdrojů, které souvisejí s určitou událostí tématu, například s volbami.
Reference
- ^ "Přehled projektu WebArchiv". WebArchiv. Citováno 18. března 2014.
- ^ "O Webarchivu | Webarchiv.cz".
- ^ "Často kladené otázky | Webarchiv.cz".
- ^ A b C d http://webarchiv.cz/cs/komprehenzni-zbery
externí odkazy
- Domovská stránka Webarchivu (Možnost českého, anglického jazyka)
- Archivace českého webu: Problémy a výzvy. Petr Žabička, 2003