Webarchiv - Webarchiv

Webarchiv
Typ webu	Digitální knihovna
K dispozici v	čeština, Angličtina
Založený	2000; před 20 roky
Hlavní sídlo	Praha, Česká republika
Rodič	Národní knihovna České republiky
URL	Webarchiv.cz
Spuštěno	2001

Webarchiv je digitální archiv důležitých českých webových zdrojů (tj. zveřejněn na internetu) Internet ), které jsou shromažďovány s cílem jejich dlouhodobého uchování.

Zachování začalo v roce 2000, organizováno pomocí Národní knihovna České republiky ve spolupráci s Moravská knihovna a Ústav výpočetní techniky v Brně Masarykova univerzita. V současné době je Webarchiv organizován Národní knihovna České republiky pouze.

Webarchiv využívá nástroje vyvinuté Internetovým archivem a Mezinárodní konsorcium pro uchování internetu (IIPC), jako je Heritrix pro archivace webu.^[1]

Webarchiv je členem IIPC od roku 2007.

Druhy sklizně

Hlavním cílem projektu Webarchiv je implementace komplexního řešení v oblasti archivace národního webu, tj. Bohemických online narozených dokumentů. To zahrnuje nástroje a metody pro shromažďování, archivaci a uchování webových zdrojů a také dlouhodobý přístup k nim. Probíhá jak rozsáhlá automatizovaná těžba celého národního webu, tak selektivní archivace, včetně tematických „událostních“ sbírek. V současné době jsou tyto metody testovány a jsou předmětem dalšího výzkumu. Aby bylo možné provozovat všechny operace rutinním způsobem, musí být splněny dvě podmínky: musí být zajištěno dlouhodobé financování a musí být vyřešeny aktuální právní otázky (především právní předpisy o zákonném vkladu).^[2]

Webarchiv má dvě sbírky archivovaných webových stránek. Jeden je k dispozici prostřednictvím online přístupu; je to omezená datová sada, jejíž obsah je kryta dohodami s původními vydavateli. K druhé kolekci lze přistupovat pouze v knihovně. Podle českého autorského zákona je online přístup k archivovaným webům založen na dohodě s vlastníkem webu nebo na licenci Creative Commons. Web bez této dohody je blokován z online archivu a je přístupný pouze z terminálů knihovny.^[3]

Komplexní sklizně

Hlavním cílem komplexních procházení je automatická těžba největšího počtu českých webových zdrojů. Seznam adres URL je od organizace CZ.NIC.

Selektivní sklizně

Sbírka zdrojů s ručně vybranou historickou, vědeckou nebo kulturní hodnotou. Sbírka je přístupná online z důvodu smluv s vydavateli.

Hlavním cílem komplexních procházení je automatická těžba největšího počtu českých webových zdrojů. Požadavky komplexního procházení jsou:

Doména - shromažďují se webové zdroje české domény (.cz). Lze také sklízet zdroje s jinými doménami, ale musí splňovat volitelné požadavky:

Další požadavky jsou volitelné:^[4]

Formát - získávání různých formátů zdrojů závisí na technickém nastavení kombajnu^[4]

Přístup - získávají se pouze volně přístupné zdroje^[4]

Počet souborů - maximálně 5 000 souborů z jedné domény^[4]

Tématické sklizně

Kolekce témat jsou sbírky zdrojů, které souvisejí s určitou událostí tématu, například s volbami.

Reference

^ "Přehled projektu WebArchiv". WebArchiv. Citováno 18. března 2014.
^ "O Webarchivu | Webarchiv.cz".
^ "Často kladené otázky | Webarchiv.cz".
^ ^A ^b ^C ^d http://webarchiv.cz/cs/komprehenzni-zbery

externí odkazy

Domovská stránka Webarchivu (Možnost českého, anglického jazyka)
Archivace českého webu: Problémy a výzvy. Petr Žabička, 2003

[1] "Přehled projektu WebArchiv". WebArchiv. Citováno 18. března 2014.

[2] "O Webarchivu | Webarchiv.cz".

[3] "Často kladené otázky | Webarchiv.cz".

[comp_hr-4] A ^b ^C ^d http://webarchiv.cz/cs/komprehenzni-zbery

[1]

[2]

[3]

[4]