PADICAT - PADICAT
![]() | |
URL | http://www.padicat.cat/ |
---|
PADICAT zkratka pro Patrimoni Digital de Catalunya, v Katalánština; nebo digitální dědictví Katalánsko, v angličtině, je Webový archiv Katalánska.[1]
Vytvořeno v roce 2005[2] podle Biblioteca de Catalunya, veřejná instituce odpovědná za sběr, uchování a distribuci bibliografického dědictví a jeho rozšíření digitálním. Má technologickou spolupráci Centrum pro vědecké a akademické služby Katalánska, (CESCA) za zachování a zpřístupnění starých verzí webových stránek zveřejněných na internetu Internet. Biblioteca de Catalunya, odpovědná za PADICAT, je členem Mezinárodní konsorcium pro uchování internetu (IIPC).[3]
Dějiny
![](http://upload.wikimedia.org/wikipedia/commons/thumb/c/ca/D._padicat.jpg/220px-D._padicat.jpg)
PADICAT se narodil v roce 2005 v návaznosti na trend ostatních národní knihovny o vytváření webových archivů a jako odpověď na zveřejnění pokynů k ochraně digitálního dědictví[4] podle UNESCO. Je jich mnoho spuštěné webové archivy.[5] Nejslavnější začal v roce 1996: švédská Kulturarw3;[6] Australan Pandora,[7] a nejoblíbenější úložiště, Internetový archiv.[8]
Analýza těchto a dalších projektů prošla plánováním projektu PADICAT v návaznosti na společný celosvětový trend hybridního modelu fungování, který doplňuje pravidelné zachycení celé geografické oblasti (.kočka v tomto případě) pomocí selektivních akcí a rozšířit toto pokrytí na různé sociální události, které generují intenzivní aktivitu v síti (volební kampaně, například) nebo s tematickými balíčky (muzea Katalánska, Katalánština folk-rock na webu atd.). PADICAT toto vše doplňuje o příspěvky uživatelů prostřednictvím doporučených webů.
V červnu 2005 zahájila Biblioteca de Catalunya předběžnou fázi plánování, ve které byla provedena analýza projektů týkající se stávajících zdrojů, agentů podílejících se na výrobě webových stránek Katalánska a právních otázek, které určují postupy, které chtějí dělat.
Na základě parametrů definovaných v Biblioteca de Catalunya začala 21. července 2006 automaticky shromažďovat webové stránky, které pravděpodobně budou součástí digitálního dědictví Katalánska. Dne 11. Září 2006, u příležitosti oslav Národní den Katalánska Byl otevřen web PADICAT pro veřejnost s uloženými asi třiceti webovými stránkami.
Období 2006–08 představuje produkční fázi, pilotní plán projektu, provozní fázi PADICAT: systematické zachycování webových stránek Katalánska.
Období 2009–2011 by Biblioteca de Catalunya měla být v optimální pozici, přičemž tento systém - průkopník v Španělsko a měřítko v Evropa - pracuje na plný výkon. Dále jsme dosáhli dohod o spolupráci s více než 450 institucemi všeho druhu a zaručili otevřený online přístup ke všem sbírkám. 11. září 2011, kdy se znovu konal národní den Katalánska a páté výročí jeho webových stránek, otevřel PADICAT nová verze webových stránek pro přístup ke všemu uloženému obsahu.
V listopadu 2012 PADICAT zachoval 58 122 webů, 249 609 procházení, 349 milionů souborů a 13 TB místa na disku. Všechny jsou volně dostupné.[9]
Poslání a fungování
Poslání a cíle
Posláním PADICATu je sklízet, zpracovávat a poskytovat přístup k digitálnímu dědictví Katalánska zrozenému na internetu. Jeho cílem je:
- Masivní kompilace .kočka doména, díky dohodě s Fundació puntCat.[10]
- Systematická archivace produkce webových stránek katalánských organizací a společností.
- Propagujte linie výzkumu prostřednictvím tematické integrace digitálních zdrojů souvisejících s konkrétními událostmi v katalánském veřejném životě, jako je politické kampaně[11] na internetu, online hudební fenomén nebo muzea na internetu.
Po jeho zrození (2005–2006), růstových (2007–2008) a konsolidačních (2009–2011) fázích se od roku 2012 chce systematizovat jeho růstová kapacita s cílem začlenit 75 700 verzí přibližně 32 000 webových stránek ročně, z:
- Pololetní kompilace z 30 000 zdrojů .cat domény.
- Pololetní kompilace z 550 zdrojů od více než 450 organizací s dohodou o spolupráci.
- Pololetní kompilace ze zdrojů, které uživatelé doporučili.
- Denní kompilace z podstatné části 30 online seriálů.
Kromě toho existují čtyři stálé pracovní oblasti:
- Definování strategií zachování digitálního dědictví zrozeného na internetu. PADICAT poskytuje pravidelné zprávy o katalánských webových stránkách; zjišťuje, které formáty mají problémy s nečitelností; a identifikuje nejpoužívanější jazyky atd.
- Podpora linií výzkumu vytvářením monografických sbírek se zapojením odborníků z každého předmětu.
- Vytváření a údržba archivu digitálních seriálů prostřednictvím systematického zachycování digitálních seriálů z Internetu. Nyní se skládá z reprezentativního vzorku o druhu a obsahu, vybraného mezi původními digitálními, bez analogického ekvivalentu.
- Spolupráce s dalšími webovými archivy, knihovnami, archivy a muzei za poskytnutí účinné odpovědi na výzvy v oblasti digitálního uchovávání a přístupu k jeho zdrojům.
Fungující
Software
![](http://upload.wikimedia.org/wikipedia/commons/thumb/f/f2/Software_ca.png/220px-Software_ca.png)
PADICAT je systém založený na implementaci několika software které umožňují shromažďování, ukládání, organizování, uchovávání a trvalý přístup k webovým stránkám. Později do fáze analýzy a softwarového testu bylo určeno, které mají být použity Heritrix[12] software používaný při většině projektů digitalizace digitálních zdrojů. Jedná se o softwarový poplatek za kompilaci webových stránek, jak to vidí uživatel při procházení Internetu a uložení do komprimovaných souborů OBLOUK nebo WARC rozšíření. Poté software Heritrix doplňuje NutchWax,[13] nebo kombinací s Hadoop[14] a Cesta zpět,[15] provádění procesu indexování pro kompilované informace, které umožní použití těchto indexů pro lokalizaci prostředků kolekce z rozhraní dotazů: Wera,[16] který umožňuje vyhledávání z klíčových slov prostřednictvím generovaných indexů pomocí NutchWax; a Wayback, který umožňuje konzultovat URL v generovaných indexech Hadoop a stejný Wayback.
Byl použit nástroj Webový kurátor[17] software vyvinutý společností Národní knihovna Nového Zélandu a Britská knihovna, jako systém správy dokumentů, který umožňuje přidělit metadata významné části sbírky, aby bylo možné v budoucnu integrovat depozitní fondy pro vyhledávání v jiných katalozích, od Biblioteca de Catalunya nebo jiných institucí. V současné době jsou webové stránky katalogizovány prostřednictvím CAT,[18] software výslovně vyvinutý techniky CESCA pro projekt.
Hardware
![](http://upload.wikimedia.org/wikipedia/commons/thumb/3/31/Cesca_maquinari.jpg/220px-Cesca_maquinari.jpg)
Pokud jde o Hardware který udržuje systém, existuje šest uzlů HP ProLiant DL360 G4p, které zajišťují sběr a indexaci webových stránek. Na starosti vyhledávání a prohlížení výsledků ve webovém rozhraní je vysoká dostupnost linuxového klastru s vyváženými funkcemi zatížení požadavků a tolerancí chyb, pokud dojde k technické katastrofě uzlů, které integrují platformu. Kabina NetApp FAS3170 představuje těmto uzlům kapacitu disku 19 TB přes NFS.
Uzly jsou spojeny vláknem s a Síť úložiště (SAN) a je doplněn o záchranný systém záložního robota dat.
Očekává se zahrnutí uloženého obsahu v PADICATu do COFRE[19] (COnservem per al Futur Recursos Electrònics), vysoce zabezpečovací systém vytvořený pro Biblioteca de Catalunya
Reference
- ^ Oficiální webové stránky
- ^ Biblioteca de Catalunya (2005), Memòria del plantejament del projecte PADICAT (Patrimoni Digital de Catalunya), Barcelona: Biblioteca de Catalunya, vyvoláno 2012-11-22
- ^ Mezinárodní konsorcium pro uchování internetu
- ^ Australská národní knihovna (2003), Pokyny pro zachování digitálního dědictví (PDF), Canberra: UNESCO, vyvoláno 2012-11-22
- ^ Llueca, Ciro (2005), Přístupy k webovým semperům: národní biblioteques národní i digitální dipósits národní „BiD: textos universitaris de biblioteconomia i documentació, vyvoláno 2012-11-20
- ^ Kulturarw3
- ^ Pandora
- ^ Internetový archiv
- ^ PADICAT
- ^ Byla podepsána dohoda o spolupráci mezi Biblioteca de Catalunya a fundació puntCAT za účelem zachování webových stránek
- ^ Llueca, Ciro; Cócera, Daniel; Torres, Natálie; et al. (2012), Rituální tweet: archivando elecciones 2.0 (PDF)„Profesionální profesionál, vyvoláno 2012-11-21
- ^ Heritrix
- ^ NutcWax
- ^ Hadoop
- ^ Cesta zpět
- ^ Wera
- ^ Nástroj webového kurátora
- ^ Llueca, Ciro; Cócera, Daniel; Torresa, Natálie; et al. (2010), CAT (nástroj pro archivaci kurátora): zlepšení přístupu k webovým archivům = CAT (nástroj pro archivaci kurátora): millorant l'accés als arxius web = CAT (nástroj pro archivaci kurátora): přístup k webovému serveru los (PDF), vyvoláno 2012-11-21
- ^ Serra, Eugènia; Pérez, Karibel; Llueca, Ciro (2012), „La Biblioteca de Catalunya i l'accés al patrimoni digital“, Métodos de Informacion, JÁ, 2 (2): 5–20, doi:10.5557 / IIMEI2-N2-005020, vyvoláno 2012-11-21