PADICAT - PADICAT

PADICAT
PADICAT BN.jpg
URLhttp://www.padicat.cat/

PADICAT zkratka pro Patrimoni Digital de Catalunya, v Katalánština; nebo digitální dědictví Katalánsko, v angličtině, je Webový archiv Katalánska.[1]

Vytvořeno v roce 2005[2] podle Biblioteca de Catalunya, veřejná instituce odpovědná za sběr, uchování a distribuci bibliografického dědictví a jeho rozšíření digitálním. Má technologickou spolupráci Centrum pro vědecké a akademické služby Katalánska, (CESCA) za zachování a zpřístupnění starých verzí webových stránek zveřejněných na internetu Internet. Biblioteca de Catalunya, odpovědná za PADICAT, je členem Mezinárodní konsorcium pro uchování internetu (IIPC).[3]

Dějiny

Web PADICAT 2011

PADICAT se narodil v roce 2005 v návaznosti na trend ostatních národní knihovny o vytváření webových archivů a jako odpověď na zveřejnění pokynů k ochraně digitálního dědictví[4] podle UNESCO. Je jich mnoho spuštěné webové archivy.[5] Nejslavnější začal v roce 1996: švédská Kulturarw3;[6] Australan Pandora,[7] a nejoblíbenější úložiště, Internetový archiv.[8]

Analýza těchto a dalších projektů prošla plánováním projektu PADICAT v návaznosti na společný celosvětový trend hybridního modelu fungování, který doplňuje pravidelné zachycení celé geografické oblasti (.kočka v tomto případě) pomocí selektivních akcí a rozšířit toto pokrytí na různé sociální události, které generují intenzivní aktivitu v síti (volební kampaně, například) nebo s tematickými balíčky (muzea Katalánska, Katalánština folk-rock na webu atd.). PADICAT toto vše doplňuje o příspěvky uživatelů prostřednictvím doporučených webů.

V červnu 2005 zahájila Biblioteca de Catalunya předběžnou fázi plánování, ve které byla provedena analýza projektů týkající se stávajících zdrojů, agentů podílejících se na výrobě webových stránek Katalánska a právních otázek, které určují postupy, které chtějí dělat.

Na základě parametrů definovaných v Biblioteca de Catalunya začala 21. července 2006 automaticky shromažďovat webové stránky, které pravděpodobně budou součástí digitálního dědictví Katalánska. Dne 11. Září 2006, u příležitosti oslav Národní den Katalánska Byl otevřen web PADICAT pro veřejnost s uloženými asi třiceti webovými stránkami.

Období 2006–08 představuje produkční fázi, pilotní plán projektu, provozní fázi PADICAT: systematické zachycování webových stránek Katalánska.

Období 2009–2011 by Biblioteca de Catalunya měla být v optimální pozici, přičemž tento systém - průkopník v Španělsko a měřítko v Evropa - pracuje na plný výkon. Dále jsme dosáhli dohod o spolupráci s více než 450 institucemi všeho druhu a zaručili otevřený online přístup ke všem sbírkám. 11. září 2011, kdy se znovu konal národní den Katalánska a páté výročí jeho webových stránek, otevřel PADICAT nová verze webových stránek pro přístup ke všemu uloženému obsahu.

V listopadu 2012 PADICAT zachoval 58 122 webů, 249 609 procházení, 349 milionů souborů a 13 TB místa na disku. Všechny jsou volně dostupné.[9]

Poslání a fungování

Poslání a cíle

Posláním PADICATu je sklízet, zpracovávat a poskytovat přístup k digitálnímu dědictví Katalánska zrozenému na internetu. Jeho cílem je:

  • Masivní kompilace .kočka doména, díky dohodě s Fundació puntCat.[10]
  • Systematická archivace produkce webových stránek katalánských organizací a společností.
  • Propagujte linie výzkumu prostřednictvím tematické integrace digitálních zdrojů souvisejících s konkrétními událostmi v katalánském veřejném životě, jako je politické kampaně[11] na internetu, online hudební fenomén nebo muzea na internetu.

Po jeho zrození (2005–2006), růstových (2007–2008) a konsolidačních (2009–2011) fázích se od roku 2012 chce systematizovat jeho růstová kapacita s cílem začlenit 75 700 verzí přibližně 32 000 webových stránek ročně, z:

  • Pololetní kompilace z 30 000 zdrojů .cat domény.
  • Pololetní kompilace z 550 zdrojů od více než 450 organizací s dohodou o spolupráci.
  • Pololetní kompilace ze zdrojů, které uživatelé doporučili.
  • Denní kompilace z podstatné části 30 online seriálů.

Kromě toho existují čtyři stálé pracovní oblasti:

  • Definování strategií zachování digitálního dědictví zrozeného na internetu. PADICAT poskytuje pravidelné zprávy o katalánských webových stránkách; zjišťuje, které formáty mají problémy s nečitelností; a identifikuje nejpoužívanější jazyky atd.
  • Podpora linií výzkumu vytvářením monografických sbírek se zapojením odborníků z každého předmětu.
  • Vytváření a údržba archivu digitálních seriálů prostřednictvím systematického zachycování digitálních seriálů z Internetu. Nyní se skládá z reprezentativního vzorku o druhu a obsahu, vybraného mezi původními digitálními, bez analogického ekvivalentu.
  • Spolupráce s dalšími webovými archivy, knihovnami, archivy a muzei za poskytnutí účinné odpovědi na výzvy v oblasti digitálního uchovávání a přístupu k jeho zdrojům.

Fungující

Software

Schéma pracovního postupu softwaru PADICAT

PADICAT je systém založený na implementaci několika software které umožňují shromažďování, ukládání, organizování, uchovávání a trvalý přístup k webovým stránkám. Později do fáze analýzy a softwarového testu bylo určeno, které mají být použity Heritrix[12] software používaný při většině projektů digitalizace digitálních zdrojů. Jedná se o softwarový poplatek za kompilaci webových stránek, jak to vidí uživatel při procházení Internetu a uložení do komprimovaných souborů OBLOUK nebo WARC rozšíření. Poté software Heritrix doplňuje NutchWax,[13] nebo kombinací s Hadoop[14] a Cesta zpět,[15] provádění procesu indexování pro kompilované informace, které umožní použití těchto indexů pro lokalizaci prostředků kolekce z rozhraní dotazů: Wera,[16] který umožňuje vyhledávání z klíčových slov prostřednictvím generovaných indexů pomocí NutchWax; a Wayback, který umožňuje konzultovat URL v generovaných indexech Hadoop a stejný Wayback.

Byl použit nástroj Webový kurátor[17] software vyvinutý společností Národní knihovna Nového Zélandu a Britská knihovna, jako systém správy dokumentů, který umožňuje přidělit metadata významné části sbírky, aby bylo možné v budoucnu integrovat depozitní fondy pro vyhledávání v jiných katalozích, od Biblioteca de Catalunya nebo jiných institucí. V současné době jsou webové stránky katalogizovány prostřednictvím CAT,[18] software výslovně vyvinutý techniky CESCA pro projekt.

Hardware

Servery PADICAT na CESCA

Pokud jde o Hardware který udržuje systém, existuje šest uzlů HP ProLiant DL360 G4p, které zajišťují sběr a indexaci webových stránek. Na starosti vyhledávání a prohlížení výsledků ve webovém rozhraní je vysoká dostupnost linuxového klastru s vyváženými funkcemi zatížení požadavků a tolerancí chyb, pokud dojde k technické katastrofě uzlů, které integrují platformu. Kabina NetApp FAS3170 představuje těmto uzlům kapacitu disku 19 TB přes NFS.

Uzly jsou spojeny vláknem s a Síť úložiště (SAN) a je doplněn o záchranný systém záložního robota dat.

Očekává se zahrnutí uloženého obsahu v PADICATu do COFRE[19] (COnservem per al Futur Recursos Electrònics), vysoce zabezpečovací systém vytvořený pro Biblioteca de Catalunya

Reference

  1. ^ Oficiální webové stránky
  2. ^ Biblioteca de Catalunya (2005), Memòria del plantejament del projecte PADICAT (Patrimoni Digital de Catalunya), Barcelona: Biblioteca de Catalunya, vyvoláno 2012-11-22
  3. ^ Mezinárodní konsorcium pro uchování internetu
  4. ^ Australská národní knihovna (2003), Pokyny pro zachování digitálního dědictví (PDF), Canberra: UNESCO, vyvoláno 2012-11-22
  5. ^ Llueca, Ciro (2005), Přístupy k webovým semperům: národní biblioteques národní i digitální dipósits národní „BiD: textos universitaris de biblioteconomia i documentació, vyvoláno 2012-11-20
  6. ^ Kulturarw3
  7. ^ Pandora
  8. ^ Internetový archiv
  9. ^ PADICAT
  10. ^ Byla podepsána dohoda o spolupráci mezi Biblioteca de Catalunya a fundació puntCAT za účelem zachování webových stránek
  11. ^ Llueca, Ciro; Cócera, Daniel; Torres, Natálie; et al. (2012), Rituální tweet: archivando elecciones 2.0 (PDF)„Profesionální profesionál, vyvoláno 2012-11-21
  12. ^ Heritrix
  13. ^ NutcWax
  14. ^ Hadoop
  15. ^ Cesta zpět
  16. ^ Wera
  17. ^ Nástroj webového kurátora
  18. ^ Llueca, Ciro; Cócera, Daniel; Torresa, Natálie; et al. (2010), CAT (nástroj pro archivaci kurátora): zlepšení přístupu k webovým archivům = CAT (nástroj pro archivaci kurátora): millorant l'accés als arxius web = CAT (nástroj pro archivaci kurátora): přístup k webovému serveru los (PDF), vyvoláno 2012-11-21
  19. ^ Serra, Eugènia; Pérez, Karibel; Llueca, Ciro (2012), „La Biblioteca de Catalunya i l'accés al patrimoni digital“, Métodos de Informacion, JÁ, 2 (2): 5–20, doi:10.5557 / IIMEI2-N2-005020, vyvoláno 2012-11-21

externí odkazy