Partnerství pro vytváření textů - Text Creation Partnership
![]() | tento článek potřebuje další citace pro ověření.Leden 2016) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Partnerství pro vytváření textů (TCP) je nezisková organizace se sídlem v knihovně Michiganská univerzita od roku 2000[Aktualizace]. Jejím účelem je vyrábět rozsáhlé plnotextové elektronické zdroje (zejména v humanitních oborech) jménem jak členských institucí (zejména akademických knihoven), tak vědeckých vydavatelů, a to v uspořádání vypočítaném tak, aby vyhovovalo potřebám obou, a přitom prokázat hodnotu obchodního modelu, který považuje podnikové a neziskové poskytovatele informací za potenciálně přátelské spolupracovníky spíše než za antagonistické dodavatele a zákazníky.[1]
Projekty
TCP dosud sponzorovalo čtyři projekty vytváření textů. První a největší je „EEBO-TCP (Fáze I)“ (2001–2009), snaha o vytvoření strukturovaných značných plnotextových přepisů více než 25 000 ze zhruba 125 000 knih, které lze najít v Pollard a Redgrave a křídlo katalogy s krátkým názvem raných anglických tištěných knih nebo mezi Thomason Tracts, tj. z téměř všech knih, brožurek a soustředených útoků vydaných v angličtině nebo v Anglii před rokem 1700. Knihy byly vybrány a přepsány z digitálních skenů vytvořených ProQuest Informace a učení a distribuovány jimi jako webový produkt pod názvem „Rané anglické knihy online"(EEBO). Skeny, ze kterých byly texty přepisovány, byly samy vyrobeny z kopií mikrofilmů, které v průběhu let vytvořila společnost ProQuest a její předcházející společnosti, včetně původních University Microfilms, Inc.[2] EEBO-TCP Fáze I byla uzavřena na konci roku 2009 po přepisu asi 25 300 titulů a okamžitě se přesunula do EEBO-TCP Fáze II (2009–), což je pokračovací projekt věnovaný převodu všech zbývajících jedinečných monografií v anglickém jazyce (zhruba 45 000 dalších tituly).
Třetím projektem TCP byl Evans-TCP (2003–2007, s některými probíhajícími pracemi do roku 2010), snaha přepsat 6 000 z 36 000 titulů z doby před 1800 uvedených v Charles Evans Americká bibliografie, a distribuovány, opět jako obrázky stránek naskenované z kopií mikrofilmů, autorem Readex, divize NewsBank, Inc. pod jménem "Archiv Americany "(" Early American Imprints, řada I: Evans, 1639–1800 "). Evans-TCP vytvořil e-texty téměř 5 000 knih.
Konečným projektem TCP byl ECCO-TCP (2005–2010, probíhají práce), snaha přepsat 10 000 knih z osmnáctého století z 136 000 titulů dostupných v Thomson-Gale webový zdroj „Kolekce osmnáctého století online“ (ECCO). ECCO-TCP vyčerpalo financování v roce 2010 po přepisu asi 3 000 (a úprav asi 2 400) titulů.
Společné rysy projektu
Všechny čtyři textové projekty TCP jsou si velmi podobné. V každém případě:
- Protokol TCP vytváří text z komerčních obrazových souborů, které byly zase vytvořeny z mikrofilmových kopií raných knih.
- Poskytovatelé komerčních obrazů dostávají ve skutečnosti fulltextový rejstřík k jejich obrazovému produktu za mnohem méně, než by stálo jejich vlastní výrobu: přidaná hodnota k jejich produktu.
- Partnerské knihovny ve skutečnosti vlastní výsledné texty, nikoli pouze je licencují, a mohou (za určitých podmínek) svobodně připojovat texty samy v jakémkoli systému, který se jim líbí, nebo interně používat texty jako nástroj vědecké práce a výuky.
- Texty jsou vytvářeny podle standardů stanovených knihovnou, jednotné ve více souborech dat a potenciálně prohledávatelné.
- Vzhledem k tomu, že jsou vytvářeny společně, jsou texty relativně levné (na základě jednotlivých knih) a stávají se více s každou knihovnou, která se připojuje k partnerství.
- Texty budou nakonec volně přístupné široké veřejnosti.
- Výběr textů k převodu, i když se liší od projektu k projektu, se v každém případě řídí podobnými principy: rozmanitost, význam, reprezentativní kvalita, zamezení duplikace; obecně jsou také respektovány konkrétní žádosti fakulty nebo vědecké iniciativy na členských institucích.
- TCP se dosud primárně zajímal o vytváření textů, nikoli o vytváření „produktu“; ačkoli texty ze všech tří projektů jsou nebo budou připojeny k serverům v knihovně University of Michigan, web v Michiganu není oficiálním webem TCP: jakákoli partnerská knihovna s odpovídajícími zdroji a zárukami může dělat totéž. Například texty EEBO-TCP obsluhují Michigan, ProQuest, Oxford University Digital Library a University of Chicago.
Organizace
Na TCP dohlíží správní rada, která je složena zejména z vedoucích správců knihoven v partnerských institucích, zástupců firemních partnerů a Rada pro knihovnické a informační zdroje (CLIR). Správní radě ve věcech výběru a stipendia pomáhá akademická poradní skupina, která zahrnuje fakulty v oblasti raně novověkých anglických a amerických studií.
TCP má neformální vazby na řadu univerzitních vědeckých textových projektů, zejména v tom, že jim pomáhá poskytovat zdrojové texty, se kterými mohou pracovat. Zastoupené instituce zahrnují Northwestern University (IL), Oxford University (UK), Washington University (St. Louis), University of Sydney (Australia), University of Toronto (ON) a University of Victoria (BC). TCP také spolupracoval se studenty tím, že každoročně sponzoruje soutěž o vysokoškolské eseje, svolává pracovní skupiny pro použití textů TCP v pedagogice a apeluje na vědce a studenty, aby získali nápady na výběr a použití.
Produkce textu je řízena prostřednictvím University of Michigan Služba produkce digitální knihovny (DLPS) se svými rozsáhlými zkušenostmi s produkcí elektronických textů kódovaných SGML / XML. DLPS je nápomocen Oxfordská univerzita Bodleian Digital Libraries Systems & Services (BDLSS), včetně pozdních Sebastian Rahtz. Malé výrobní operace na částečný úvazek byly zahájeny také ve dvou dalších knihovnách: v Centru pro reformaci a renesanční studia v Pratt Library (Victoria University na University of Toronto) se specializací na latinské knihy; a Waleská národní knihovna (Llyfrgell Genedlaethol Cymru) v Aberystwyth se specializací na velšské knihy.
Standardy
Všechny čtyři textové projekty TCP jsou vyráběny stejným způsobem a podle stejných standardů, které jsou alespoň částečně dokumentovány na webu TCP.[3]
- Přesnost. TCP se snaží vytvářet texty, které jsou přepisovány co nejpřesněji, se stanovenou celkovou mírou přesnosti 99,995% nebo lepší (tj. Jedna chyba nebo méně na 20 000 znaků).
- Klíčování. Vzhledem k povaze materiálu je jedinou metodou, která ekonomicky poskytla takovou přesnost, to, že knihy byly klíčovány firmami pro převod dat na základě smlouvy.
- Kontrola kvality. Přesnost transkripce a vhodnost označení jsou ve všech případech hodnoceny skupinou korektorů a recenzentů založených na knihovnách spravovaných DLPS z University of Michigan.
- Kódování. Všechny výsledné textové soubory jsou označeny v platném SGML nebo XML (SGML je archivován, XML je exportován), což odpovídá proprietárnímu „Document Type Description“ (DTD) odvozenému z verze P3 / P4 Iniciativa pro kódování textu (TEI) standard.
- Účelné označení. Ve srovnání s úplným TEI je TCP DTD velmi jednoduchý a je určen k zachycení pouze funkcí, které jsou nejužitečnější pro srozumitelné zobrazení, inteligentní navigaci a produktivní vyhledávání. Praxí TCP je zachytit, pokud je to proveditelné, celkovou hierarchickou strukturu každé knihy (části, oddíly, kapitoly atd.); rysy, které mají sklon označovat začátky a konce divizí (nadpisy, vysvětlivky, pozdravy, rozkazy, dateliny, byliny, epigrafy atd.); nejdůležitější prvky diskurzu a organizace (odstavce v próze, řádky a sloky ve verších, projevy, řečníci a divadelní směry v dramatu, poznámky, blokové citace, sekvenční číslování všeho druhu); a pouze nejdůležitější aspekty fyzického formátování (konce stránek, seznamy, tabulky, změny písma).
- Věrnost originálu. V každém případě má text představovat knihu, jak byla původně vytištěna, pokud je to možné. Chyby tiskárny jsou zachovány, ručně psané změny jsou ignorovány, duplicitní skenování jsou vynechána, obrazy mimo pořadí jsou zadány v zamýšleném pořadí a většina neobvyklých znaků originálu je zachována.
- Snadné čtení a vyhledávání. Současně, ačkoli se transkripce provádějí znak po znaku, má TCP, podle teorie, že veškerý přepis je druh překladu z jednoho symbolického systému do druhého, tendenci definovat znaky z hlediska více jejich významu než jejich a mapovat výstřední tvary písmen na smysluplné moderní ekvivalenty, obecně v souladu s definicí „znaku“ v Unicode.
- Jazyky. Ačkoli většina textů TCP je v angličtině, mnoho z nich není. Knihy a divize knih, které nejsou v angličtině, jsou označeny příslušným kódem jazyka, ale jinak se nerozlišují.
- Vynechaný materiál. TCP vytváří latinskou abecedu text. Netextové materiály, jako je notový zápis, matematické vzorce a ilustrace (s výjimkou textu, který mohou obsahovat), jsou vynechány a jejich umístění je označeno speciální značkou. Vynechán je také rozšířený text v jiných než latinských abecedách (řečtině, hebrejštině, perštině atd.).
Úspěchy a vyhlídky
V dubnu 2011 vytvořil TCP asi 40 000 prohledávatelných, splavných, plnotextových přepisů raných knih, databázi bezkonkurenčního rozsahu, rozsahu a užitečnosti pro studenty v mnoha oborech. Zda bude schopna pokračovat v produkci zbývajících 38 000 textů zahrnutých do jejích ambiciózních nedávných plánů (pro EEBO-TCP Fáze II), bude záležet na platnosti její původní vize, vyplývající z teorie, že knihovny by mohly a měly by spolupracovat, aby se staly producenti a tvůrci norem spíše než spotřebitelé; a že univerzity a komerční firmy by se navzdory jejich velmi odlišným životním cyklům, omezením a motivům mohly připojit k trvalému partnerství ve prospěch všech stran.
K 1. lednu 2015 byl vydán plný text fáze EEBO I pod licencí Creative Commons a lze jej volně stáhnout a distribuovat.
V roce 2014 bylo prostřednictvím Fáze II k dispozici 28 466 titulů. Od července 2015 měl ProQuest výhradní právo na pět let distribuovat kolekci EEBO-TCP Phase II. Po těchto pěti letech budou texty volně přístupné veřejnosti.
Viz také
Reference
- ^ Blumenstyk, Goldie (10. srpna 2001). „Projekt usiluje o digitalizaci tisíců raných anglických textů“. Kronika vysokoškolského vzdělávání: A47. Citováno 2007-01-04.
- ^ Beamish, Rita (29. července 1999). „Online archiv zachová nejstarší anglické knihy“. New York Times. Citováno 2007-01-04.
- ^ "Produkční soubory". Partnerství pro vytváření textů. Citováno 2020-03-12.
externí odkazy
- Hlavní (Michigan) web TCP
- Webová stránka Oxford TCP
- Interní dokumentace TCP
- Fulltextové stahování EEBO Phase I
- Demonstrační stránky (otevřené veřejnosti) pro
- Weby s přístupem do databáze (otevřené pro členy partnerských institucí) pro
- EEBO-TCP ve společnosti
- Evans-TCP ve společnosti University of Michigan (prostřednictvím DLXS).
- ECCO-TCP ve společnosti University of Michigan (prostřednictvím DLXS).