Iniciativa pro kódování textu - Text Encoding Initiative - Wikipedia

The Iniciativa pro kódování textu (TEI) je textově orientovaný komunita praxe v akademický obor z digitální humanitní vědy, fungující nepřetržitě od 80. let. Komunita aktuálně provozuje seznam adresátů, schůzky a konference a spravuje stejnojmenný technická norma, a časopis, a wiki, a GitHub úložiště a řetězec nástrojů.
Pokyny TEI
The Pokyny TEI společně definovat typ XML formátu a jsou určujícím výstupem komunity praxe. Formát se liší od ostatních známých otevřené formáty pro text (např HTML a OpenDocument ) v tom, že je to spíše sémantické než prezentační; sémantika a interpretace každé značky a atributu jsou specifikovány. Asi 500 různých textových komponent a konceptů (slovo,[1]věta,[2]charakter,[3]glyf,[4]osoba,[5]atd.); každý je založen na jedné nebo více akademických disciplínách a jsou uvedeny příklady.
Technické údaje
Standard je rozdělen na dvě části, diskurzivní textový popis s rozšířenými příklady a diskusi a sadu definic tag-by-tag. Schémata ve většině moderních formátů (DTD, RELAX NG a Schéma W3C ) jsou generovány automaticky z definic tag-by-tag. Řada nástrojů podporuje tvorbu pokynů a jejich aplikaci na konkrétní projekty.
K obcházení omezení uložených podkladem se používá řada speciálních značek Unicode; glyf umožnit reprezentaci znaků, které nesplňují podmínky pro zahrnutí Unicode[1] a výběr umožnit překonat požadovanou přísnou linearitu.[6]
Většina uživatelů formátu nepoužívá úplnou škálu značek, ale vytváří přizpůsobení pomocí podmnožiny značek a atributů definovaných v pokynech pro konkrétní projekt. TEI pro tento účel definuje propracovaný mechanismus přizpůsobení známý jako ODD. Kromě dokumentace a popisu každé značky TEI specifikace ODD specifikuje její obsahový model a další omezení použití, která lze vyjádřit pomocí schematron.
TEI Lite je příkladem takového přizpůsobení. Definuje XML -na základě formát souboru pro výměnu textů. Jedná se o zvládnutelný výběr z rozsáhlé sady prvků dostupných v úplných pokynech TEI.
Jako formát založený na XML se TEI nemůže přímo zabývat překrývající se označení a nehierarchické struktury. Pokyny navrhují různé možnosti reprezentace tohoto druhu dat.[7]
Příklady
Text pokynů TEI je bohatý na příklady. Na TEI wiki je také ukázková stránka[8] který uvádí příklady projektů z reálného světa, které odhalují jejich základní TEI.
Značky prózy
TEI umožňuje syntaktické označování textů na jakékoli úrovni podrobnosti nebo směsi podrobností. Například tento odstavec (p) byl označen na věty a věty (cl).[9]
<s> <cl>Bylo to asi začátkem září 1664, <cl>kterou jsem mezi ostatními sousedy slyšel v běžném diskurzu <cl>že mor byl znovu vrácen do Holandska; </cl> </cl> </cl> <cl>protože tam bylo velmi násilné, zejména v Amsterdamu a Rotterdamu, v roce 1663, </cl> <cl>kam, <cl>oni říkají,</cl> to bylo přineseno, <cl>někteří řekli</cl> z Itálie, další z Levantu, mezi některými výrobky <cl>které přivezla domů jejich turecká flotila;</cl> </cl> <cl>jiní říkali, že to bylo přineseno z Candie; ostatní z Kypru. </cl> </s> <s> <cl>To nevadilo <cl>odkud to přišlo;</cl> </cl> <cl>ale všichni souhlasili <cl>to přišlo znovu do Holandska.</cl> </cl> </s>
Verš
TEI má značky pro označení veršů. Tento příklad (převzatý z francouzského překladu pokynů TEI) ukazuje sonet[10]
zadejte ="sonet"> zadejte ="čtyřverší"> <l>Les amoureux fervents et les savants austères</l> <l> Aiment également, dans leur mûre saison,</l> <l> Les chats puissants et doux, orgueil de la maison,</l> <l> Qui comme eux sont frileux et comme eux sédentaires.</l> </lg> zadejte ="čtyřverší"> <l>Amis de la science et de la volupté</l> <l> Il cherchent le silence et l'horreur des ténèbres;</l> <l> L'Érèbe les eût pris pour ses coursiers funèbres,</l> <l> S'ils pouvaient au servage incliner leur fierté.</l> </lg> zadejte ="tercet"> <l>Ils prennent en songeant les nobles postoje</l> <l>Des grands sphinx allongés au fond des solitude,</l> <l>Qui semblent s'endormir dans un rêve sans fin;</l> </lg> zadejte ="tercet"> <l>Leurs otěže féconds bez pleins d'étincelles magiques,</l> <l> Et des parcelles d'or, ainsi qu'un sobolí ploutev,</l> <l>Étoilent vaguement leurs prunelles mystiques.</l> </lg></div> Značka volby
The výběr tag se používá k reprezentaci částí textu, které mohou být kódovány nebo označeny více než jedním možným způsobem. V následujícím příkladu, na základě jednoho ve standardu, výběr se používá dvakrát, jednou k označení originálu a opraveného roku a jednou k označení originálu a legalizovaného pravopisu.[11]
xml: id =„p23“>A konečně, že na svou slavnostní přísahu dodržovat všechny výše uvedené články bude mít uvedená hora člověka denní dávku masa a pití dostatečnou pro podporu <choice> <sic>1724</sic> <corr>1728</corr> </choice> našich subjektů, s volným přístupem k naší královské osobě a dalším známkám našeho<choice> <orig>laskavost</orig> <reg>laskavost</reg> </choice>.
ZVLÁŠTNÍ
Jeden dokument dělá všechno („ODD“) je a gramotné programování jazyk pro Schémata XML.[12][13][14][15]
Ve stylu gramotného programování kombinují dokumenty ODD dokumentaci čitelnou člověkem a strojově čitelné modely pomocí modulu Documentation Elements iniciativy pro kódování textu. Nástroje se generují lokalizované a internacionalizované HTML, ePub nebo PDF člověkem čitelný výstup a DTD, Schéma XML W3C, Relax NG Kompaktní syntaxe nebo Relax NG XML Syntax strojově čitelný výstup.
Romská webová aplikace[16] je postaven na formátu ODD a lze jej použít ke generování schémat v DTD, Schéma XML W3C, Relax NG Compact Syntax nebo Relax NG XML Syntax formats, jak je používá mnoho nástrojů a služeb pro ověřování XML.
ODD je formát, který interně používá iniciativa pro kódování textu stejnojmenný technická norma.[17] Ačkoli soubory ODD obecně popisují rozdíl mezi upraveným formátem XML a úplným modelem TEI, lze ODD také použít k popisu formátů XML, které jsou zcela oddělené od TEI. Jedním z příkladů je W3C Sada značek internacionalizace který používá formát ODD ke generování schémat a dokumentaci své slovní zásoby.[18][19]
Přizpůsobení TEI
Přizpůsobení TEI jsou specializace specifikace XML TEI pro použití v konkrétních oblastech nebo v konkrétních komunitách.
- EpiDoc (Epigrafické dokumenty)
- Charters Encoding Initiative
- Středověký archiv severských textů (Menota)
Přizpůsobení v TEI se provádí pomocí výše zmíněného mechanismu ODD. Ve skutečnosti od verze P5 jsou všechna takzvaná „TEI Conformant“ použití pokynů TEI založena na přizpůsobení TEI dokumentovaném v souboru TEI ODD. I když si uživatelé k ověření vyberou jedno z předem vygenerovaných schémat, byla vytvořena z volně dostupných souborů přizpůsobení.
Projekty
Tento formát používá mnoho projektů po celém světě. Prakticky všechny projekty jsou spojeny s jednou nebo více univerzitami. Mezi známé projekty, které kódují texty pomocí TEI, patří:
Dějiny
Před vytvořením TEI humanitní vědci neměli žádné společné standardy pro kódování elektronických textů způsobem, který by sloužil jejich akademickým cílům (Hokej 1993, s. 41). V roce 1987 se na akademii Vassar College sešla skupina vědců zastupujících obory v humanitních, lingvistických a počítačových oborech, aby předložili soubor pokynů známých jako „Poughkeepsie Principles“. Tyto pokyny směřovaly k vývoji prvního standardu TEI „P1“[20][21]
- 1987 Práce na tom, co by se stalo TEI, začaly Sdružení pro počítače a humanitní vědy,[22] the Sdružení pro výpočetní lingvistiku a Sdružení pro literární a jazykovou práci na počítači.[23] To vyvrcholilo Závěrečné prohlášení plánovací konference Vassar[24]
- 1994 TEI P3 vydáno[25] spoluautorem Lou Burnard (na Oxfordská univerzita ) a Michael Sperberg-McQueen (pak na University of Illinois v Chicagu, později na W3C ).
- 1999 TEI P3 aktualizováno.
- 2002 Vydáno TEI P4, přechod z SGML na XML; přijetí Unicode, které jsou podporovány analyzátory XML.[26]
- 2007 Vydáno TEI P5, včetně integrace s
xml: lang
a xml: id
atributy z W3C[27] (dříve to byly atributy v oboru názvů TEI), regularizace místních atributů ukazování na použití hash (jak se používá v HTML) a sjednocení značek ptr a xptr. Společně tyto změny s mnoha dalšími přírůstky činí P5 pravidelnějším a přibližují ho k současné praxi xml, jak ji propaguje W3C a jak jej používají jiné varianty XML. Verze TEI P5 pro údržbu a aktualizaci funkcí byly vydány nejméně dvakrát ročně od roku 2007. - 2011 TEI P5 v2.0.1 vydáno s podporou pro genetické úpravy.[28] (kromě mnoha dalších doplňků umožňují funkce genetické úpravy kódování textů bez interpretace jejich konkrétní sémantiky.)
- 2017 TEI byla oceněna Cena Antonia Zampolliho od Aliance digitálních humanitních organizací. [29]
Reference
- ^ A b „Element w (word) - TEI P5“.
- ^ „Element s (jednotka s) - TEI P5“.
- ^ "Prvek c (znak) - TEI P5".
- ^ "Prvek g (znak nebo glyf) - TEI P5".
- ^ "Osoba elementu (osoba) - TEI P5".
- ^ "Výběr prvku - TEI P5".
- ^ „20 nehierarchických struktur - TEI P5: - Pokyny pro elektronické kódování a výměnu textu“. tei-c.org. 2019. Citováno 19. března 2019.
- ^ „Ukázky textů TEI“. wiki.tei-c.org. 2011. Citováno 17. dubna 2012.
- ^ „17 jednoduchých analytických mechanismů - TEI P5: - Pokyny pro elektronické kódování a výměnu textu“. tei-c.org. 2012. Citováno 15. dubna 2012.
- ^ „TEI element lg (skupinová verze)“. tei-c.org. 2012. Citováno 15. dubna 2012.
- ^ „TEI prvek výběr". tei-c.org. 2012. Citováno 15. dubna 2012.
- ^ Bauman, Syd; Flanders, Julia (2004), „ODD customizations“, Extrémní značkovací jazyky 2004.
- ^ Burnard, Lou; Rahtz, Sebastian (2004), „RelaxNG with Son of ODD“, Extrémní značkovací jazyky 2004.
- ^ Reiss, Kevin M. (2007), Literární dokumentace pro XML (PDF), Urbana-Champaign, Illinois: Digital Humanities 2007.
- ^ Burnard, Lou; Rahtz, Sebastian (Červen 2013). „Kompletní jazyk definice schématu pro iniciativu kódování textu“. XML Londýn 2013: 152–161. doi:10. 14337 / XMLLondon 13. Rahtz01. ISBN 978-0-9926471-0-0.
- ^ Romská webová aplikace
- ^ Burnard, Lou; Bauman, Syd, eds. (2007), TEI P5: Pokyny pro elektronické kódování a výměnu textu, Charlottesville, Virginie, USA: TEI Consortium.
- ^ W3C ITS a Soubor TEI ODD.
- ^ Savourel, Yves; Kosek, Jirka; Ishida, Richard, eds. (2008), „5.2 ITS a TEI“, Osvědčené postupy pro internacionalizaci XML Pracovní skupina W3C.
- ^ Ahronheim, J. R. (1998). "Popisná metadata: vznikající standardy". Journal of Academic Librarianship. 24 (5): 395–403. doi:10.1016 / S0099-1333 (98) 90079-9.
- ^ Cantara, L. (2005). "Iniciativa pro kódování textu: Část 1". OCLC systémy a služby. 21 (1): 36–39. doi:10.1108/10650750510578136.
- ^ ach.org
- ^ "Historické pozadí", oddíl iv.2 TEI P5: Pokyny pro elektronické kódování a výměnu textu.
- ^ „Závěrečné prohlášení plánovací konference Vassar“. tei-c.org. 2009. Citováno 15. dubna 2012.
- ^ „Pokyny TEI“. Citováno 2010-06-18.
- ^ "2", Základy XML, vyvoláno 2011-07-09
- ^ „Extensible Markup Language (XML) 1.0 (páté vydání)“. w3.org.
- ^ „Poznámky k verzi P5 verze 2.0.1“. tei-c.org. 2012. Citováno 15. dubna 2012.
- ^ „TEI: Iniciativa pro kódování textu“.
externí odkazy
- Web společnosti TEI Consortium se seznamem Projekty TEI, a formulář pro přidání vašeho projektu a wiki
- Deník TEI
- TEI Lite: Úvod do kódování textu pro výměnu
- TEI @ Oxford (hostováno v Oxfordská univerzita ) s vývojovými a záložními verzemi většiny základního obsahu.
- Web TEI GitHub (hostováno v GitHub ) s úložištěm a sledovačem problémů
- Větší seznam projektů TEI
- Co je TEI? (Úvodní přehled Lou Burnard)