Překrývající se označení - Overlapping markup

v značkovací jazyky a digitální humanitní vědy, překrytí nastane, když má dokument dvě nebo více struktur, které interagují vhierarchický způsobem. Dokument s překrývajícími se značkami nelze reprezentovat jako strom Toto je také známé jako souběžné značeníPřekrývání se děje například v poezie, kde může být metrický struktura chodidla a řádky; jazyková struktura vět a citací; a fyzická struktura svazků a stránek a redakční poznámky.^[1]^[2]

Dějiny

Strukturální rozdíly mezi více vydáními Frankenstein byly analyzovány překrývajícími se technikami.^[3]

Problém nehierarchických struktur v dokumentech je uznáván od roku 1988; jeho řešení proti dominantnímu paradigmatu textu jako jediné hierarchii (an seřazená hierarchie obsahových objektů nebo OHCO) byl původně považován pouze za technický problém, ale ve skutečnosti se ukázal jako mnohem obtížnější.^[4]V roce 2008, Jeni Tennison identifikoval překrytí značek jako „hlavní zbývající problémovou oblast pro značkovací technologie“.^[5]Překrývání značek je i nadále primárním problémem v digitálním studiu teologických textů v roce 2019 a je hlavním důvodem, proč si obor zachovává specializované formáty značek - Otevřený standard pro informace o Písmu a Teologický značkovací jazyk —Ještě než interoperabilní Iniciativa pro kódování textu - formáty založené na společném formátu pro zbytek souboru digitální humanitní vědy.^[6]

Vlastnosti a typy

Existuje rozdíl mezi schématy, které umožňují nesouvislé překrývání, a těmi, které umožňují pouze souvislé překrývání. „Překrytí značek“ často znamená přesně to druhé. Nepřetržité překrývání lze vždy představovat jako lineární dokument s milníky (obvykle koindexované počáteční a koncové značky), aniž by bylo nutné fragmentaci (logické) komponenty do více fyzických . Nesouvislé překrývání může vyžadovat fragmentaci dokumentu. Další rozdíl v překrývajících se značkovacích schématech je v tom, zda se prvky mohou překrývat s jinými prvky stejného druhu (samy se překrývají).^[2]

Schéma může mít a výsadní hierarchie XML schémata založená například představují jednu hierarchii přímo ve stromu dokumentů XML a představují další, překrývající se struktury jinými prostředky; jedná se o neprivilegovaný.

Schmidt (2012) identifikuje třístrannou klasifikaci případů překrytí: 1. „Variace obsahu a struktury“, 2. „Překrytí více perspektiv nebo sad značek“ a 3. „Překrytí jednotlivých počátečních a koncových značek v rámci jedné perspektivy značek“; dále , některé zjevné případy překrývání jsou ve skutečnosti problémy s definicí schématu, které lze vyřešit hierarchicky. Tvrdí, že typ 1 je nejlépe vyřešen systémem více dokumentů mimo značku, ale typy 2 a 3 vyžadují interní řešení.

Přístupy a implementace

DeRose (2004 `` Kritéria hodnocení) identifikuje několik kritérií pro posuzování řešení problému překrývání:

čitelnost a udržovatelnost,
podpora nástrojů a kompatibilita s XML,
možná schémata ověřování a
snadnost zpracování.

Označte polévku je, přísně vzato, nepřekrývající se označení - je poškozeno HTML, což je nepřekrývající se jazyk a může být špatně definovaný. Některé internetové prohlížeče se pokusil představovat překrývající se počáteční a koncovou značku s nehierarchickými Modely objektů dokumentu (DOM), ale toto nebylo standardizováno ve všech prohlížečích a bylo to neslučitelné s vrozeně hierarchickou povahou DOM.^[7]^[8]HTML5 definuje, jak mají procesory zacházet s takovými chybně vnořenými značkami v syntaxi HTML a proměnit je v jednu hierarchii.^[9]S XHTML a SGML založené na HTML je však nesprávně vnořené značení přísnou chybou a znemožňuje zpracování systémy vyhovující standardům.^[10]Standard HTML definuje a odstavec koncept, který může způsobit překrývání s jinými prvky a může být nesouvislý.^[11]

SGML, na kterém byly založeny rané verze HTML, má funkci nazvanou CONCUR, která umožňuje koexistenci více nezávislých hierarchií bez privilegování jakékoli.DTD validace je definována pouze pro každou jednotlivou hierarchii s CONCUR. Ověření napříč hierarchiemi není standardem definováno. CONCUR nemůže podporovat automatické překrývání a špatně interaguje s některými zkratkovými funkcemi SGML. Tato funkce byla špatně podporována nástroji a zaznamenala velmi malé skutečné použití; použití CONCUR k překrytí dokumentu nebylo doporučeným případem použití, podle komentář editora standardu.^[12]^[13]

V hierarchických jazycích

Existuje několik přístupů k reprezentaci překrývání v nepřekrývajícím se jazyce.^[14]The Iniciativa pro kódování textu, jako značkovací schéma založené na XML, nemůže přímo představovat překrývající se značení. Navrhovány jsou všechny čtyři níže uvedené přístupy.^[15]The Otevřený standard pro informace o Písmu je další schéma založené na XML určené k označení bible Používá prázdné milníkové prvky k zakódování neprivilegovaných komponent.^[16]

Pro ilustraci těchto přístupů označte věty a řádky fragmentu Richard III podle William Shakespeare bude použit jako běžící příklad. Tam, kde existuje privilegovaná hierarchie, budou použity řádky.

Více dokumentů

Více dokumentů může každý poskytovat různé interně konzistentní hierarchie. Výhodou tohoto přístupu je, že každý dokument je jednoduchý a lze jej zpracovat pomocí stávajících nástrojů, ale vyžaduje údržbu nadbytečného obsahu a může být obtížné porovnávat mezi různými pohledy.^[17] U více dokumentů lze překrytí analyzovat pomocí porovnání dat a delta kódování techniky a v kontextu XML jsou k dispozici specifické algoritmy diferenciace stromů XML.^[18]^[19]

Schmidt (2012, 3.5 Variation) doporučuje tento přístup pro kódování více variant jednoho textu a pro přijetí duplikace částí, které se nemění, namísto pokusu o vytvoření struktury, která představuje všechny přítomné variace; dále navrhuje, aby toto zarovnání se provádí automaticky a toto vychýlení je v praxi vzácné.^[20]

Příklad s vyznačenými řádky:

  <line>Právem ti žehnám od tvé matky,</line>  <line>Kdo se neustále modlí za dobro Richmonda.</line>  <line>Tolik k tomu. - Tiché hodiny se kradou,</line>  <line>A na východě se zlomí temná tma.</line>

S vyznačenými větami:

  <sentence>Právník ti žehnám od tvé matky, která se neustále modlí za dobro Richmonda.</sentence>  <sentence>Tolik k tomu.</sentence><sentence>—Klidné hodiny kráčí dál a na východě se láme šupinatá tma.</sentence>

Milníky

Milníky jsou prázdné prvky, které označují začátek a konec komponenty. Ty lze použít k vložení neprivilegované struktury do hierarchického jazyka a mohou představovat pouze souvislé překrývání. Stávající nástroje také nerozumí významu prvků milníku, a proto nemohou snadno zpracovat nebo ověřit neprivilegovanou strukturu.^[21]^[22] Značka je blízko obsahu je výhodou pro udržovatelnost a čitelnost.^[23] CLIX (DeRose 2004 ) je příkladem takového přístupu.

Příklad:

    />Právem ti žehnám od tvé matky,</line>  <line>Kdo se neustále modlí za dobro Richmonda. />  <řádek>  />Tolik k tomu. />  />—Klidné hodiny krást dál,</line>  <line>A na východě se zlomí temná tma. />

Interpunkce a mezery byly identifikovány jako typ milníkového stylu „krypto-překrytí“ nebo „pseudoznačky“, protože hranice slov, vět, vět a podobně nemusí nutně odpovídat hierarchicky formálním hranicím značek.^[24]^[25]

Připojí

Připojí jsou ukazatele v privilegované hierarchii na jiné komponenty privilegované hierarchie, které lze použít k rekonstrukci neprivilegované komponenty podobné následování spojový seznam. Jeden neprivilegovaný prvek je segmentované do několika částečný prvky v privilegované hierarchii; samotné dílčí prvky nepředstavují jedinou jednotku v neprivilegované hierarchii, což může být zavádějící a znesnadňovat zpracování.^[26]^[27] I když tento přístup může podporovat některé nesouvislé struktury, není schopen znovu objednat prvky.^[28] Trochu odlišný přístup však může vyjádřit opětovné uspořádání vyjádřením spojení mimo obsah, a to za cenu přímosti a udržovatelnosti.^[29]

Reprezentace založené na spojení mohou zavést možnost cyklů mezi prvky; jejich detekce a odmítnutí přidává implementacím na složitosti.^[30]

Příklad:

    id ="A">Právem ti žehnám od tvé matky,</sentence></line>    pokračuje ="A">Kdo se neustále modlí za dobro Richmonda.</sentence></line>    id =„b“>Tolik k tomu.  id ="C">—Klidné hodiny krást dál,</sentence></line>    pokračuje ="C">A na východě se rozpadá šupinatá tma.</sentence></line>

Značka stand-off

Značka stand-off je podobné použití spojení, kromě toho, že neexistuje žádná privilegovaná hierarchie: každé části dokumentu je přidělen štítek (nebo na něj může být odkazováno posunem) a dokument je vytvořen tak, že ukazuje na obsah značky, která „stojí mimo“ „z obsahu (možná ve zcela jiném souboru) a nemusí obsahovat žádný samotný obsah. Pokyny TEI identifikují jednotu prvků jako primární výhodu stand-off značení nad spojením, kromě schopnosti vytvářet a distribuovat anotace odděleně od textu, možná dokonce i různými autory aplikujícími označení na dokument jen pro čtení ,^[31] umožnění kolaborativních přístupů k označování pomocí a rozděl a panuj strategie.^[32]

Příklad:

   id ="A">Právem ti žehnám od tvé matky,</span>   id =„b“>Kdo se neustále modlí za dobro Richmonda.</span>   id ="C">Tolik k tomu.  id ="d">—Klidné hodiny krást dál,</span>   id ="E">A na východě se rozpadá šupinatá tma.</span>  ...  <řádek obsah ="A" />  <řádek obsah =„b“ />  <řádek obsah ="c d" />  <řádek obsah ="E" />   obsah =„a b“ />   obsah ="C" />   obsah =„d e“ />

Tvrdilo se, že oddělení značek a textu může mít za následek celkové zjednodušení a lepší udržovatelnost,^[33] a do roku 2017 `` [současným stavem techniky [reprezentovat] (...) lingvisticky anotovaná data je použít grafickou reprezentaci serializovanou jako standoff XML jako pivotní formát ““ ^[34], tj. tento odstup byl nejrozšířenějším přístupem k řešení překrývajících se výzev značek.

Distanční formalizmy byly základem normy ISO pro jazykovou anotaci^[35], byly úspěšně použity při vývoji systémů pro správu korpusů,^[36] a (od dubna 2020) jsou aktivně vyvíjeny v TEI.^[37]

Výzvy

Zastupování překrývajících se značek v hierarchických jazycích je náročné z důvodu nadbytečnosti nebo složitosti. V letech 2000 až 2010 byly zde jako nejslibnější přístup obecně přijímány standoff formalizmy ^[34], ale nevýhodou standoff je, že validace je velmi náročná.^[38] Distanční formalizmy systémy správy databází nativně nepodporují, takže (do roku 2017) bylo navrženo `` použít ... standoff XML jako pivotní formát (...) a relační databáze pro dotazování. ““^[34] V praktických aplikacích to vyžaduje komplikovanou architekturu a / nebo pracnou transformaci mezi formátem pivot a interní reprezentací. Ve výsledku je údržba problematická.^[39] To byla motivace k vývoji systémů pro správu korpusů na základě databází grafů a pro použití zavedených grafických formalismů jako pivotních formátů.

Speciální jazyky

Pro implementaci výše zmíněných strategií lze buď rozšířit stávající značkovací jazyky (například TEI), nebo navrhnout speciální jazyky. Navrhnout zcela nový značkovací jazyk umožňuje vzdát se podpory nástroje ve stávajících jazycích pro méně komplikovaný sémantický model a pohodlnější syntaxi.

Historické formalizmy

LMNL je nehierarchický značkovací jazyk, který poprvé popsal v roce 2002 Jeni Tennison a Wendell Piez, anotování rozsahů dokumentu s vlastnostmi a umožňujícími automatické překrývání. CLIX, který původně znamenal „Canonical LMNL In XML“, poskytuje metodu pro reprezentaci jakéhokoli dokumentu LMNL v dokumentu XML ve stylu milníku.^[40] Má také další serializaci XML, xLMNL.^[41]
MECS byl vyvinut University of Bergen je Wittgensteinův archiv. Měl však několik problémů: umožňoval některé nesmyslné dokumenty překrývajících se prvků, nemohl podporovat sebe-překrývání a neměl kapacitu definovat gramatiku podobnou DTD.^[42] Teorie Acyklické grafy řízené obecně seřazeným potomkem (GODDAGs), i když není striktně samotný značkovací jazyk, je obecným datovým modelem pro nehierarchické značení. Omezené GODDAGy byly navrženy speciálně tak, aby odpovídaly sémantice MECS; obecné GODDAGs nemusí být souvislé a vyžadují silnější jazyk.^[43] TexMECS je nástupcem MECS, který má formální gramatiku a je navržen tak, aby zastupoval všechny GODDAG a nic, co není GODDAG.^[44]
XCONCUR (dříve MuLaX) je sloučení XML a SGML CONCUR a také obsahuje ověřovací jazyk XCONCUR-CL a SAXOFON -jako API.^[45]^[46]^[47]
Marinelli, Vitali a Zacchiroli poskytují algoritmy pro převod mezi omezenými GODDAG, ECLIX, LMNL, paralelními dokumenty v XML, souvislými stand-off značkami a TexMECS.^[48]

Zdá se, že žádný z těchto formalizmů již není zachován. Zdá se, že komunita konsensu používá standoff XML nebo formalizmy založené na grafech.

Aktivně udržované standoff jazyky XML

GrAF-XML,^[49] standoff-XML serializace Linguistic Annotation Framework (LAF)^[50], který se používá například pro americký národní korpus^[51]
PAULA-XML,^[52] standoff-XML serializace datového modelu, který je základem systému správy korpusu ANNIS a sady převodníků SALT^[53]
NAF (NLP Annotation Format / Newsreader Annotation Format),^[54], standoff XML formát původně vyvinutý v projektu NewsReader (FP7, 2013-2015^[55]), který aktuálně používají nástroje NLP, jako je FreeLing^[56] (s podporou angličtiny, španělštiny, portugalštiny, italštiny, francouzštiny, němčiny, ruštiny, katalánštiny, galicijštiny, chorvatštiny, slovinštiny atd.) a EusTagger^[57] (s podporou baskičtiny, angličtiny, španělštiny).
The Kritický archiv Charlese Harpura je zakódován pomocí „více verzí dokumentů“ (MVD), které představují alternativní verze dokumentů a jako prostředek k indikaci doplnění, odstranění a revizí pomocí taktické kombinace více dokumentů a mezer v rámci podkladového modelu založeného na grafu. MVD je prezentován jako formát souboru aplikace, který k prohlížení nebo úpravám vyžaduje speciální nástroje.^[58]

V mnoha aplikacích^{[potřebný příklad ]}, standoff XML je nebo byl nahrazen jinými standoff formalizmy založenými na JSON (-LD (např., Webová anotace^[59]) nebo formalizmy grafů zakotvené v řetězci URI (viz. níže).

Formalizmy založené na grafech

Standoff markup využívá datový model založený na orientovaných grafech,^[60] čímž se zkomplikuje jeho znázornění při uzemnění informací o značkách ve stromu. Reprezentace překrývajících se hierarchií v grafu tuto výzvu eliminuje. Poznámky o odstupu lze tedy adekvátněji znázornit jako zobecněné pokyny multigrafy a používat formalizmy a technologie vyvinuté pro tento účel, zejména ty, které vycházejí z Rámec popisu zdrojů (RDF).^[61]^[62]EARMARK je brzy RDF /SOVA reprezentace, která zahrnuje Acyklické grafy s obecným uspořádaným potomkem (GODDAG).^[14] Teorie GODDAGů, i když není striktně samotným značkovacím jazykem, je obecným datovým modelem pro nehierarchické značení.

RDF je sémantický datový model nezávislý na linearizaci a poskytuje různé linearizace, včetně formátu XML (RDF / XML ), které lze modelovat tak, aby zrcadlovaly standoff XML, linearizaci, která umožňuje vyjádření RDF v atributech XML (RDFa ), formát JSON (JSON-LD ) a binární formáty určené k usnadnění dotazování nebo zpracování (RDF-HDT^[63], RDF-Thrift^[64]). RDF je sémanticky ekvivalentní datovým modelům založeným na grafech, které jsou základem standardních značek, nevyžaduje speciální technologii pro ukládání, analýzu a dotazování. Příkladem je několik vzájemně propojených souborů RDF představujících dokument nebo korpus Jazyková propojená otevřená data.

Je třeba použít zavedenou techniku propojení libovolných grafů s anotovaným dokumentem URI identifikátory fragmentů Chcete-li odkazovat na části textu nebo dokumentu, viz přehled níže Webová anotace. The Webová anotace Standard poskytuje `` selektory`` specifické pro formát jako další prostředek, např. selektory založené na offsetu, řetězci nebo XPath^[65].

Nativní slovníky RDF schopné reprezentovat jazykové poznámky zahrnují^[66]:

Webová anotace^[67]
NLP Interchange Format (NIF)^[68]
LAPPS Interchange Format (LIF)^[69]

Mezi související slovníky patří

POWLA, serializace OWL2 / DL PAULA-XML^[70]
RDF-NAF, serializace RDF formátu poznámky NLP^[71]

Na začátku roku 2020 zahájila skupina W3C Community Group LD4LT iniciativu na harmonizaci těchto slovníků a na vytvoření konsolidované slovní zásoby RDF pro jazykové anotace na webu.^[72]

Poznámky

^ Iniciativa pro kódování textu.
^ ^A ^b DeRose 2004 „Typy problémů.
^ Piez 2014.
^ Renear, Mylonas & Durand 1993.
^ Tennison 2008.
^ MoChridhe 2019.
^ Hickson 2002.
^ Sivonen 2003.
^ HTML, § 8.2.8 Úvod do zpracování chyb a zvláštních případů v analyzátoru.
^ Sperberg-McQueen a Huitfeldt 2000, 2.1. Noty jiné než SGML.
^ HTML, § 3.2.5.4 Odstavce.
^ Sperberg-McQueen a Huitfeldt 2000, 2.2. KONCUR.
^ DeRose 2004, SGML CONCUR.
^ ^A ^b Di Iorio, Peroni & Vitali 2009.
^ Iniciativa pro kódování textu, § 20 Nehierarchické struktury.
^ Durusau 2006.
^ Iniciativa pro kódování textu, § 20.1 Vícenásobné kódování stejných informací.
^ Schmidt 2009.
^ La Fontaine 2016.
^ Schmidt 2012, 4.1 Automatizace variace.
^ Iniciativa pro kódování textu, § 20.2 Hraniční značení s prázdnými prvky.
^ Sperberg-McQueen a Huitfeldt 2000, 2.4. Milníky.
^ DeRose 2004 Milníky ve stylu TEI.
^ Birnbaum & Thorsen 2015.
^ Haentjens Dekker & Birnbaum 2017.
^ Iniciativa pro kódování textu, § 20.3 Fragmentace a rekonstituce virtuálních prvků.
^ DeRose 2004, Segmentace.
^ Sperberg-McQueen a Huitfeldt 2000, 2.5. Fragmentace.
^ DeRose 2004, Připojuje se.
^ Schmidt 2012, 3.4 Propojení.
^ Iniciativa pro kódování textu, § 20.4 Značení stand-off.
^ Schmidt 2012, 4.2 Označení mimo text.
^ Eggert & Schmidt 2019 Závěr.
^ ^A ^b ^C Ide a kol. 2017, str. 99.
^ https://www.iso.org/standard/37326.html
^ Chiarcos et al. 2008.
^ https://github.com/TEIC/TEI/issues/1745
^ Sperberg-McQueen a Huitfeldt 2000, 2.6. Standoff Markup.
^ DeRose 2004.
^ DeRose 2004, CLIX a LMNL.
^ Piez 2012.
^ Sperberg-McQueen a Huitfeldt 2000, 2.7. MECS.
^ Sperberg-McQueen a Huitfeldt 2000.
^ Huitfeldt a Sperberg-McQueen 2003.
^ Hilbert, Schonefeld & Witt 2005.
^ Witt a kol. 2007.
^ Schonefeld 2008.
^ Marinelli, Vitali & Zacchiroli 2008.
^ https://sourceforge.net/projects/iso-graf/
^ https://www.iso.org/standard/37326.html
^ http://www.anc.org/
^ https://www.sfb632.uni-potsdam.de/en/paula.html
^ https://corpus-tools.org/salt/
^ https://github.com/newsreader/NAF
^ https://cordis.europa.eu/project/id/316404
^ „Archivovaná kopie“. Archivovány od originál dne 29. 04. 2012. Citováno 2020-04-06.CS1 maint: archivovaná kopie jako titul (odkaz)
^ http://www.hitz.eus/en/nlp
^ Eggert & Schmidt 2019.
^ https://www.w3.org/TR/annotation-model/
^ Ide & Suderman 2007.
^ Cassidy 2010.
^ Chiarcos 2012.
^ http://www.rdfhdt.org/
^ https://afs.github.io/rdf-thrift/
^ https://w3c.github.io/web-annotation/selector-note/
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Jazyková propojená data. Zastoupení, generování a aplikace. Cham: Springer.
^ Verspoor, Karin; Livingston, Kevin (2012). „Směrem k adaptaci lingvistických anotací na formální formáty anotací na sémantickém webu“. Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Korea Republic: 75–84. Citováno 6. dubna 2020.
^ https://persistence.uni-leipzig.org/nlp2rdf/
^ https://wiki.lappsgrid.org/interchange/overview.html
^ http://purl.org/powla
^ http://wordpress.let.vupr.nl/naf/
^ https://github.com/ld4lt/linguistic-annotation

Reference

Birnbaum, David J; Thorsen, Elise (2015). Značky a měřiče: Používání nástrojů XML k výuce počítače, aby přemýšlel o veršování. Balisage: The Markup Conference 2015. Montréal. doi:10,4242 / BalisageVol15.Birnbaum01.CS1 maint: ref = harv (odkaz)
Cassidy, Steve (2010). Realizace RDF LAF na anotačním serveru DADA (PDF). Sborník ISA-5. Hongkong. CiteSeerX 10.1.1.454.9146.CS1 maint: ref = harv (odkaz)
Chiarcos, Christian (2012). POWLA: Modelování jazykových korpusů v OWL / DL (PDF). Sborník z 9. rozšířené konference o sémantickém webu (ESWC 2012, Heraklion, Kréta; LNCS 7295). str. 225–239. doi:10.1007/978-3-642-30284-8_22. Citováno 2016-05-24.CS1 maint: ref = harv (odkaz)
Chiarcos, Christian; Dipper, Stefanie; Götze, Michael; Leser, Ulf; Lüdeling, Anke; Ritz, Julia; Stede, Manfred (2008). „Flexibilní rámec pro integraci anotací z různých nástrojů a sad značek“. Traitement Automatique des Langues. 49 (2): 271-293.
DeRose, Steven (2004). Překrývání značek: Recenze a kůň. Extreme Markup Languages 2004. Montréal. CiteSeerX 10.1.1.108.9959. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Di Iorio, Angelo; Peroni, Silvio; Vitali, Fabio (srpen 2009). Směrem k podpoře značení pro úplné GODDAGy i mimo ně: přístup EARMARK. Balisage: The Markup Conference 2009. Montréal. doi:10.4242 / BalisageVol3.Peroni01.CS1 maint: ref = harv (odkaz)
Eggert, Paul; Schmidt, Desmond A (2019). „Kritický archiv Charlese Harpura: Historie a technická zpráva“. International Journal of Digital Humanities. 1 (1). Citováno 2019-03-25.CS1 maint: ref = harv (odkaz)
Haentjens Dekker, Ronald; Birnbaum, David J (2017). Je to víc než jen překrývání: Text jako graf. Balisage: The Markup Conference 2017. Montréal. doi:10.4242 / BalisageVol19.Dekker01.CS1 maint: ref = harv (odkaz)
Durusau, Patrick (2006). Uživatelská příručka OSIS (OSIS Schéma 2.1.1) (PDF). Archivovány od originál (PDF) dne 2014-10-23. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Ian Hickson (2002-11-21). „Tag Soup: How UAs handle “. Citováno 2017-11-05.CS1 maint: ref = harv (odkaz)
Hilbert, Mirco; Schonefeld, Oliver; Witt, Andreas (2005). Zajištění toho, aby CONCUR fungoval. Extreme Markup Languages 2005. Montréal. CiteSeerX 10.1.1.104.634. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Huitfeldt, Claus; Sperberg-McQueen, C M (2003). „TexMECS: Experimentální značkovací metajazyk pro složité dokumenty“. Archivovány od originál dne 2017-02-27. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Ide, Nancy; Chiarcos, Christian; Stede, Manfred; Cassidy, Steve (2017). "Navrhování schémat anotací: Od modelu k reprezentaci". In Ide, Nancy; Pustejovsky, James (eds.). Příručka jazykové anotace. Dordrecht: Springer. str. 99. doi:10.1007/978-94-024-0881-2_3.
La Fontaine, Robin (2016). Reprezentace překrývající se hierarchie jako změny v XML. Balisage: The Markup Conference 2016. Montréal. doi:10.4242 / BalisageVol17.LaFontaine01.CS1 maint: ref = harv (odkaz)
Marinelli, Paolo; Vitali, Fabio; Zacchiroli, Stefano (Leden 2008). „Směrem ke sjednocení formátů překrývajících se značek“ (PDF). Nová recenze hypermedií a multimédií. 14 (1): 57–94. CiteSeerX 10.1.1.383.1636. doi:10.1080/13614560802316145. ISSN 1361-4568. S2CID 16909224. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
MoChridhe, Race J (2019-04-24). „Dvacet let teologických značkovacích jazyků: retrospektiva a perspektiva“. Teologické knihovnictví. 12 (1). doi:10.31046 / tl.v12i1,523. ISSN 1937-8904. Citováno 2019-07-15.
Piez, Wendell (srpen 2012). Luminiscenční: analýza LMNL konverzí XSLT. Balisage: The Markup Conference 2012. Montréal. doi:10,4242 / BalisageVol8. Piez01. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Piez, Wendell (2014). Hierarchie v prostoru rozsahu: od LMNL po OHCO. Balisage: The Markup Conference 2014. Montréal. doi:10,4242 / BalisageVol13.Piez01.CS1 maint: ref = harv (odkaz)
Renear, Allen; Mylonas, Elli; Durand, David (06.01.1993). „Upřesnění naší představy o tom, co text ve skutečnosti je: problém překrývajících se hierarchií“. CiteSeerX 10.1.1.172.9017. hdl:2142/9407. Citováno 2016-10-02.CS1 maint: ref = harv (odkaz)
Schonefeld, Oliver (srpen 2008). Jednoduché API pro XCONCUR: Zpracování souběžných značek pomocí API zaměřeného na události. Balisage: The Markup Conference 2008. Montréal. doi:10.4242 / BalisageVol1.Schonefeld01. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Sperberg-McQueen, C M; Huitfeldt, Claus (2000). „GODDAG: Datová struktura pro překrývající se hierarchie“. Přednášky z informatiky. 2023 (2023): 139–160. doi:10.1007/978-3-540-39916-2_12. ISBN 978-3-540-21070-2. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Schmidt, Desmond (2009). Sloučení více verzí textů: obecné řešení problému překrývání. Balisage: The Markup Conference 2009. Montréal. doi:10,4242 / BalisageVol3.Schmidt01.CS1 maint: ref = harv (odkaz)
Schmidt, Desmond (2012). „Role označení v digitálních humanitních oborech“. Historický sociální výzkum. 27 (3): 125–146. doi:10.12759 / hsr.37.2012.3.125-146.
Henri Sivonen (16. 8. 2003). „Tag Soup: How Mac IE 5 and Safari handle “. Citováno 2017-11-05.CS1 maint: ref = harv (odkaz)
Ide, Nancy; Suderman, Keith (2007). GrAF: Grafický formát jazykových anotací (PDF). Sborník z prvního semináře lingvistických anotací (LAW-2007, Praha, Česká republika). s. 1–8. CiteSeerX 10.1.1.146.4543.
Tennison, Jenni (06.12.2008). „Překrývání, zadržování a dominance“. Citováno 2016-10-02.CS1 maint: ref = harv (odkaz)
Witt, Andreas; Schonefeld, Oliver; Rehm, Georg; Khoo, Jonathan; Evang, Kilian (2007). Na bezztrátové transformaci jednosložkových, vícevrstvých anotací na vícekořenové stromy. Extrémní značkovací jazyky 2007. Montréal. Citováno 2014-10-14.CS1 maint: ref = harv (odkaz)
Konsorcium iniciativy pro kódování textu (16. září 2014). „Pokyny pro elektronické kódování a výměnu textu“ (5 ed.). Citováno 2014-10-14.
WHATWG. „HTML Living Standard“. Citováno 2019-03-25.

[FOOTNOTEText_Encoding_Initiative-1] Iniciativa pro kódování textu.

[FOOTNOTEDeRose2004The_problem_types-2] A ^b DeRose 2004 „Typy problémů.

[FOOTNOTEPiez2014-3] Piez 2014.

[FOOTNOTERenearMylonasDurand1993-4] Renear, Mylonas & Durand 1993.

[FOOTNOTETennison2008-5] Tennison 2008.

[FOOTNOTEMoChridhe2019-6] MoChridhe 2019.

[FOOTNOTEHickson2002-7] Hickson 2002.

[FOOTNOTESivonen2003-8] Sivonen 2003.

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagesyntaxhtmlan-introduction-to-error-handling-and-strange-cases-in-the-parser_§_8.2.8_An_introduction_to_error_handling_and_strange_cases_in_the_parser]-9] HTML, § 8.2.8 Úvod do zpracování chyb a zvláštních případů v analyzátoru.

[FOOTNOTESperberg-McQueenHuitfeldt20002.1._Non-SGML_Notations-10] Sperberg-McQueen a Huitfeldt 2000, 2.1. Noty jiné než SGML.

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagedomhtmlparagraphs_§_3.2.5.4_Paragraphs]-11] HTML, § 3.2.5.4 Odstavce.

[FOOTNOTESperberg-McQueenHuitfeldt20002.2._CONCUR-12] Sperberg-McQueen a Huitfeldt 2000, 2.2. KONCUR.

[FOOTNOTEDeRose2004SGML_CONCUR-13] DeRose 2004, SGML CONCUR.

[FOOTNOTEDi_IorioPeroniVitali2009-14] A ^b Di Iorio, Peroni & Vitali 2009.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtml_§_20_Non-hierarchical_Structures]-15] Iniciativa pro kódování textu, § 20 Nehierarchické struktury.

[FOOTNOTEDurusau2006-16] Durusau 2006.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHME_§_20.1_Multiple_Encodings_of_the_Same_Information]-17] Iniciativa pro kódování textu, § 20.1 Vícenásobné kódování stejných informací.

[FOOTNOTESchmidt2009-18] Schmidt 2009.

[FOOTNOTELa_Fontaine2016-19] La Fontaine 2016.

[FOOTNOTESchmidt20124.1_Automating_Variation-20] Schmidt 2012, 4.1 Automatizace variace.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHBM_§_20.2_Boundary_Marking_with_Empty_Elements]-21] Iniciativa pro kódování textu, § 20.2 Hraniční značení s prázdnými prvky.

[FOOTNOTESperberg-McQueenHuitfeldt20002.4._Milestones-22] Sperberg-McQueen a Huitfeldt 2000, 2.4. Milníky.

[FOOTNOTEDeRose2004TEI-style_milestones-23] DeRose 2004 Milníky ve stylu TEI.

[FOOTNOTEBirnbaumThorsen2015-24] Birnbaum & Thorsen 2015.

[FOOTNOTEHaentjens_DekkerBirnbaum2017-25] Haentjens Dekker & Birnbaum 2017.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHVE_§_20.3_Fragmentation_and_Reconstitution_of_Virtual_Elements]-26] Iniciativa pro kódování textu, § 20.3 Fragmentace a rekonstituce virtuálních prvků.

[FOOTNOTEDeRose2004Segmentation-27] DeRose 2004, Segmentace.

[FOOTNOTESperberg-McQueenHuitfeldt20002.5._Fragmentation-28] Sperberg-McQueen a Huitfeldt 2000, 2.5. Fragmentace.

[FOOTNOTEDeRose2004Joins-29] DeRose 2004, Připojuje se.

[FOOTNOTESchmidt20123.4_Interlinking-30] Schmidt 2012, 3.4 Propojení.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHSO_§_20.4_Stand-off_Markup]-31] Iniciativa pro kódování textu, § 20.4 Značení stand-off.

[FOOTNOTESchmidt20124.2_Markup_Outside_the_Text-32] Schmidt 2012, 4.2 Označení mimo text.

[FOOTNOTEEggertSchmidt2019Conclusion-33] Eggert & Schmidt 2019 Závěr.

[FOOTNOTEIdeChiarcosStedeCassidy2017p.99-34] A ^b ^C Ide a kol. 2017, str. 99.

[35] ttps://www.iso.org/standard/37326.html

[FOOTNOTEChiarcosDipperGötzeLeser2008-36] Chiarcos et al. 2008.

[37] ttps://github.com/TEIC/TEI/issues/1745

[FOOTNOTESperberg-McQueenHuitfeldt20002.6._Standoff_Markup-38] Sperberg-McQueen a Huitfeldt 2000, 2.6. Standoff Markup.

[FOOTNOTEDeRose2004-39] DeRose 2004.

[FOOTNOTEDeRose2004CLIX_and_LMNL-40] DeRose 2004, CLIX a LMNL.

[FOOTNOTEPiez2012-41] Piez 2012.

[FOOTNOTESperberg-McQueenHuitfeldt20002.7._MECS-42] Sperberg-McQueen a Huitfeldt 2000, 2.7. MECS.

[FOOTNOTESperberg-McQueenHuitfeldt2000-43] Sperberg-McQueen a Huitfeldt 2000.

[FOOTNOTEHuitfeldtSperberg-McQueen2003-44] Huitfeldt a Sperberg-McQueen 2003.

[FOOTNOTEHilbertSchonefeldWitt2005-45] Hilbert, Schonefeld & Witt 2005.

[FOOTNOTEWittSchonefeldRehmKhoo2007-46] Witt a kol. 2007.

[FOOTNOTESchonefeld2008-47] Schonefeld 2008.

[FOOTNOTEMarinelliVitaliZacchiroli2008-48] Marinelli, Vitali & Zacchiroli 2008.

[49] ttps://sourceforge.net/projects/iso-graf/

[50] ttps://www.iso.org/standard/37326.html

[51] ttp://www.anc.org/

[52] ttps://www.sfb632.uni-potsdam.de/en/paula.html

[53] ttps://corpus-tools.org/salt/

[54] ttps://github.com/newsreader/NAF

[55] ttps://cordis.europa.eu/project/id/316404

[56] „Archivovaná kopie“. Archivovány od originál dne 29. 04. 2012. Citováno 2020-04-06.CS1 maint: archivovaná kopie jako titul (odkaz)

[57] ttp://www.hitz.eus/en/nlp

[FOOTNOTEEggertSchmidt2019-58] Eggert & Schmidt 2019.

[59] ttps://www.w3.org/TR/annotation-model/

[FOOTNOTEIdeSuderman2007-60] Ide & Suderman 2007.

[FOOTNOTECassidy2010-61] Cassidy 2010.

[FOOTNOTEChiarcos2012-62] Chiarcos 2012.

[63] ttp://www.rdfhdt.org/

[64] ttps://afs.github.io/rdf-thrift/

[65] ttps://w3c.github.io/web-annotation/selector-note/

[lld-book-66] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Jazyková propojená data. Zastoupení, generování a aplikace. Cham: Springer.

[67] Verspoor, Karin; Livingston, Kevin (2012). „Směrem k adaptaci lingvistických anotací na formální formáty anotací na sémantickém webu“. Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Korea Republic: 75–84. Citováno 6. dubna 2020.

[68] ttps://persistence.uni-leipzig.org/nlp2rdf/

[69] ttps://wiki.lappsgrid.org/interchange/overview.html

[70] ttp://purl.org/powla

[71] ttp://wordpress.let.vupr.nl/naf/

[72] ttps://github.com/ld4lt/linguistic-annotation

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]