Značkovací jazyk - Markup language

Příklad RecipeBook, jednoduchý jazyk založený na XML pro vytváření receptů. Značku lze převést na HTML, PDF a Formát RTF používat programovací jazyk nebo XSL.

V počítačovém zpracování textu, a značkovací jazyk je systém pro anotovat A dokument způsobem, který je syntakticky rozlišitelné z textu,[1] to znamená, že když je dokument zpracován k zobrazení, značkovací jazyk se nezobrazí a používá se pouze k formátování textu.[2] Myšlenka a terminologie se vyvinula z „označení“ papíru rukopisy (tj. revizní pokyny editorů), který je tradičně psán červeným perem nebo modré pero o rukopisech autorů.[3] Takové „označení“ obvykle zahrnuje jak opravy obsahu (jako je pravopis, interpunkční znaménko nebo pohyb obsahu), tak také typografické pokyny, například pro zvětšení nadpisu nebo tučné písmo.

v digitální média, byl tento „text instrukce s modrou tužkou“ nahrazen značky které v ideálním případě označují, jaké jsou části dokumentu jsou, spíše než podrobnosti o tom, jak by mohly být zobrazeny na nějakém displeji. To umožňuje autorům vyhnout se formátování každé instance stejného druhu věcí redundantně (a možná nekonzistentně). Rovněž se vyhýbá specifikaci písem a rozměrů, které se nemusí vztahovat na mnoho uživatelů (například na ty, které mají různé velikosti displeje, zhoršené vidění a software pro čtení z obrazovky).

Systémy raných značek obvykle obsahovaly pokyny k sazbě, jako troff, TeX a Latex dělat, zatímco Písař a nejmodernější komponenty názvových systémů značkovacího systému a později tyto názvy zpracovat pro použití formátování nebo jiného zpracování, jako v případě XML.

Některé značkovací jazyky, například široce používané HTML, mají předem definované sémantika prezentace —Znamená to, že jejich specifikace předepisuje některé aspekty toho, jak prezentovat strukturovaná data na konkrétních médiích. HTML, jako DocBook, Otevřete eKnihu, JATS a bezpočet dalších je specifická aplikace značkových metajazyků SGML a XML. To znamená, že SGML a XML umožňují uživatelům specifikovat konkrétní schémata, které určují, jaké prvky, atributy a další funkce jsou povoleny a kde.

Jednou z nesmírně důležitých charakteristik většiny značkovacích jazyků je, že umožňují míchání značek přímo do textových proudů. To se v dokumentech děje po celou dobu: Několik slov ve větě musí být zdůrazněno nebo identifikováno jako vlastní jméno, definovaný termín nebo jiná speciální položka. To se strukturálně zcela liší od tradičních databází, kde je podle definice nemožné mít data, která jsou (například) v záznamu, ale ne v žádném poli. Stejně tak značení textů v přirozeném jazyce musí udržovat pořadí: nestačilo by se z každého odstavce knihy udělat záznam „odstavce“, kde tyto záznamy neudržují pořadí.

Etymologie

Podstatné jméno označení je odvozen z tradiční publikační praxe zvané „označení“ A rukopis,[4] což zahrnuje přidání ručně psaných anotací ve formě konvenčních symbolů tiskárna pokyny - na okrajích a v textu příspěvku nebo tištěného rukopisu. Jedná se o žargon používaný při kódování důkaz. Po celá staletí tento úkol prováděli především zkušení typografové známí jako „značkovači“[5] nebo „značky d“[6] kdo označil text, aby označil co písmo, styl a velikost by měly být použity na každou část a poté předány rukopisu ostatním sazba ručně nebo strojem. Značky také běžně aplikovali redaktoři, korektori, vydavatelé a grafičtí designéři a dokonce i autoři dokumentů, z nichž všichni mohou označovat i jiné věci, například opravy, změny atd.

Typy značkovacího jazyka

Existují tři hlavní obecné kategorie elektronických značek, vyjádřené v Coombs, et al. (1987),[7] a Bray (2003).[8]

Prezentační označení
Druh označení používaný tradičními systémy zpracování textu: binární kódy vložené do textu dokumentu, které vytvářejí WYSIWYG ("to, co vidíte, je to, co dostanete") efekt. Takové označení je obvykle skryto před lidskými uživateli, dokonce i před autory a editory. Správně řečeno, takové systémy používají procedurální a / nebo popisné označení pod nimi, ale převádějí je na" přítomné "uživateli jako geometrická uspořádání typu.
Procedurální značení
Značka je vložena do textu, který poskytuje pokyny pro programy ke zpracování textu. Známé příklady zahrnují troff, TeX, a PostScript. Očekává se, že procesor bude procházet textem od začátku do konce podle pokynů, jak se setkal. Text s takovým označením je často upravován tak, aby byl viditelný a autor s ním přímo manipuloval. Populární procedurální značkovací systémy obvykle zahrnují programovací konstrukce a makra nebo podprogramy jsou běžně definovány, takže lze složité sady instrukcí vyvolat jednoduchým názvem (a možná několika parametry). To je mnohem rychlejší, méně náchylné k chybám a nenáročné na údržbu, než opakované uvádění stejných nebo podobných pokynů na mnoha místech.
Popisné označení
Značka se konkrétně používá k označení částí dokumentu tím, čím jsou, a nikoli způsobem, jakým by měly být zpracovány. Známé systémy, které poskytují mnoho takových štítků, zahrnují Latex, HTML, a XML. Cílem je oddělit struktura dokumentu z jakéhokoli konkrétního zpracování nebo vydání. Takové označení je často popisováno jako „sémantické“. Příkladem popisného označení by bylo HTML <cite> značka, která se používá k označení citace. Popisné označení - někdy se nazývá logické značení nebo koncepční označení - vybízí autory, aby psali způsobem, který materiál popisuje koncepčně, nikoli vizuálně.[9]

Mezi typy značek je značně rozmazané čáry. V moderních systémech zpracování textu se prezentační značení často ukládá v systémech orientovaných na popisné značení, jako je XML, a poté zpracovány procedurálně implementacemi. Programování v procedurálních značkovacích systémech, jako je TeX, lze použít k vytvoření značkovacích systémů vyšší úrovně, které mají více popisný charakter, jako například Latex.

V posledních letech byla vyvinuta řada malých a převážně nestandardizovaných značkovacích jazyků, které autorům umožňují vytvářet formátovaný text prostřednictvím webových prohlížečů, jako jsou ty, které se používají v wiki a na webových fórech. Někdy se jim říká odlehčené značkovací jazyky. Snížení a značkovací jazyk používaný Wikipedia jsou příklady takových označení wiki.

Historie značkovacích jazyků

GenCode

První známou veřejnou prezentaci značkovacích jazyků v počítačovém zpracování textu provedl William W. Tunnicliffe na konferenci v roce 1967, ačkoli to raději nazval generické kódování. Lze na ni pohlížet jako na reakci na vznik programů jako např RUNOFF že každý používal své vlastní kontrolní notace, často specifické pro cílové sázecí zařízení. V 70. letech vedl Tunnicliffe vývoj standardu zvaného GenCode pro vydavatelský průmysl a později byl prvním předsedou Mezinárodní organizace pro normalizaci výbor, který vytvořil SGML, první standardní popisný značkovací jazyk. Knižní designér Stanley Rice zveřejnil spekulace podobným způsobem v roce 1970.[10]

Brian Reid, ve své disertační práci z roku 1980 v Univerzita Carnegie Mellon, vyvinuli teorii a funkční implementaci popisného značení ve skutečném použití. Nicméně, IBM výzkumník Charles Goldfarb je dnes běžněji vnímán jako „otec“ značkovacích jazyků. Goldfarb narazil na základní myšlenku při práci na primitivním systému správy dokumentů určeném pro advokátní kanceláře v roce 1969 a pomohl vymyslet IBM GML později ten stejný rok. GML byl poprvé veřejně zveřejněn v roce 1973.

V roce 1975 se Goldfarb přestěhoval z Cambridge, Massachusetts na Silicon Valley a stal se produktovým plánovačem na Výzkumné centrum IBM Almaden. Tam přesvědčil vedoucí pracovníky IBM, aby GML komerčně nasadili v roce 1978 jako součást produktu IBM Document Composition Facility, a ten byl během několika let široce používán v podnikání.

SGML, který byl založen na GML i GenCode, byl projekt ISO, na kterém pracoval Goldfarb od roku 1974.[11] Goldfarb se nakonec stal předsedou výboru SGML. SGML byl poprvé vydán ISO jako standard ISO 8879 v říjnu 1986.

troff a nroff

Některé rané příklady počítačových značkovacích jazyků, které jsou k dispozici mimo vydavatelský průmysl, najdete v sazovacích nástrojích na Unix systémy jako troff a nroff. V těchto systémech byly do textu dokumentu vloženy příkazy k formátování, aby sázecí software mohl formátovat text podle specifikací editoru. Bylo to pokus omyl iterativní proces pro správné vytištění dokumentu.[12] Dostupnost WYSIWYG („To, co vidíte, je to, co získáte“) vydavatelský software nahradil mnoho použití těchto jazyků mezi příležitostnými uživateli, ačkoli seriózní publikační práce stále používá označení ke specifikaci nevizuální struktury textů a redaktoři WYSIWYG nyní obvykle ukládají dokumenty ve značkách -jazykový formát.

TeX pro vzorce

Dalším významným publikačním standardem je TeX, vytvořil a vylepšil Donald Knuth v 70. a 80. letech. TeX soustředil se na podrobné rozvržení popisů textu a písem do sazby matematických knih. To vyžadovalo, aby Knuth strávil značný čas vyšetřováním umění umění sazba. TeX se používá hlavně v akademická obec, kde to je de facto Standard v mnoha vědních oborech. Balíček maker TeX známý jako Latex poskytuje popisný značkovací systém nad TeXem a je široce používán jak mezi vědeckou komunitou, tak v publikačním průmyslu.[13]

Scribe, GML a SGML

Prvním jazykem, který jasně rozlišoval mezi strukturou a prezentací, byl Písař, vyvinutý společností Brian Reid a popsal ve své disertační práci v roce 1980.[14] Scribe byl revoluční v mnoha ohledech, v neposlední řadě v tom, že zavedl myšlenku stylů oddělených od označeného dokumentu a gramatika řízení používání popisných prvků. Scribe ovlivnil vývoj Zobecněný značkovací jazyk (později SGML),[15] a je přímým předkem HTML a Latex.[16]

Na začátku 80. let vedla myšlenka, že by se značení mělo zaměřit na strukturální aspekty dokumentu a ponechat vizuální prezentaci této struktury na tlumočníkovi, k vytvoření SGML. Jazyk vyvinul výbor, kterému předsedal Goldfarb. Zahrnovalo nápady z mnoha různých zdrojů, včetně projektu Tunnicliffe, GenCode. Sharon Adler, Anders Berglund a James A. Marke byli také klíčovými členy výboru SGML.

SGML specifikoval syntaxi pro zahrnutí označení do dokumentů a také syntaxi pro samostatný popis co značky byly povoleny a kde (definice typu dokumentu (DTD ), později známý jako a schéma ). To autorům umožnilo vytvářet a používat libovolné značky, které si přáli, výběr značek, které jim dávají největší smysl a byly pojmenovány v jejich přirozených jazycích, a zároveň umožňovaly automatické ověřování. SGML je tedy správně a metajazyk a je z toho odvozeno mnoho konkrétních značkovacích jazyků. Od konce 80. let byly nejdůležitější nové značkovací jazyky založeny na systému SGML, včetně například TEI a DocBook. SGML byl vyhlášen jako mezinárodní standard Mezinárodní organizace pro normalizaci, ISO 8879, v roce 1986.[17]

SGML našel široké přijetí a použití v oblastech s velmi rozsáhlými požadavky na dokumentaci. Mnoho lidí však zjistilo, že je to těžkopádné a obtížné se naučit - vedlejším účinkem jeho designu je snaha udělat příliš mnoho a být příliš flexibilní. Například SGML učinil koncové značky (nebo počáteční značky, nebo dokonce obojí) v určitých kontextech volitelnými, protože její vývojáři si mysleli, že označení bude provedeno ručně přepracovaným pracovníkem podpory, který by ocenil ukládání stisků kláves[Citace je zapotřebí ].

HTML

V roce 1989 počítačový vědec Sir Tim Berners-Lee napsal poznámku navrhující Internet -na základě Hyper-textový Systém,[18] poté specifikoval HTML a napsal software prohlížeče a serveru v poslední polovině roku 1990. Prvním veřejně dostupným popisem HTML byl dokument s názvem „HTML Tags“, který na internetu poprvé zmínil Berners-Lee koncem roku 1991.[19][20] Popisuje 18 prvků, které obsahují počáteční, relativně jednoduchý design HTML. Kromě značky hypertextových odkazů byly tyto silně ovlivněny SGMLguid, interní SGML - formát dokumentace založený na CERNu a velmi podobný ukázkovému schématu ve standardu SGML. V HTML 4 stále existuje jedenáct z těchto prvků.[21]

Berners-Lee považoval HTML za aplikaci SGML. The Pracovní skupina pro internetové inženýrství (IETF) to formálně definovalo jako takové v polovině roku 1993 zveřejněním prvního návrhu specifikace HTML: „Hypertext Markup Language (HTML)“ Internetový koncept Berners-Lee a Dan Connolly, který zahrnoval SGML Definice typu dokumentu definovat gramatiku.[22] Mnoho z textových prvků HTML se nachází v technické zprávě ISO 95 95 95 z roku 1988 Techniky používání SGML, který zase pokrývá funkce jazyků časného formátování textu, jako jsou jazyky používané formátem Příkaz RUNOFF vyvinut na počátku 60. let pro CTSS (Compatible Time-Sharing System) operační systém. Tyto příkazy k formátování byly odvozeny od příkazů, které používají sazeče k ručnímu formátování dokumentů. Steven DeRose[23] tvrdí, že používání popisného značení HTML (a zejména vliv SGML) bylo hlavním faktorem úspěchu webu, a to kvůli flexibilitě a rozšiřitelnosti, které umožňovalo. HTML se stalo hlavním značkovacím jazykem pro vytváření webových stránek a dalších informací, které lze zobrazit ve webovém prohlížeči, a je docela pravděpodobně nejpoužívanějším značkovacím jazykem v dnešním světě.

XML

XML (Extensible Markup Language) je značkovací jazyk meta, který je velmi široce používán. XML vyvinula World Wide Web Consortium ve výboru vytvořeném a předsedajícímu Jon Bosak. Hlavním účelem XML bylo zjednodušit SGML zaměřením na konkrétní problém - dokumenty na internetu.[24] XML zůstává metajazykem, jako je SGML, který umožňuje uživatelům vytvářet jakékoli potřebné tagy (tedy „rozšiřitelné“) a poté tyto tagy a jejich povolená použití popisovat.

Osvojení XML pomohlo, protože každý dokument XML lze psát takovým způsobem, že je také dokumentem SGML, a stávající uživatelé a software SGML mohli na XML přejít poměrně snadno. XML však eliminoval mnoho složitějších funkcí SGML, aby zjednodušil implementační prostředí, jako jsou dokumenty a publikace. Zdálo se, že zasáhlo šťastné médium mezi jednoduchostí a flexibilitou, stejně jako podporou velmi robustních nástrojů pro definici a ověření schématu, a bylo rychle přijato pro mnoho dalších použití. XML je nyní široce používán pro komunikaci data mezi aplikacemi, pro serializaci dat programu, pro hardwarové komunikační protokoly, vektorovou grafiku a mnoho dalších použití i dokumentů.

XHTML

Od ledna 2000 všechny Doporučení W3C pro HTML byly založeny spíše na XML než na SGML, používají zkratku XHTML (EXnapínatelný HjoText Markup Lúzkost). Specifikace jazyka vyžaduje, aby XHTML Web dokumenty musely být dobře tvarovaný Dokumenty XML. To umožňuje přísnější a robustnější dokumenty při používání značek známých z HTML.

Jedním z nejvýraznějších rozdílů mezi HTML a XHTML je pravidlo, které všechny značky musí být uzavřeny: prázdné značky HTML, například <br> musí být Zavřeno s běžnou koncovou značkou nebo nahrazenou speciálním formulářem: <br /> (prostor před/'na koncové značce je volitelná, ale často se používá, protože umožňuje některým webovým prohlížečům před XML a analyzátorům SGML tuto značku přijmout). Další je to všechno atribut hodnoty ve značkách musí být uvedeny. Nakonec musí být všechny názvy značek a atributů v oboru názvů XHTML malá, aby byly platné. Na druhé straně HTML nerozlišovalo velká a malá písmena.

Další aplikace založené na XML

Nyní existuje mnoho aplikací založených na XML, včetně Rámec popisu zdrojů tak jako RDF / XML, XForms, DocBook, MÝDLO a Jazyk webové ontologie (SOVA). Částečný seznam z nich viz Seznam značkovacích jazyků XML.

Vlastnosti značkovacích jazyků

Společným rysem mnoha značkovacích jazyků je, že směšují text dokumentu s značkovacími pokyny ve stejném datovém proudu nebo souboru. To není nutné; je možné izolovat označení z textového obsahu pomocí ukazatelů, posunů, ID nebo jiných metod k jejich koordinaci. Takové „standoff markup“ je typické pro interní reprezentace, které programy používají pro práci s označenými dokumenty. Vložené nebo „vložené“ značení je však jinde mnohem běžnější. Zde je například malá část textu označená v HTML:

<h1>Anatidae</h1><str>Rodina <i>Anatidae</i> zahrnuje kachny, husy a labutě, ale <em>ne</em> úzce související křičící.</str>

Kódy uzavřené v hranatých závorkách <like this> jsou pokyny k označení (známé jako značky), zatímco text mezi těmito pokyny je skutečným textem dokumentu. Kódy h1, str, a em jsou příklady sémantický označení v tom smyslu, že popisují zamýšlený účel nebo význam textu, který obsahují. Konkrétně h1 znamená „toto je nadpis první úrovně“, str znamená "toto je odstavec" a em znamená „toto je zdůrazněné slovo nebo fráze“. Program, který interpretuje takové strukturální označení, může použít vlastní pravidla nebo styly pro prezentaci různých částí textu pomocí různých typů písma, tučnosti, velikosti písma, odsazení, barvy nebo jiných stylů podle potřeby. Například značka jako „h1 „(úroveň záhlaví 1) může být v článku uvedena velkým tučným bezpatkovým písmem, nebo může být podtržena v dokumentu s rovným prostorem (ve stylu psacího stroje) - nebo může jednoduše změnit prezentaci vůbec.

Naproti tomu i značka v HTML 4 je příkladem prezentační značka, která se obvykle používá k určení konkrétní charakteristiky textu bez uvedení důvodu tohoto vzhledu. V tomto případě i prvek určuje použití kurzívou. Nicméně v HTML 5, tento prvek byl přepracován s více sémantickým využitím: k označení rozpětí textu střídavým hlasem nebo náladou, nebo jinak odsazené od běžné prózy způsobem naznačujícím jinou kvalitu textu. Například je vhodné použít i prvek k označení taxonomického označení nebo fráze v jiném jazyce.[25] Byla provedena změna, aby se přechod z HTML 4 na HTML 5 usnadnil co nejplynuleji, aby zastaralé použití prezentačních prvků zachovalo nejpravděpodobnější zamýšlenou sémantiku.

The Iniciativa pro kódování textu (TEI) zveřejnila rozsáhlé pokyny[26] jak kódovat texty zájmu o humanitní a společenské vědy, vyvinuté v průběhu let mezinárodní spolupráce. Tyto pokyny používají projekty kódující historické dokumenty, díla konkrétních vědců, období nebo žánrů atd.

Alternativní použití

I když myšlenka značkovacího jazyka vycházela z textových dokumentů, značkovací jazyky se stále častěji používají při prezentaci dalších typů informací, včetně seznamy skladeb, vektorová grafika, webové služby, syndikace obsahu, a uživatelská rozhraní. Většina z nich jsou aplikace XML, protože XML je dobře definovaný a rozšiřitelný jazyk.

Použití XML také vedlo k možnosti kombinovat více značkovacích jazyků do jednoho profilu, jako je XHTML + SMIL a XHTML + MathML + SVG.[27]

Viz také

Reference

  1. ^ "značkovací jazyk". Slovník Merriam-Webster.
  2. ^ „Značkovací jazyk § Vysvětlení“. Datový glosář Science Europe.
  3. ^ Siechert, Carl; Bott, Ed (2013). Microsoft Office Inside Out: vydání 2013. Pearson Education. str. 305. ISBN  978-0735669062. ... Někteří recenzenti dávají přednost přechodu do staré školy pomocí červeného pera na tištěném výstupu ....
  4. ^ CHEN, XinYing (2011). "Centrální uzly čínských syntaktických sítí". Bulletin čínské vědy. 56 (10): 735–740. doi:10.1360/972010-2369. ISSN  0023-074X.
  5. ^ Allan Woods, Moderní výroba novin (New York: Harper & Row, 1963), 85; Stewart Harral, Ziskové public relations pro noviny (Ann Arbor: J.W. Edwards, 1957), 76; a Chiarella v. Spojené státy, 445 NÁS. 222 (1980).
  6. ^ Z poznámkových bloků H.J.H & D.H.A on Composition, Kingsport Press Inc., nedatováno (1960).
  7. ^ Coombs, James H .; Renear, Allen H .; DeRose, Steven J. (listopad 1987). „Značkovací systémy a budoucnost vědeckého zpracování textu“. Komunikace ACM. 30 (11): 933–947. CiteSeerX  10.1.1.515.5618. doi:10.1145/32206.32209. S2CID  59941802.
  8. ^ Bray, Tim (9. dubna 2003). „O sémantice a značení, taxonomie značení“. www.tbray.org/ongoing. Citováno 9. července 2015.
  9. ^ Michael Downes.„TEX a LATEX 2e“
  10. ^ Rýže, Stanley. "Redakční textové struktury (s určitými vztahy k informačním strukturám a ovládacím prvkům formátu v počítačové kompozici)." Americký národní normalizační institut, 17. března 1970.
  11. ^ „Rozhovor 2009 s tvůrcem SGML Charlesem F. Goldfarbem“. Dr. Dobb's Journal. Citováno 2010-07-18.[trvalý mrtvý odkaz ]
  12. ^ Daniel Gilly. Unix v kostce: Kapitola 12. Nroff a Troff. O'Reilly Books, 1992. ISBN  1-56592-001-5
  13. ^ „Definitivní netechnický úvod do LaTeXu, profesionální sazba a vědecké publikování“. Matematický trezor. 2015-09-05. Citováno 2019-07-18.
  14. ^ Reid, Brian. "Scribe: Jazyk specifikace dokumentu a jeho překladač." Ph.D. diplomová práce, Carnegie-Mellon University, Pittsburgh PA. K dispozici také jako technická zpráva CMU-CS-81-100.
  15. ^ "doklady". xml.coverpages.org. Citováno 2019-07-18.
  16. ^ HTML je zvláštní instance SGML, zatímco LaTeX je navržen s ohledem na filozofii oddělení-obsahu-a-designu Scribe.
  17. ^ 14:00-17:00. „ISO 8879: 1986“. ISO. Citováno 2019-07-18.CS1 maint: číselné názvy: seznam autorů (odkaz)
  18. ^ Tim Berners-Lee, „Správa informací: návrh“. CERN (březen 1989, květen 1990). W3.org
  19. ^ „Značky použité v HTML“. World Wide Web Consortium. 3. listopadu 1992. Citováno 16. listopadu 2008.
  20. ^ „První zmínka o značkách HTML v seznamu adresátů www-talk“. World Wide Web Consortium. 29. října 1991. Citováno 8. dubna 2007.
  21. ^ "Rejstřík prvků v HTML 4". World Wide Web Consortium. 24. prosince 1999. Citováno 8. dubna 2007.
  22. ^ Tim Berners-Lee (9. prosince 1991). „Re: Dokumenty SGML / HTML, Prohlížeč X (archivovaný příspěvek v mailing listu www-talk)“. Citováno 16. června 2007. SGML je velmi obecný. HTML je specifická aplikace základní syntaxe SGML aplikované na hypertextové dokumenty s jednoduchou strukturou.
  23. ^ DeRose, Steven J. „Kniha SGML FAQ.“ Boston: Kluwer Academic Publishers, 1997. ISBN  0-7923-9943-9
  24. ^ „Extensible Markup Language (XML)“. W3.org. Citováno 2014-06-28.
  25. ^ Hickson, Iane. „HTML Living Standard“. WHATWG - HTML. Citováno 13. září 2020.
  26. ^ „Pokyny TEI pro elektronické kódování a výměnu textu“. Tei-c.org. Archivovány od originál dne 03.07.2014. Citováno 2014-06-28.
  27. ^ Profil XHTML + MathML + SVG ". W3C, 9. srpna 2002. Citováno dne 17. března 2007.

externí odkazy