Forma varianty (Unicode) - Variant form (Unicode)
A variantní forma je jiný znak pro znak, zakódovaný v Unicode prostřednictvím mechanismu variační sekvence: sekvence v Unicode, které se skládají ze základního znaku následovaného a selektor variace charakter.
Varianta formy má obvykle velmi podobný vzhled a význam jako její základní forma. Mechanismus je určen pro varianty formulářů, kde obecně, pokud je varianta formuláře nedostupná, zobrazení základního znaku nezmění význam textu a mnoho čtenářů si ji ani nemusí všimnout.
Unicode definuje dva typy variačních sekvencí:
- Standardizované variační sekvence definované v StandardizedVariants.txt[1]
- Ideografické variační sekvence definované v databázi ideografických variací (IVD)[2][3]
Znaky pro výběr variant jsou umístěny v několika blocích Unicode:
- Varianty selektorů (16 znaků zkráceno VS1 – VS16)
- Doplněk selektorů variant (240 znaků zkráceně VS17 – VS256)
- mongolský (3 znaky zkráceně FVS1 – FVS3)
Selektory variace se nevyžadují u arabských a latinských kurzivních znaků, kde může dojít k nahrazení glyfů na základě kontextu: glyfy mohou být spojeny dohromady v závislosti na tom, zda je znak počáteční znak ve slově, konečný znak, mediální znak nebo izolovaný znak charakter. Tyto typy substituce glyfů lze snadno zpracovat kontextem znaku bez dalších vstupů pro vytváření. Autoři mohou také použít speciální znaky, jako jsou truhláři a nečlenové, k vynucení alternativní formy glyfů, kde by se jinak neobjevila. Ligatury jsou podobné případy, kdy lze glyfy nahradit jednoduše zapnutím nebo vypnutím ligatur jako bohatý text atribut.
U jiných substitucí glyfů může být nutné autorův záměr kódovat textem a nelze jej určit kontextově. To je případ znaků / glyfů označovaných jako gaiji, kde se pro stejný znak používají různé piktogramy buď historicky, nebo pro ideografy pro příjmení. Toto je jedna ze šedých oblastí při rozlišování mezi glyfem a znakem: Pokud se příjmení mírně liší od ideografického znaku, z něhož pochází, je to jednoduchá varianta glyfů nebo varianta znaků?
Substituce znaků se mohou objevit i mimo Unicode, například s OpenType Značky rozložení.[4]
Bloky se standardizovanými variačními sekvencemi
Od Unicode 13.0 jsou standardizované variační sekvence specificky pro prezentaci emodži / textu definovány pro základní znaky ve dvaceti blocích:[1]
- Šipky
- Základní latinka
- CJK symboly a interpunkce
- Prsteny
- Emotikony
- Přiložený alfanumerický doplněk
- Uzavřená alfanumerika
- Přiložené dopisy a měsíce CJK
- Přiložený ideografický dodatek
- Obecná interpunkce
- Geometrické tvary
- Doplněk latinky-1
- Písmenové symboly
- Mahjong dlaždice
- Různé symboly
- Různé symboly a šipky
- Různé symboly a piktogramy
- Různé technické
- Doplňkové šipky-B
- Dopravní a mapové symboly
Další standardizované variační sekvence jsou tvořeny základními znaky v následujících jedenácti blocích:[1]
- CJK Unified Ideographs
- Rozšíření Unified Ideographs CJK A
- Rozšíření Unified Ideographs CJK B
- Formuláře s poloviční a plnou šířkou
- Manichejský
- Matematické operátory
- mongolský
- Myanmar
- Myanmar Extended-A
- Phags-pa
- Doplňkové matematické operátory
Bloky s ideografickými variačními sekvencemi
Ke dni 6. listopadu 2020[Aktualizace], sekvence ideografických variací jsou definovány pro základní znaky v osmi blocích:[2][3]
- Ideografy o kompatibilitě s CJK
- CJK Unified Ideographs
- Rozšíření Unified Ideographs CJK A
- Rozšíření Unified Ideographs CJK B
- CJK Unified Ideographs Extension C
- CJK Unified Ideographs Extension D
- Rozšíření CJK Unified Ideographs E.
- Rozšíření CJK Unified Ideographs F
Viz také
Reference
- ^ A b C „UCD: Standardized Variation Sequences“. Konsorcium Unicode.
- ^ A b "Databáze ideografických variací". Konsorcium Unicode.
- ^ A b „UTS # 37, Unicode Ideographic Variation Database“. Konsorcium Unicode.
- ^ "Značky jazykového systému". Microsoft.