TRON (kódování) - TRON (encoding) - Wikipedia
Jazyk (y) | Angličtina, čínština, japonština, korejština |
---|---|
Vytvořil | Projekt TRON |
Klasifikace | DBCS |
Transformuje / kóduje | JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, KS X 1001, Big5, GB 18030, ostatní |
Kód TRON je vícebajtový Kódování znaků použitý v Projekt TRON. Je to podobné jako Unicode ale nepoužívá Unicode Sjednocení Han proces: každý znak od každého CJK znaková sada je kódována samostatně, včetně archaických a historických ekvivalentů moderních postav. To znamená, že čínský, japonský a korejský text lze kombinovat bez jakýchkoli nejasností ohledně přesné podoby znaků; to však také znamená, že mnoho[který? ] znaky s ekvivalentní sémantikou budou kódovány více než jednou, což komplikuje některé operace.
TRON má prostor pro 150 milionů kódových bodů. Samostatné kódové body pro čínské, korejské a japonské varianty 70 000+ znaků Han v Unicode 4.1 (pokud by to bylo považováno za nutné) by vyžadovalo více než 200 000 kódových bodů v TRONu. TRON obsahuje znaky jiné než Han z Unicode 2.0, ale nedrží se aktuálních vydání Unicode, protože Unicode expanduje nad rámec Základní vícejazyčné letadlo a přidává znaky do existujících skriptů. Kódování TRON bylo aktualizováno, aby zahrnovalo další nedávné aktualizace kódových stránek, jako je JIS X 0213.[1]
Fonty pro kódování TRON jsou k dispozici, ale mají omezení pro komerční použití.[2]
Struktura
Každý znak v kódu TRON má dva bajty. Podobně jako ISO / IEC 2022, kódování znaků TRON zpracovává znaky ve více znakových sadách v rámci jediného kódování znaků pomocí únikových sekvencí, označovaných jako kódy specifikujících jazyk, k přepínání mezi rovinami 48 400 kódových bodů. Znakové sady začleněné do kódu TRON zahrnují stávající znakové sady, jako jsou JIS X 0208 a GB 2312, stejně jako další zdroje postav, například Dai Kan-Wa Jiten a některé skripty, které nejsou zahrnuty v jiných kódováních, například Dongba symboly.
Díky začlenění celých znakových sad do kódu TRON je mnoho znaků s ekvivalentní sémantikou kódováno vícekrát; například všechny znaky kanji v GT Typeface dostávají své vlastní kódové body, přestože se mnoho z nich překrývá s jinými sadami znaků kanji, které jsou již zahrnuty, jako je JIS X 0208. Jedním z takových příkladů je znak 亜 (umístěný v Unicode na + 4E9C), která se objevuje v oblasti JIS X 0208 na adrese 1-3021, v oblasti GT Typeface na 2-2464 a v oblasti Dai Kan-Wa Jiten na 8-2373.
Kontrolní kódy
Bajty v rozsahu 0x00 až 0x20 a 0x7F jsou vyhrazeny pro použití v řídicích kódech.
Kódy znaků
Znaky v každé rovině jsou rozděleny do čtyř zón. Každá zóna je přidělena samostatně; například v rovině 1 jsou znaky JIS X 0208 umístěny v zóně A počínaje od 0x2121, znaky JIS X 0213 jsou umístěny v zóně A i zóně B a znaky GB 2312 jsou umístěny v zóně C počínaje od 0x2180.
Zóna | První bajt | Druhý bajt |
---|---|---|
Zóna A | 0x21 - 0x7E | 0x21 - 0x7E |
Zóna B | 0x80 - 0xFD | 0x21 - 0x7E |
Zóna C | 0x21 - 0x7E | 0x80 - 0xFD |
Zóna D | 0x80 - 0xFD | 0x80 - 0xFD |
Codepoints jsou notated as X-YYYY, where X is the plane number in decimal and YYYY is the codepoint in hexadecimal. Alternativně lze použít notaci 0xNNYYYY, kde NN je druhý bajt kódu specifikátoru jazyka. Textový formát „& TNNYYYY;“ lze použít k označení kódového bodu TRON v textu ASCII podobným způsobem jako číselné odkazy na znaky v HTML.
Kódy specifikátoru jazyka
Kódy jazykových specifikátorů mají předponu 0xFE. Platné přípony jsou 0x21 až 0x7E a 0x80 až 0xFE, z nichž mnohé jsou nepřidělené.
Speciální a únikové kódy
Speciální kódy mají předponu 0xFF.
Letadla
Následují roviny přidělené pro použití v kódu TRON spolu s jejich odpovídajícími kódy specifikátoru jazyka a popisem znakových sad obsažených v každé rovině.
Letadlo | Kód specifikátoru jazyka | Popis |
---|---|---|
1 | 21. FE | JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, KS X 1001 a Braillovo písmo |
2 | FE 22 | Znaky písma GT |
3 | FE 23 | Znaky GT Typeface pokračovaly |
6 | 26. FE | Big5 |
8 | FE 28 | Dai Kan-Wa Jiten postavy |
9 | FE 29 | Dai Kan-Wa Jiten pokračoval, hentaigana a různé postavy |
10 | FE 2A | Menšinové skripty (symboly Dongba) |
16 | FE 30 | Unicode 2.0 (kromě CJK Unified a Hangul) |
17 | 31. FE | Unicode 2.0 (kromě CJK Unified a Hangul) pokračoval |
22 | FE 36 | GB 18030 |
23 | FE 37 | GB 18030 pokračovalo |
Letadla 11 až 15 byla původně přidělena k uložení Mojikyo znaková sada, ale spory vedly k vyloučení letadel. Všechna ostatní letadla do 31 jsou aktuálně rezervována pro budoucí přidělení.
Viz také
externí odkazy
- TRON コ ー ド 体系 Systém kódů Tron ve specifikačním dokumentu BTRON
- TRON 文字 収録 セ ン タ ー Centrum sběru postav Tron
- 超 漢字 Operační systém se standardem BTRON
- GT 明朝 Písmo Tron GT-Mincho
- Archiv projektů ITRON
- Aktivní znaková stránka TRON
- Zacházení s čínskými znaky a kód TRON
Reference
- ^ „Název T-Engine Forum byl změněn na TRON Forum“. T-engine.org. 01.04.2015. Citováno 2018-09-16.
- ^ „T フ ォ ン ト プ ロ ジ ェ ク ト 利用 規定“. Charcenter.t-engine.org. Citováno 2018-09-16.