GBK (kódování znaků) - GBK (character encoding)
![]() | tento článek potřebuje další citace pro ověření.Říjen 2016) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
![]() Rozložení GBK (viz. níže pro větší kopii tohoto diagramu) | |
MIME / IANA | GBK |
---|---|
Alias (y) | CP936, MS936, windows-936, csGBK |
Jazyk (y) | Webové prohlížeče, dekódovat jako GB 18030, podporující všechny jazyky, zatímco kódování (a další softwarové dekodéry) se primárně používá pro Zjednodušená čínština, ale také podporuje Tradiční čínština, japonský, Angličtina, ruština a (částečně) řecký. |
Standard | GBK 1.0 |
Klasifikace | Rozšířené ASCII,[A] kódování s proměnnou šířkou, Kódování CJK |
Rozšiřuje | EUC-CN |
Předcházet | GB2312 |
Uspěl | GB 18030 |
| |
GBK je rozšířením GB2312 znaková sada pro Zjednodušené čínské znaky, použitý v Čínská lidová republika. Zahrnuje vše sjednocené Znaky CJK nalezené v GB13000.1-93, tj. ISO / IEC 10646: 1993, nebo Unicode 1.1. Od svého počátečního vydání v roce 1993 byla společnost GBK rozšířena společností Microsoft v Kódová stránka 936/1386, který byl poté rozšířen na GBK 1.0. GBK je také internetový název registrovaný IANA pro mapování Microsoftu,[1] který se liší od ostatních implementací primárně jednobajtovým znak eura v 0x80.
GB zkracuje Guojia Biaozhun, což znamená národní norma v čínštině, zatímco K. znamená Rozšíření (扩展 kuòzhǎn). GBK nejen rozšířil starý standard GB2312 o tradiční čínské znaky, ale také o čínské znaky, které byly zjednodušeny po založení GB2312 v roce 1981. S příchodem GBK byla některá jména se znaky, která dříve nebyla reprezentativní, jako 镕 (róng) postava v bývalém čínském premiérovi Zhu Rongji jméno, jsou nyní reprezentovatelné.[2]
Od června 2020[Aktualizace], GBK je druhé nejpopulárnější čínské kódování (po GB2312, i když je pravděpodobné, že jsou dekódovány jako jedno a totéž), přičemž jej deklaruje 3,6% webových stránek z Číny a území,[3] nebo 0,2% všech webových stránek globálně,[4] to je, když je takto označeno, ale všechny hlavní webové prohlížeče dekódují dokumenty označené jako např. "GB 2312„nebo“GB2312 „jako by byly označeny„ gbk “(i když ne u stránek označených„ GB_2312 “),[5] a GBK a kódování podmnožiny GB 2312 mají kombinovaný 16,7% podíl (nebo 0,6% globálně).
Dějiny
V roce 1993 Unicode Byla vydána verze 1.1, včetně 20 902 znaků použitých v pevninská Čína, Tchaj-wan, Japonsko a Korea. Poté Čína vydala GB13000.1-93, Guobiao standard ekvivalent Unicode 1.1.
The GBK znaková sada byla definována v roce 1993 jako rozšíření GB2312 -80, přičemž zahrnuje také znaky GB13000.1-93 prostřednictvím nevyužitých kódových bodů dostupných v GB2312. GBK je tedy zpětně kompatibilní s GB2312.
Microsoft implementoval GBK v Windows 95 a Windows NT 3.51 tak jako Kód Strana 936. Zatímco GBK nikdy nebyl oficiálním standardem, rozšířené používání Windows 95 vedlo k tomu, že se GBK stalo de facto Standard. Zatímco GBK obsahoval všechny čínské znaky definované v Unicode 1.1 a GB13000.1-93, tyto standardy používaly různé kódové tabulky. Hlavním důvodem jeho existence bylo jednoduše překlenout propast mezi GB2312-80 a GB13000.1-93.
V roce 1995 stanovil čínský národní technický výbor pro normalizaci informačních technologií specifikaci rozšíření interního čínského kódu (čínština : 汉字 内 码 扩展 规范 (GBK); pchin-jin : Hànzì Nèimǎ Kuòzhǎn Guīfàn (GBK)), Verze 1.0, známá jako GBK 1.0, což je mírné rozšíření Codepage 936. Nově přidaných 95 znaků nebylo v GB 13000.1-1993 nalezeno a bylo jim dočasně přiděleno Unicode PUA kódové body.[6]:534
Microsoft později přidal znak eura na kódovou stránku 936 a přidělil jí kód 0x80. Toto není platný kódový bod v GBK 1.0.
V roce 2000 GB18030 Byl vydán standard 2 000, který nahrazuje a přitom zachovává kompatibilitu s GBK 1.0. Zvýšila počet definic čínských znaků a rozšířila počet možných znaků implementací čtyřbajtových znakových mezer. Podmnožina GB 18030 skládající se z jednobajtových a dvoubajtových znaků se někdy také označuje jako GBK. Mapování na Unicode se však mírně změnilo, protože některé znaky jsou nyní definovány v Unicode. V nejaktuálnější podobě standardu, GB 18030-2005, pouze 24[7] znaky jsou stále mapovány na Unicode PUA (viz GB 18030 # PUA.)
V roce 2002 GBK byl zaregistrován jako znaková sada IANA; použití registrace kódová stránka 936 mapování i aliasy CP936 / MS936, ale odkazuje na specifikaci GBK 1.0.[1] W3C technické doporučení zveřejněné v roce 2015[8] definuje a GBK kodér jako kodér GB 18030 s jednobajtovým znakem eura a bez čtyřbajtových sekvencí (zatímco W3C GBK dekodér specifikace nemá žádné takové omezení, dekóduje jako GB 18030, tj. se stejným rozsahem písmen jako všechna Unicode ).
Kódování
Znak je kódován na 1 nebo 2 bajty. Bajt v rozsahu 00
–7F
je jeden bajt, který znamená to samé jako v ASCII. Přesně řečeno, v tomto rozsahu je 95 znaků a 33 řídicích kódů.
Bajt se sadou vysokých bitů označuje, že se jedná o první ze 2 bajtů. Volně řečeno, první bajt je v rozsahu 81
–FE
(tj. nikdy 80
nebo FF
) a druhý bajt je 40
–A0
až na 7F
pro některé oblasti a A1
–FE
pro ostatní.
Přesněji jsou definovány následující rozsahy bajtů:
rozsah | bajt 1 | bajt 2 | kódové body | postavy | |||
---|---|---|---|---|---|---|---|
GB 18030 | GBK 1.0 | Kódová stránka 936 | GB 2312 | ||||
Úroveň GBK / 1 | A1 –A9 | A1 –FE | 846 | 718[6]:8–10 | 717 | 715 | 682 |
Úroveň GBK / 2 | B0 –F7 | A1 –FE | 6,768 | 6,763 | 6,763 | 6,763 | |
Úroveň GBK / 3 | 81 –A0 | 40 –FE až na 7F | 6,080 | 6,080 | 6,080 | ||
Úroveň GBK / 4 | AA –FE | 40 –A0 až na 7F | 8,160 | 8,160 | 8,080 | ||
Úroveň GBK / 5 | A8 –A9 | 40 –A0 až na 7F | 192 | 166 | 153 | ||
uživatelem definované 1[6] | AA –AF | A1 –FE | 564 | ||||
definované uživatelem 2 | F8 –FE | A1 –FE | 658 | ||||
uživatelem definované 3 | A1 –A7 | 40 –A0 až na 7F | 672 | ||||
celkový: | 23,940 | 21,887 | 21,886 | 21,791 | 7,445 |
Schéma rozložení
Následující obrázek ukazuje v grafické podobě prostor všech 64 kB možných 2bajtových kódů. Zelené a žluté oblasti jsou přiřazeny kódové body GBK, červená je pro uživatelem definované znaky. Nezbarvené oblasti jsou neplatné kombinace bajtů.
Vztah k jiným kódováním
Oblasti uvedené v předchozí části jako GBK / 1 a GBK / 2, které jsou samy o sobě, jsou jednoduše GB2312-80 ve svém obvyklém kódování, GBK / 1 je non-hanzi region a GBK / 2 je hanzi region. GB2312 nebo přesněji jeho kódování EUC-CN bere z rozsahu pár bajtů A1
–FE
, jako každá znaková sada ISO-2022 94² načtená do GR. To odpovídá pravé dolní čtvrtině výše uvedeného obrázku. GB2312 však nepřiřazuje žádné body kódu řádkům umístěným na AA
–B0
a F8
–FE
, i když to vytyčovalo území. GBK přidal do těchto řádků rozšíření. Vidíte, že tyto dvě mezery byly vyplněny uživatelem definovanými oblastmi.
Významněji GBK rozšířil rozsah bajtů. Mít dvoubajtové znaky v rozsahu ISO-2022 GR dává limit 94² = 8 836 možností. Opuštění modelu přísných oblastí podle ISO-2022 pro grafické a řídicí znaky, ale zachování funkce nízkých bajtů, které jsou jednobajtové znaky a dvojice vysokých bajtů označujících znak, byste mohli mít 128² = 16384 pozic. GBK se toho účastní a rozšiřuje rozsah od A1
–FE
(94 možností pro každý bajt) až 81
–FE
(126 možností) pro první bajt a 40
–FE
(191 možností) pro druhý bajt, tedy celkem 24 066 pozic.
Kódová stránka společnosti Microsoft je obecně považována za GBK.[1] Nicméně 95 znaků PUA přidané v GBK 1.0 nejsou zahrnuty do kódové stránky 936. Kódová stránka 936 má také jednobajtový kód znak eura na 0x80, které GBK 1.0 nemá.[9]
GBK nástupce, GB18030 -2000, použije zbývající rozsah dostupný pro druhý bajt (30
–39
) k dalšímu rozšíření počtu možností při zachování GBK jako podmnožiny.
Reference
- ^ A b C „Sady znaků“. Citováno 3. října 2016.
- ^ „Kódová stránka 936 - PRC GBK (XGB)“. Archivovány od originál dne 01.10.2002. Mapa převodu mezi Kódová stránka 936 a Unicode. Je třeba ručně vybrat GB18030 nebo GBK v prohlížeči pro správné zobrazení.
- ^ „Distribuce kódování znaků mezi weby, které používají Čínu a teritoria“. w3techs.com. Citováno 2020-06-01.
- ^ „Historické trendy v používání kódování znaků, červen 2020“. w3techs.com. Citováno 2020-06-01.
- ^ „Kódování: Souhrnné výsledky testu“. www.w3.org. Citováno 2019-11-15.
- ^ A b C Správa standardizace v Číně (SAC) (18.11.2005). GB 18030-2005: Informační technologie - čínská kódovaná znaková sada.
- ^ GB 18030-2005 Standard str.9, 79
- ^ „Encoding Standard # gbk-encoder“. W3C. Citováno 2016-10-02.
- ^ Scherer, Markus (4. ledna 2002). „Re: Zábava s GBK a GB2312“. Archiv seznamů pošty Unicode. Citováno 4. března 2020.
Poznámky
externí odkazy
- Autoritativní mapování GBK na ICU - část Data GB18030
- Stránka Microsoft Reference pro GBK
- Mapování GBK na Unicode Pozn .: toto je kódová stránka Microsoftu 936, která obsahuje položky pro 21791 dvoubajtových kódových bodů, 96 jednobajtových grafických znaků a 33 řídicích znaků. To není úplně stejné jako GBK, které má 21886 znaků.
- Tabulka kódů GBK N.B. Tato stránka s kódováním gbk zobrazuje dostupný kódovací prostor zcela naplněný, kromě 2 míst, pro celkem 32256 glyfů (32352 s implikovanými jednobajtovými kódy ASCII nejsou zobrazeny), což je více než 23940 nebo 21886. Aktuální vykreslení této tabulky záleží na dekodéru GBK vašeho prohlížeče.