Sjednocený kód Hangul - Unified Hangul Code
![]() Uspořádání kódu Unified Hangul | |
Alias (y) | Windows Code Page 949, IBM Code Page 1363 |
---|---|
Jazyk (y) | korejština |
Standard | Standard kódování WHATWG (jako „EUC-KR“)[1] |
Klasifikace | Rozšířené ISO 646,[A] kódování s proměnnou šířkou, Kódování CJK |
Rozšiřuje | EUC-KR |
Další související kódování | KPS 9566 -2003, KPS 9566-2011 |
| |
Sjednocený kód Hangul (UHC),[2][A] nebo Extended Wansung,[4][b] také známý pod Microsoft Windows tak jako Kód Strana 949 (Windows-949, MS949 nebo nejednoznačně CP949), je Microsoft Windows kódová stránka pro korejština. Jedná se o rozšíření Wansungova kódu (KS C 5601: 1987, kódováno jako EUC-KR ) zahrnout všech 11172 Hangul slabiky přítomné v Johab (KS C 5601: 1992 příloha 3).[4][2] To odpovídá předem složené slabiky k dispozici v Unicode 2.0 a novější.
Wansung Code má tu nevýhodu, že přiděluje kódy pouze 2350 předem složeným slabikám Hangul, které mají své vlastní KS X 1001 (KS C 5601) kódové body (celkem z 11 172, nepočítáme-li ty, které používají zastaralé jamo), a vyžaduje, aby ostatní používali osmibajtové kompoziční sekvence, které nejsou podporovány některými částečnými implementacemi standardu.[5] UHC to vyřeší přidělením jednotlivých kódů všem možným slabikám vytvořeným pomocí moderního jamo přidělením mimo kódovací prostor použitý pro KS X 1001.
Rozsah hlavního bajtu je rozšířen na 0x 81 – FE a rozsah bajtů stezky je rozšířen na 0x41–5A, 0x61–7A a 0x81 – FE (v EUC-KR jsou oba rozsahy 0xA1 – FE). Kódy mimo rozsahy EUC-KR se používají pro další hangul.[6]
Terminologie
Unified Hangul Code není registrován u IANA jako standard pro komunikaci informací přes internet.[7] Alternativy zahrnují UTF-8. Nicméně W3C /WHATWG Standard kódování používaný HTML5 zahrnuje rozšíření Unified Hangul Code do své definice „EUC-KR“.[1]
Microsoft přiděluje Windows-949 štítek „ks_c_5601-1987“,[8][9] na které se správně vztahuje KS X 1001 sám (KS C 5601 což je původní název KS X 1001).[10] WHATWG zachází se štítkem „ks_c_5601-1987“ zaměnitelně s „EUC-KR“ se záměrem „být kompatibilní s rozmístěným obsahem“.[11] The Konsorcium Unicode Sbírka „OBSOLETE / EASTASIA“ stažených mapování obsahovala mapování pro Unified Hangul Code jako „KSC5601.TXT“, přičemž automaticky odvozené mapování pro 7bitové KS X 1001 je zahrnuto jako „KSX1001.TXT“.[12]
Kódová stránka IBM 949 je další, jinak nesouvisející rozšíření EUC-KR. Mezinárodní komponenty pro Unicode (ICU) používá k označení této kódové stránky IBM „cp949“, „949“ nebo „ibm-949“,[13] a „ms949“ nebo „windows-949“ (nebo několik variant „ks_c_5601-1987“), které odkazují na mapování UHC na Windows.[14] Krajta, naopak rozpoznává „cp949“, „949“, „ms949“ a „uhc“ jako štítky pro UHC a nezahrnuje kodek IBM-949.[15] Ze štítků obsahujících číslo kódové stránky WHATWG rozpoznává pouze „windows-949“.[11]
Je volána kódová stránka IBM pro Unified Hangul Code Kódová stránka 1363 (IBM-1363) nebo „korejský MS-Win“. Je to kombinace SBCS Kódová stránka 1126 a DBCS Kódová stránka 1362.[16][17][18][19][20] Liší se tím, že má jednobajtové mapování 0x5C na Vyhrál znamení (U + 20A9);[21][22][23] Windows mapuje 0x5C na U + 005C (bod kódu Unicode pro obrácené lomítko ) jako v ASCII,[14] ačkoli písma to často stále vykreslují jako znak vítězství.[24] Unicode mapování vlnovky (0xA1AD) se také liší, přičemž mapování IBM upřednostňuje U + 301C,[25] zatímco mapování Microsoftu upřednostňuje U + 223C (operátor tildy).[26] Mapování IBM pro UHC je na ICU k dispozici jako „ibm-1363“,[21] vzhledem k tomu, že kodek „Windows-949“ na JIP je v některých komentářích ke zdrojovým kódům JIP označován jako IBM-1261.[27]
Poznámky pod čarou
- ^ korejština: 통합형 한글 코드[3], romanized: Tonghabhyeong Hangeul Kodeu
- ^ korejština: 확장 완성형, romanized: Hwagjang Wanseonghyeong
Reference
- ^ A b van Kesteren, Anne, "5. Indexy (§ index EUC-KR)", Standard kódování, WHATWG
- ^ A b „INFO: Hangul (korejské) znakové sady“, Podpora společnosti Microsoft, Microsoft
- ^ „한글 코드 에 대하여“ (v korejštině). W3C.
- ^ A b Zsigri, Gyula (18. 06. 2002). „KSC a UHC“.
- ^ Shin, Jungshik. „Co jsou KS X 1001 (KS C 5601) a další kódy Hangul?“. Hangul a internet v Koreji - nejčastější dotazy.
- ^ Lunde, Ken. „Dodatek F: Metody kódování dodavatele“ (PDF). Zpracování informací CJKV (2. vyd.). O'Reilly Media. ISBN 978-0-596-51447-1.
- ^ „Sady znaků“. Iana.org. Citováno 2017-01-11.
- ^ "Vlastnost Encoding.WindowsCodePage - .NET Framework (aktuální verze)". MSDN. Microsoft.
- ^ „Identifikátory kódové stránky“, Centrum Windows Dev, Microsoft
- ^ IBM; Konsorcium Unicode. „convrtrs.txt“. Mezinárodní komponenty pro Unicode. v. 59180.0.1.
[...] používání KS C 5601 nebo souvisejících názvů k označení EUC-KR nebo windows-949 je velmi zavádějící [...] je to jen název korejského kódu s rozměry 94 x 94 standard znakové sady, který lze vyvolat buď na GL (s MSB resetem) nebo GR (s MSB sadou).
- ^ A b van Kesteren, Anne. „4.2. Jména a štítky“. Standard kódování. WHATWG.
- ^ Jungshik Shin. "KSX1001.TXT: KS X 1001 do tabulky Unicode". Unicode, Inc.
- ^ „ibm-949_P110-1999 (alias cp949)“, Converter Explorer, Mezinárodní komponenty pro Unicode
- ^ A b „windows-949-2000“, Converter Explorer, Mezinárodní komponenty pro Unicode
- ^ "kodeky - registr kodeků a základní třídy § standardní kódování". Dokumentace k Pythonu 3.7.2. Softwarová nadace Python.
- ^ "Identifikátory kódované znakové sady - CCSID 1363", Globalizace IBM, IBM, archivovány z originál dne 2014-11-29
- ^ „Informační dokument kódové stránky 1126“. Archivovány od originál dne 2017-01-16.
- ^ „Informační dokument CCSID 1126“. Archivovány od originál dne 2016-03-27.
- ^ "Informační stránka s kódovou stránkou 1362". Archivovány od originál dne 2017-03-17.
- ^ „Informační dokument CCSID 1362“. Archivovány od originál dne 2016-03-27.
- ^ A b „ibm-1363“, Converter Explorer, Mezinárodní komponenty pro Unicode
- ^ Kódová stránka CPGID 01126 (pdf) (PDF), IBM
- ^ Kódová stránka CPGID 01126 (txt), IBM
- ^ Kaplan, Michael S. (2005-09-17), „Kdy zpětné lomítko není zpětné lomítko?“, Všechno to vyřeším
- ^ „ibm-1363_P110-1997 (hlavní bajt A1)“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „windows-949-2000 (hlavní bajt A1)“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ Pro informaci viz ucnv_lmb.cpp (Brendan Murray, Jim Snyder-Grant), kde je hlavní bajt 0x11 komentován jako odkaz na „Korean: ibm-1261“ po definici
ULMBCS_GRP_KO
, ale je mapován na„windows-949“
Kodek ICU vOptGroupByteToCPName
pole později v souboru.
externí odkazy
- Reference společnosti Microsoft pro Windows-949
- Dokumentace IBM k IBM-1363
- Mapování Windows-949 na Unicode
- Soubory pro mapování mezinárodních komponent pro Unicode (ICU): ibm-1363_P110-1997.ucm, ibm-1363_P11B-1998.ucm, a windows-949-2000.ucm
- Demonstrace na ICU pro Windows-949 (s mapováním ASCII)
- Demonstrace na ICU pro IBM-1363 (s 0x5C jako znak Won)
![]() | Tento Microsoft Windows článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |
![]() | Tento Korea související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |