Kódová stránka 950 - Code page 950
Jazyk (y) | Tradiční čínština |
---|---|
Vytvořil | Microsoft |
Rozšiřuje | Big5 |
Na základě | Big5-ETen |
Kódová stránka 950 je kódová stránka použitý na Microsoft Windows pro Tradiční čínština. Jedná se o implementaci Microsoftu de facto Standard Big5 Kódování znaků. Kódová stránka není zaregistrována u IANA,[1] a proto není standardem sdělovat informace přes internet, i když jsou obvykle označeny jednoduše jako velký5
, včetně funkcí knihovny Microsoft.[2]
Terminologie a varianty
Hlavním rozdílem mezi kódovou stránkou Windows 950 a „běžnou“ (nezávislou na dodavateli) Big5 je začlenění podmnožiny ETEN rozšíření na Big5 v 0x F9D6 až 0xF9FE (obsahuje sedm čínské postavy 碁, 銹, 裏, 墻, 恒, 粧 a 嫺, následované 34 box kreslení znaků a blokových prvků ). Rozsahy používané některými dalšími rozšířenými znaky ETEN jsou místo toho definovány jako znaky definované koncovým uživatelem (soukromé použití).[3]
Implementace CCSID 950 ze strany IBM,[4] je mírně odlišný a obsahuje některá rozšíření ETEN pro vedoucí bajty 0xA3,[5] 0xC6,[3][6] 0xC7[7] a 0xC8,[3][8] při vynechání těch s vedoucím bajtem 0xF9 (které Microsoft zahrnuje) je namísto toho namapuje na Oblast pro soukromé použití jako uživatelem definované znaky.[3][9]
Microsoft aktualizoval svou verzi kódové stránky 950 v roce 2000 a přidal znak eura (€) u dvoubajtového kódu 0xA3E1. IBM označuje aktualizaci znaménka eura jako CCSID 1370 (který zahrnuje jednobajtové (0x80) a dvoubajtové znaky eura)[10] nebo CCSID 1373 (který zahrnuje pouze dvoubajtový znak eura).[11] Kódová stránka 1373 odpovídá chování Microsoftu, ve kterém jsou zahrnuta rozšíření ETEN.[12][13][14][15][16]
CCSID 950 zahrnuje jeden bajt kódová stránka 1114 (CCSID 1114) a dvoubajt kódová stránka 947 (CCSID 947),[4][17][18] zatímco znak euro rozšířený CCSID 1370 obsahuje jednobajtovou kódovou stránku 1114 (CCSID 5210) a dvoubajtovou kódovou stránku 947 (CCSID 21427).[10][19][20]
Jednobajtové kódy
Následují jednobajtové grafické znaky zahrnuté společností IBM. Lze použít kódy 0x00, ačkoli 0x1F a 0x7F C0 kontrolní kódy místo toho v závislosti na kontextu (srov kódová stránka 437, kódová stránka 897 ). Jak je uvedeno výše, jednobajtový znak eura na 0x80 není součástí IBM CCSID 950 nebo 1373 ani společností Microsoft.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ☺ 263A | ☻ 263B | ♥ 2665 | ♦ 2666 | ♣ 2663 | ♠ 2660 | • 2022 | ◘ 25D8 | ○ 25CB | ◙ 25D9 | ♂ 2642 | ♀ 2640 | ♪ 266A | ♫ 266B | ☼ 263C | |
1_ | ► 25BA | ◄ 25C4 | ↕ 2195 | ‼ 203C | ¶ 00B6 | § 00A7 | ▬ 25AC | ↨ 21A8 | ↑ 2191 | ↓ 2193 | → 2192 | ← 2190 | ∟ 221F | ↔ 2194 | ▲ 25B2 | ▼ 25BC |
2_ | SP 0020 | ! 0021 | " 0022 | # 0023 | $ 0024 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | Já 0049 | J 004A | K. 004B | L 004C | M 004D | N 004E | Ó 004F |
5_ | P 0050 | Q 0051 | R 0052 | S 0053 | T 0054 | U 0055 | PROTI 0056 | Ž 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ | ` 0060 | A 0061 | b 0062 | C 0063 | d 0064 | E 0065 | F 0066 | G 0067 | h 0068 | i 0069 | j 006A | k 006B | l 006C | m 006D | n 006E | Ó 006F |
7_ | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | proti 0076 | w 0077 | X 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | ⌂ 2302 |
8_ | € 20AC |
Dopis Číslo Interpunkce Symbol jiný Nedefinováno
Zbytek jsou části dvoubajtové sekvence.
Využití oblasti pro soukromé použití
Řada Big5 | Rozsah Unicode | Vzorec[24] |
---|---|---|
81 40–8D FE | U + EEB8 – U + F6B0 | 0xeeb8 + (157 * (H-0x81)) + (L <0x80)? (L-0x40) :( L-0x62) |
8E 40 – A0 FE | U + E311 – U + EEB7 | 0xe311 + (157 * (H-0x8e)) + (L <0x80)? (L-0x40) :( L-0x62) |
C6 A1 – C8 FE | U + F6B1 – U + F848 | 0xf672 + (157 * (H-0xc6)) + (L <0x80)? (L-0x40) :( L-0x62) |
FA 40 – FE FE | U + E000 – U + E310 | 0xe000 + (157 * (H-0xfa)) + (L <0x80)? (L-0x40) :( L-0x62) |
Toto mapování se také používá v HKSCS kde daný glyf dosud nebyl nalezen v zadané revizi Unicode.[25]
Viz také
- LMBCS-18
- Kódová stránka 951, hack společnosti Microsoft, který v systému Windows XP nahradil cp950 verzí s podporou HKSCS
Reference
- ^ „Sady znaků“. IANA - registry protokolů.
- ^ "Vlastnost Encoding.WindowsCodePage - .NET Framework (aktuální verze)". MSDN. Microsoft.
- ^ A b C d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). „Čínské kódování znaků pro internetové zprávy“. Žádosti o komentáře. IETF. doi:10.17487 / rfc1922. RFC 1922.
- ^ A b „Informační dokument CCSID 950“. Archivovány od originál dne 02.12.2014.
- ^ „Lead byte A3: ibm-950_P110-1999“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C6: ibm-950_P110-1999“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C7: ibm-950_P110-1999“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C8: ibm-950_P110-1999“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte F9: ibm-950_P110-1999“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ A b „Informační dokument CCSID 1370“. Archivovány od originál dne 2016-03-27.
- ^ „ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte A3: ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C6: ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C7: ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte C8: ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Lead byte F9: ibm-1373_P100-2002“. ICU Demonstration - Converter Explorer. Mezinárodní komponenty pro Unicode.
- ^ „Informační dokument CCSID 1114“. Archivovány od originál dne 2016-03-27.
- ^ „Informační dokument CCSID 947“. Archivovány od originál dne 01.12.2014.
- ^ „Informační dokument CCSID 5210“. Archivovány od originál dne 2014-11-29.
- ^ „Informační dokument CCSID 21427“. Archivovány od originál dne 2016-03-27.
- ^ Kódová stránka CPGID 01114 (pdf) (PDF), IBM
- ^ Kódová stránka CPGID 01114 (txt), IBM
- ^ „Windows Best Fit Chart: CP950“. unicode.org. Citováno 13. září 2016.
- ^ „Big5“. Databáze Kanji. Citováno 13. září 2016.
- ^ „Big5-HKSCS: 2008“. Archivovány od originál dne 13. 9. 2016.
externí odkazy
- Odkaz společnosti Microsoft na kódovou stránku 950
- Mapování kódové stránky 950 na Unicode
- Soubory pro mapování mezinárodních komponent pro Unicode (ICU): windows-950-2000.ucm, ibm-950_P110-1999.ucm, ibm-1373_P100-2002.ucm