Windows-1252 - Windows-1252
![]() | |
MIME / IANA | windows-1252[1] |
---|---|
Jazyk (y) | V zásadě vše podporuje ISO / IEC 8859-1 např. Angličtina, Irština, italština, norština, portugalština, španělština, švédština. Plus také německé, finské a francouzské. A holandský kromě znaku IJ. A slovinština kromě C charakter. |
Vytvořil | Microsoft |
Standard | Standard kódování WHATWG |
Klasifikace | rozšířené ASCII, Windows-125x |
Rozšiřuje | ISO 8859-1 (kromě ovládacích prvků C1) |
Transformuje / kóduje | ISO 8859-15 |
Windows-1252 nebo CP-1252 (kódová stránka 1252) je jednobajtový Kódování znaků z latinka, používané ve výchozím nastavení v dědictví komponenty Microsoft Windows pro angličtinu a mnoho evropských jazyků včetně španělštiny, francouzštiny a němčiny.
Jedná se o nejpoužívanější jednobajtové kódování znaků na světě. Od října 2020[Aktualizace], 0,4% všech webových stránek deklarovalo použití Windows-1252,[2][3] ale zároveň 1,9%[2] použitý ISO 8859-1 (zatímco pouze 0,8% z top 1 000 webů[4]), který by podle standardů HTML5 měl být považován za stejné kódování,[5] takže 2,3% webových stránek efektivně využívá Windows-1252. Stránky deklarované jako US-ASCII by se také počítala jako tato znaková sada. Neznámá (ale pravděpodobně velká) podmnožina jiných stránek používá pouze ASCII část UTF-8 nebo pouze kódy odpovídající Windows-1252 z jejich deklarované znakové sady a lze ji také spočítat.
Detaily
Toto kódování znaků je nadmnožina z ISO 8859-1 pokud jde o tisknutelné znaky, ale liší se od normy ISO-8859-1 organizace IANA tím, že v řídících jednotkách 80 až 9F používá spíše zobrazitelné znaky než kontrolní znaky (hex ) rozsah. Pozoruhodné další znaky zahrnují složené uvozovky a všechny tisknutelné znaky, které jsou v ISO 8859-15 (na různých místech než ISO 8859-15). Windows jej zná kódová stránka číslo 1252 a IANA -schválený název "windows-1252".
Je velmi běžné označovat text Windows-1252 štítkem znakové sady ISO-8859-1. Běžným výsledkem bylo, že všechny citace a apostrofy (vytvořené „inteligentními uvozovkami“ v softwaru pro zpracování textu) byly v operačních systémech jiných než Windows nahrazeny otazníky nebo rámečky, což znesnadňovalo čtení textu. Většina moderních webových prohlížečů a e-mailových klientů zachází s typ média charset ISO-8859-1 jako Windows-1252 pro přizpůsobení se takovému nesprávnému označení. Toto je nyní standardní chování ve specifikaci HTML5, která vyžaduje, aby dokumenty inzerované jako ISO-8859-1 byly skutečně analyzovány s kódováním Windows-1252.[5]
Historicky byla fráze „ANSI Code Page“ používána ve Windows k označení kódování jiných než DOS; záměr byl, že většina z nich bude ANSI standardy jako ISO-8859-1. Přestože Windows-1252 byla první a zdaleka nejpopulárnější kódovou stránkou pojmenovanou tak v jazyce Microsoft Windows, kódová stránka nikdy nebyla standardem ANSI. Microsoft vysvětluje: „Termín ANSI používaný k označení kódových stránek systému Windows je historickým odkazem, ale v dnešní době je nesprávným pojmenováním, které v komunitě Windows nadále přetrvává.“[6]
v Latex balíčků, CP-1252 se označuje jako „ansinew“.
IBM používá kódovou stránku 1252 (CCSID 1252 a znak eura rozšířený CCSID 5348) pro Windows-1252.[7][8][9]
Znaková sada
Následující tabulka ukazuje Windows-1252. Každá postava je zobrazena s Unicode ekvivalent založený na mapování systému Windows-1252 Unicode.org s „nejlepším přizpůsobením“. Desetinná čísla (stylizovaná 0123) jsou Alternativní kód které lze použít k jejich psaní v systémech Windows. Rozdíly od ISO-8859-1 jsou zobrazeny s tmavším stínováním nad jejich barvami legendy.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | NUL 0000 0 | SOH 0001 01 | STX 0002 02 | ETX 0003 03 | EOT 0004 04 | ENQ 0005 05 | ACK 0006 06 | BEL 0007 07 | BS 0008 08 | HT 0009 09 | LF 000A 010 | VT 000B 011 | FF 000C 012 | ČR 000D 013 | TAK 000E 014 | SI 000F 015 |
1_ 16 | DLE 0010 016 | DC1 0011 017 | DC2 0012 018 | DC3 0013 019 | DC4 0014 020 | NAK 0015 021 | SYN 0016 022 | ETB 0017 023 | UMĚT 0018 024 | EM 0019 025 | SUB 001A 026 | ESC 001B 027 | FS 001C 028 | GS 001D 029 | RS 001E 030 | NÁS 001F 031 |
2_ 32 | SP 0020 32 | ! 0021 33 | " 0022 34 | # 0023 35 | $ 0024 36 | % 0025 37 | & 0026 38 | ' 0027 39 | ( 0028 40 | ) 0029 41 | * 002A 42 | + 002B 43 | , 002C 44 | - 002D 45 | . 002E 46 | / 002F 47 |
3_ 48 | 0 0030 48 | 1 0031 49 | 2 0032 50 | 3 0033 51 | 4 0034 52 | 5 0035 53 | 6 0036 54 | 7 0037 55 | 8 0038 56 | 9 0039 57 | : 003A 58 | ; 003B 59 | < 003C 60 | = 003D 61 | > 003E 62 | ? 003F 63 |
4_ 64 | @ 0040 64 | A 0041 65 | B 0042 66 | C 0043 67 | D 0044 68 | E 0045 69 | F 0046 70 | G 0047 71 | H 0048 72 | Já 0049 73 | J 004A 74 | K. 004B 75 | L 004C 76 | M 004D 77 | N 004E 78 | Ó 004F 79 |
5_ 80 | P 0050 80 | Q 0051 81 | R 0052 82 | S 0053 83 | T 0054 84 | U 0055 85 | PROTI 0056 86 | Ž 0057 87 | X 0058 88 | Y 0059 89 | Z 005A 90 | [ 005B 91 | \ 005C 92 | ] 005D 93 | ^ 005E 94 | _ 005F 95 |
6_ 96 | ` 0060 96 | A 0061 97 | b 0062 98 | C 0063 99 | d 0064 100 | E 0065 101 | F 0066 102 | G 0067 103 | h 0068 104 | i 0069 105 | j 006A 106 | k 006B 107 | l 006C 108 | m 006D 109 | n 006E 110 | Ó 006F 111 |
7_ 112 | p 0070 112 | q 0071 113 | r 0072 114 | s 0073 115 | t 0074 116 | u 0075 117 | proti 0076 118 | w 0077 119 | X 0078 120 | y 0079 121 | z 007A 122 | { 007B 123 | | 007C 124 | } 007D 125 | ~ 007E 126 | DEL 007F 0127 |
8_ 128 | € 20AC 0128 | ‚ 201A 0130 | ƒ 0192 0131 | „ 201E 0132 | … 2026 0133 | † 2020 0134 | ‡ 2021 0135 | ˆ 02C6 0136 | ‰ 2030 0137 | Š 0160 0138 | ‹ 2039 0139 | Œ 0152 0140 | Ž 017D 0142 | |||
9_ 144 | ‘ 2018 0145 | ’ 2019 0146 | “ 201C 0147 | ” 201D 0148 | • 2022 0149 | – 2013 0150 | — 2014 0151 | ˜ 02DC 0152 | ™ 2122 0153 | š 0161 0154 | › 203A 0155 | - 0153 0156 | ž 017E 0158 | Ÿ 0178 0159 | ||
A_ 160 | NBSP 00A0 0160 | ¡ 00A1 0161 | ¢ 00A2 0162 | £ 00A3 0163 | ¤ 00A4 0164 | ¥ 00A5 0165 | ¦ 00A6 0166 | § 00A7 0167 | ¨ 00A8 0168 | © 00A9 0169 | ª 00AA 0170 | « 00AB 0171 | ¬ 00AC 0172 | PLACHÝ 00AD 0173 | ® 00AE 0174 | ¯ 00AF 0175 |
B_ 176 | ° 00B0 0176 | ± 00B1 0177 | ² 00B2 0178 | ³ 00B3 0179 | ´ 00B4 0180 | µ 00B5 0181 | ¶ 00B6 0182 | · 00B7 0183 | ¸ 00B8 0184 | ¹ 00B9 0185 | º 00BA 0186 | » 00BB 0187 | ¼ 00BC 0188 | ½ 00BD 0189 | ¾ 00BE 0190 | ¿ 00BF 0191 |
C_ 192 | A 00C0 0192 | A 00C1 0193 | A 00C2 0194 | A 00C3 0195 | A 00C4 0196 | A 00C5 0197 | Æ 00C6 0198 | C 00C7 0199 | E 00C8 0200 | E 00C9 0201 | E 00CA 0202 | E 00CB 0203 | Ì 00CC 0204 | Í 00CD 0205 | Î 00CE 0206 | Ï 00CF 0207 |
D_ 208 | Ð 00D0 0208 | Ñ 00D1 0209 | Ó 00D2 0210 | Ó 00D3 0211 | Ó 00D4 0212 | Ó 00D5 0213 | Ó 00D6 0214 | × 00D7 0215 | Ó 00D8 0216 | Ù 00D9 0217 | Ú 00DA 0218 | Û 00 dB 0219 | " 00DC 0220 | “ 00DD 0221 | Þ 00DE 0222 | ß 00DF 0223 |
E_ 224 | A 00E0 0224 | A 00E1 0225 | A 00E2 0226 | A 00E3 0227 | A 00E4 0228 | A 00E5 0229 | … 00E6 0230 | C 00E7 0231 | E 00E8 0232 | E 00E9 0233 | E 00EA 0234 | E 00EB 0235 | ì 00 ES 0236 | í 00ED 0237 | „ 00EE 0238 | ï 00EF 0239 |
F_ 240 | ð 00F0 0240 | - 00F1 0241 | Ó 00F2 0242 | Ó 00F3 0243 | Ó 00F4 0244 | Ó 00F5 0245 | Ó 00F6 0246 | ÷ 00F7 0247 | Ó 00F8 0248 | ù 00F9 0249 | ú 00FA 0250 | û 00FB 0251 | ü 00FC 0252 | ý 00FD 0253 | þ 00FE 0254 | ÿ 00FF 0255 |
Dopis Číslo Interpunkce Symbol jiný Nedefinováno
Podle informací na webových stránkách Microsoftu a Unicode Consortium jsou pozice 81, 8D, 8F, 90 a 9D nevyužité; však Windows API MultiByteToWideChar
mapuje je na odpovídající Řídicí kódy C1. Toto chování dokumentuje také „nejvhodnější“ mapování.[10]
Dějiny
- První verze kódové stránky 1252 použitá v systému Microsoft Windows 1.0 neměla definované pozice D7 a F7. Všechny znaky v rozmezí 80–9F byly také nedefinovány.
- Druhá verze používaná v systému Microsoft Windows 2.0 byla definována na pozicích D7, F7, 91 a 92.
- Třetí verze, používaná od Microsoft Windows 3.1, měla definované všechny dnešní pozice, kromě znak eura a Z s háčkem dvojice znaků.
- Finální verze uvedená výše debutovala v systému Microsoft Windows 98 a byla přenesena do starších verzí systému Windows s aktualizací symbolu eura.
OS / 2 rozšíření
The OS / 2 operační systém podporuje kódování podle názvu Kódová stránka 1004 (CCSID 1004) nebo „Windows Extended“.[15][16] To se většinou shoduje s kódovou stránkou 1252, s výjimkou určitých Řídicí znaky C0 nahrazuje diakritika postavy. Rozdíly od ISO-8859-1 jsou zobrazeny s tmavším stínováním nad jejich barvami legendy.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | NUL 0000 | SOH 0001 | STX 0002 | ETX 0003 | ˉ 02C9 | ˘ 02D8 | ˙ 02D9 | BEL 0007 | ˚ 02DA | HT 0009 | ˝ 02DD | ˛ 02DB | ˇ 02C7 | ČR 000D | TAK 000E | SI 000F |
Rozšíření MSDOS [vzácné]
Existuje zřídka používaná, ale užitečná grafická rozšířená kódová stránka 1252, kde kódy 0x00 až 0x1f umožňují kreslení polí, jak se používají v aplikacích, jako je MSDOS Edit a Codeview. Jednou z aplikací, které tuto kódovou stránku používaly, byl nástroj pro bitovou kopii disku Intel Corporation Install / Recovery z poloviny / konce roku 1995. Tyto programy byly napsány pro jeho stroje P6 User Test Program (příklad z USA)[21]). Používal se výhradně ve svém tehdejším regionu EMEA (Evropa, Střední východ a Afrika). V době, kdy byly programy změněny, aby používaly kódovou stránku 850.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | ○ 25CB | ■ 25A0 | ↑ 2191 | ↓ 2193 | → 2192 | ← 2190 | ║ 2551 | ═ 2550 | ╔ 2554 | ╗ 2557 | ╚ 255A | ╝ 255D | ░ 2591 | ▒ 2592 | ► 25BA | ◄ 25C4 |
1_ 16 | │ 2502 | ─ 2500 | ┌ 250 ° C | ┐ 2510 | └ 2514 | ┘ 2518 | ├ 251C | ┤ 2524 | ┴ 2534 | ┬ 252C | ♦ 2666 | ┼ 253C | █ 2588 | ▄ 2584 | ▀ 2580 | ▬ 25AC |
Viz také
Reference
- ^ Sady znaků, Autorita pro internetová přidělená čísla (IANA), 12. 12. 2018
- ^ A b „Historické trendy v používání kódování znaků, červenec 2020“. Citováno 2020-07-23.
- ^ "Často kladené otázky".
- ^ „Průzkum využití kódování znaků v členění podle hodnocení“. w3techs.com. Citováno 2020-10-01.
- ^ A b "Kódování". WHATWG. 27. ledna 2015. sek. 5.2 Jména a štítky. Archivováno z původního dne 4. února 2015. Citováno 4. února 2015.
- ^ Wissink, Cathy (5. dubna 2002). „Unicode a Windows XP“ (PDF). Microsoft. str. 1. Archivováno (PDF) z původního dne 4. února 2015. Citováno 4. února 2015.
- ^ "Informační stránka kódové stránky 1252". Archivovány od originál dne 03.03.2016.
- ^ „Informační dokument CCSID 1252“. Archivovány od originál dne 26.03.2016.
- ^ „Informační dokument CCSID 5348“. Archivovány od originál dne 2014-11-29.
- ^ A b "Mapování Unicode Windows-1252 s 'Best Fit'". Unicode. Archivováno z původního dne 4. února 2015. Citováno 4. února 2015.
- ^ Kódová stránka CPGID 01252 (pdf) (PDF), IBM
- ^ Kódová stránka CPGID 01252 (txt), IBM
- ^ International Components for Unicode (ICU), ibm-1252_P100-2000.ucm, 2002-12-03
- ^ International Components for Unicode (ICU), ibm-5348_P100-1997.ucm, 2002-12-03
- ^ "Informační stránka se znakovou stránkou 1004". Archivovány od originál dne 2015-06-25.
- ^ „Informační dokument CCSID 1004“. Archivovány od originál dne 26.03.2016.
- ^ „Kódová stránka 01004“ (PDF). IBM. Archivovány od originál (PDF) dne 8. 7. 2015. (verze založená na verzi Windows 3.1 Windows-1252)
- ^ Kódová stránka CPGID 01004 (pdf) (PDF), IBM
- ^ Kódová stránka CPGID 01004 (txt), IBM
- ^ Borgendale, Ken (2001). „Codepage 1004 - Windows Extended“. OS / 2 kódové stránky podle čísla. Archivováno od originálu na 2018-05-13. Citováno 2018-05-13. (verze založená na aktuální verzi Windows-1252)
- ^ „Výkon řešení NASA Equation Solvers v aplikacích výpočetní mechaniky“ (PDF). NASA.
externí odkazy
- Microsoft kódové tabulky pro Windows-1252 ("Kódová stránka 1252 Windows Latin 1 (ANSI)")
- Tabulka mapování Unicode a definice kódové stránky s nejlépe vyhovujícím mapováním pro Windows-1252