UTF-1 - UTF-1
Jazyk (y) | Mezinárodní |
---|---|
Aktuální stav | Temný, hlavně historického významu. |
Klasifikace | Transformační formát Unicode, rozšířené ASCII, kódování s proměnnou šířkou |
Rozšiřuje | USA-ASCII |
Transformuje / kóduje | ISO 10646 (Unicode ) |
Uspěl | UTF-8 |
UTF-1 je metoda transformace ISO 10646 /Unicode do proudu bajtů. Jeho design neposkytuje vlastní synchronizace, což umožňuje hledat podřetězce a zotavení po chybě obtížné. Opakovaně používá tiskové znaky ASCII pro vícebajtové kódování, takže je pro některé použití nevhodné (například názvy souborů Unix nemohou obsahovat hodnotu bajtu použitou pro lomítko). UTF-1 je také pomalé kódování nebo dekódování kvůli jeho použití dělení a násobení číslem, které není mocninou 2. Kvůli těmto problémům nezískalo přijetí a bylo rychle nahrazeno UTF-8.
Design
Podobný UTF-8, UTF-1 je kódování s proměnnou šířkou který je zpětně kompatibilní s ASCII. Každý Unicode kódový bod je reprezentován buď jediným bajtem, nebo posloupností dvou, tří nebo pěti bytů. ASCII je podporován jednobajtovým kódováním, které na rozdíl od kódování UTF-8 obsahuje i jiné než ASCII kódové body U + 0080
přes U + 009F
.
UTF-1 nepoužívá Řídicí kódy C0 a C1 nebo znak mezery ve vícebajtovém kódování: bajt v rozsahu 0–0x 20 nebo 0x7F – 0x9F vždy znamená odpovídající kódový bod. Tento design s 66 chráněný postavy se snažily být ISO 2022 kompatibilní.
UTF-1 používá "modulo Aritmetika 190 "(256 - 66 = 190). Pro srovnání, UTF-8 chrání všech 128 ASCII znaků a potřebuje k tomu jeden bit a druhý bit, aby se synchronizoval automaticky, což má za následek aritmetiku" modulo 64 "(8 − 2 = 6; 26 = 64). BOCU-1 chrání pouze minimální sadu požadovanou pro MIM -compatibility (0x00, 0x07–0x0F, 0x1A – 0x1B a 0x20), což má za následek aritmetiku „modulo 243“ (256 - 13 = 243).
kódový bod | UTF-8 | UTF-1 |
---|---|---|
U + 007F | 7F | 7F |
U + 0080 | C2 80 | 80 |
U + 009F | C2 9F | 9F |
U + 00A0 | C2 A0 | A0 A0 |
U + 00BF | C2 BF | A0 BF |
U + 00C0 | C3 80 | A0 C0 |
U + 00FF | C3 BF | A0 FF |
U + 0100 | C4 80 | A1 21 |
U + 015D | C5 9D | A1 7E |
U + 015E | C5 9E | A1 A0 |
U + 01BD | C6 BD | A1 FF |
U + 01BE | C6 BE | A2 21 |
U + 07FF | DF BF | AA 72 |
U + 0800 | E0 A0 80 | AA 73 |
U + 0FFF | E0 BF BF | B5 48 |
U + 1000 | E1 80 80 | B5 49 |
U + 4015 | E4 80 95 | F5 FF |
U + 4016 | E4 80 96 | F6 21 21 |
U + D7FF | ED 9F BF | F7 2F C3 |
U + E000 | EE 80 80 | F7 3A 79 |
U + F8FF | EF A3 BF | F7 5C 3C |
U + FDD0 | EF B7 90 | F7 62 BA |
U + FDEF | EF B7 AF | F7 62 D9 |
U + FEFF | EF BB BF | F7 64 4C |
U + FFFD | EF BF BD | F7 65 AD |
U + FFFE | EF BF BE | F7 65 AE |
U + FFFF | EF BF BF | F7 65 AF |
U + 10 000 | F0 90 80 80 | F7 65 B0 |
U + 38E2D | F0 B8 B8 AD | FB FF FF |
U + 38E2E | F0 B8 B8 AE | FC 21 21 21 21 |
U + FFFFF | F3 BF BF BF | FC 21 37 B2 7A |
U + 100 000 | F4 80 80 80 | FC 21 37 B2 7B |
U + 10FFFF | F4 8F BF BF | FC 21 39 6E 6C |
U + 7FFFFFFF | FD BF BF BF BF BF | FD BD 2B B9 40 |
Ačkoli moderní Unicode končí na U + 10FFFF, oba UTF-1 a UTF-8 byly navrženy tak, aby kódovaly celých 31 bitů originálu Univerzální znaková sada (UCS-4 ) a poslední položka v této tabulce ukazuje tento původní koncový bod kódu.
Viz také
Reference
- „Standard Unicode: Dodatek F FSS-UTF“ (PDF) (PDF, 768 KiB). Verze 1.1. Unicode, Inc.
- ISO / IEC JTC 1 / SC2 / WG2 (1993-01-21). „ISO IR 178: UCS Transformation Format One (UTF-1)“ (PDF) (PDF, 256 KiB) (1. vyd.). Registrační číslo 178.
- Czyborra, Roman (30. 11. 1998). „Transformační formáty Unicode: UTF-8 & Co“. Archivováno z původního dne 2016-06-07. Citováno 2016-06-07.
- F. Yergeau, F. „UTF-8, transformační formát ISO 10646“.