UTF-1 - UTF-1

UTF-1
Jazyk (y)Mezinárodní
Aktuální stavTemný, hlavně historického významu.
KlasifikaceTransformační formát Unicode, rozšířené ASCII, kódování s proměnnou šířkou
RozšiřujeUSA-ASCII
Transformuje / kódujeISO 10646 (Unicode )
UspělUTF-8

UTF-1 je metoda transformace ISO 10646 /Unicode do proudu bajtů. Jeho design neposkytuje vlastní synchronizace, což umožňuje hledat podřetězce a zotavení po chybě obtížné. Opakovaně používá tiskové znaky ASCII pro vícebajtové kódování, takže je pro některé použití nevhodné (například názvy souborů Unix nemohou obsahovat hodnotu bajtu použitou pro lomítko). UTF-1 je také pomalé kódování nebo dekódování kvůli jeho použití dělení a násobení číslem, které není mocninou 2. Kvůli těmto problémům nezískalo přijetí a bylo rychle nahrazeno UTF-8.

Design

Podobný UTF-8, UTF-1 je kódování s proměnnou šířkou který je zpětně kompatibilní s ASCII. Každý Unicode kódový bod je reprezentován buď jediným bajtem, nebo posloupností dvou, tří nebo pěti bytů. ASCII je podporován jednobajtovým kódováním, které na rozdíl od kódování UTF-8 obsahuje i jiné než ASCII kódové body U + 0080 přes U + 009F.

UTF-1 nepoužívá Řídicí kódy C0 a C1 nebo znak mezery ve vícebajtovém kódování: bajt v rozsahu 0–0x 20 nebo 0x7F – 0x9F vždy znamená odpovídající kódový bod. Tento design s 66 chráněný postavy se snažily být ISO 2022 kompatibilní.

UTF-1 používá "modulo Aritmetika 190 "(256 - 66 = 190). Pro srovnání, UTF-8 chrání všech 128 ASCII znaků a potřebuje k tomu jeden bit a druhý bit, aby se synchronizoval automaticky, což má za následek aritmetiku" modulo 64 "(8 − 2 = 6; 26 = 64). BOCU-1 chrání pouze minimální sadu požadovanou pro MIM -compatibility (0x00, 0x07–0x0F, 0x1A – 0x1B a 0x20), což má za následek aritmetiku „modulo 243“ (256 - 13 = 243).

kódový bodUTF-8UTF-1
U + 007F7F7F
U + 0080C2 8080
U + 009FC2 9F9F
U + 00A0C2 A0A0 A0
U + 00BFC2 BFA0 BF
U + 00C0C3 80A0 C0
U + 00FFC3 BFA0 FF
U + 0100C4 80A1 21
U + 015DC5 9DA1 7E
U + 015EC5 9EA1 A0
U + 01BDC6 BDA1 FF
U + 01BEC6 BEA2 21
U + 07FFDF BFAA 72
U + 0800E0 A0 80AA 73
U + 0FFFE0 BF BFB5 48
U + 1000E1 80 80B5 49
U + 4015E4 80 95F5 FF
U + 4016E4 80 96F6 21 21
U + D7FFED 9F BFF7 2F C3
U + E000EE 80 80F7 3A 79
U + F8FFEF A3 BFF7 5C 3C
U + FDD0EF B7 90F7 62 BA
U + FDEFEF B7 AFF7 62 D9
U + FEFFEF BB BFF7 64 4C
U + FFFDEF BF BDF7 65 AD
U + FFFEEF BF BEF7 65 AE
U + FFFFEF BF BFF7 65 AF
U + 10 000F0 90 80 80F7 65 B0
U + 38E2DF0 B8 B8 ADFB FF FF
U + 38E2EF0 B8 B8 AEFC 21 21 21 21
U + FFFFFF3 BF BF BFFC 21 37 B2 7A
U + 100 000F4 80 80 80FC 21 37 B2 7B
U + 10FFFFF4 8F BF BFFC 21 39 6E 6C
U + 7FFFFFFFFD BF BF BF BF BFFD BD 2B B9 40

Ačkoli moderní Unicode končí na U + 10FFFF, oba UTF-1 a UTF-8 byly navrženy tak, aby kódovaly celých 31 bitů originálu Univerzální znaková sada (UCS-4 ) a poslední položka v této tabulce ukazuje tento původní koncový bod kódu.

Viz také

Reference

  • „Standard Unicode: Dodatek F FSS-UTF“ (PDF) (PDF, 768 KiB). Verze 1.1. Unicode, Inc.
  • ISO / IEC JTC 1 / SC2 / WG2 (1993-01-21). „ISO IR 178: UCS Transformation Format One (UTF-1)“ (PDF) (PDF, 256 KiB) (1. vyd.). Registrační číslo 178.
  • Czyborra, Roman (30. 11. 1998). „Transformační formáty Unicode: UTF-8 & Co“. Archivováno z původního dne 2016-06-07. Citováno 2016-06-07.
  • F. Yergeau, F. „UTF-8, transformační formát ISO 10646“.