MARC-8 - MARC-8
The MARC-8 charset je a Standard MARC použito v MARC-21 knihovní záznamy.[1] Formáty MARC jsou standardy pro reprezentaci a komunikaci bibliografických a souvisejících informací ve strojově čitelné formě a často se používají v knihovní databázové systémy. The Kódování znaků nyní známý jako MARC-8 byl představen v roce 1968 jako součást formátu MARC. Původně založený na latinka, od 1979 do 1983 JACKPHY Iniciativa rozšířila repertoár o japonské, arabské, čínské a hebrejské znaky (mimo jiné) s pozdějším přidáním cyrilice a řeckých skriptů. Pokud znak není reprezentovatelný v MARC-8 záznamu MARC-21, pak UTF-8 místo toho musí být použito. UTF-8 má podporu pro mnohem více znaků než MARC-8, který se zřídka používá mimo data knihovny.
Technické údaje
MARC-8 používá variantu ISO-2022 kódování. Používá únikové znaky k reprezentaci znaků přesahujících 7 bitů ASCII rozsah znaků.
Obvykle používá stejnou logiku BiDi objednávat jako Unicode.
Kombinující znaky a základní znaky jsou v jiném pořadí, než jaké jsou použity v Unicode. Následuje několik příkladů. Kombinované znaky nejsou vždy uloženy v opačném pořadí jako Normalizace Unicode. Standard MARC-21 popisuje problémy převodu Unicode MARC-8 podrobněji.
Zobrazeno Charakter | Unicode | MARC-8 |
---|---|---|
A | a ́ | ́ a |
A | a ̣ ̂ | ̂ ̣ a |
Struktura kódu
The ISO / IEC 2022 coding určuje dvouvrstvé mapování mezi kódy znaků a zobrazenými znaky. V MARC-8 se znakové kódy ze 7bitového grafického rozsahu ASCII (0x20–0x7F) označují jako kódy „G0“, zatímco kódy z rozsahu „vysokého ASCII“ (0xA0–0xFF) se označují jako „G1“ "kódy. Sady grafických znaků jsou určeny a vyvolány pomocí vícebajtové únikové sekvence skládající se z únikové postavy, mezilehlé znakové sekvence a konečného znaku ve tvaru ESC Já F.
Následující tabulka ukazuje mezibajt za bajtem ESC (hexadecimální 1B) a odpovídající znaky ASCII.
Sada G0 | Sada G1 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
Normální ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
Alternativní ISO-2022 (dalších 63 + 16 sad) | 2C | , | 24 2C | $, | 2D | - | 24 2D | $- |
Následující tabulka ukazuje konečné bajty v šestnáctkové soustavě a odpovídající znaky ASCII po mezilehlých bajtech.
Bajty | Postavy | název | Typ | Komentář |
---|---|---|---|---|
31 | 1 | Čínština, japonština, korejština (EACC ) | MBCS | |
32 | 2 | Základní hebrejština | SBCS | |
33 | 3 | Základní arabština | SBCS | |
34 | 4 | Rozšířená arabština | SBCS | |
42 | B | Základní latinka (ASCII ) | SBCS | |
21 45 | !E | Rozšířená latinka (ANSEL ) | SBCS | 21 (hex) je technicky druhý bajt mezilehlého segmentu této únikové sekvence. |
4E | N | Základní cyrilice | SBCS | |
51 | Q | Rozšířená cyrilice | SBCS | |
53 | S | Základní řečtina | SBCS |
EACC je jediné vícebajtové kódování MARC-8, kóduje každý CJK znak ve třech bajtech ASCII.
Například pro kódování znaku U + 4EBA CJK (人) budete potřebovat následující bajty
x1B x24 x31 x21 x30 x64
X1B x24 x31 se přepne na EACC / CJK a x21 x30 x64 odpovídá U + 4EBA.
Prodloužení vlastní sady
Kromě znakových sad ISO-2022 jsou k dispozici také následující vlastní sady. Označení bajtu následuje za únikovým bajtem (šestnáctkově 1B). Neexistuje žádný mezibajt.
Bajty | Postavy | název | Typ | Komentář |
---|---|---|---|---|
62 | b | Sada dolního indexu | SBCS | |
67 | G | Sada řeckých symbolů | SBCS | Znaky alfa, beta a gama normálně neokrouhlí mapu do Unicode. |
70 | p | Sada horního indexu | SBCS | |
73 | s | Základní latinka (ASCII ) | SBCS |
Reference
externí odkazy
- Specifikace MARC 21 pro strukturu záznamů, znakové sady a média pro výměnu - Oficiální standard MARC-8, jak jej udržuje Kongresová knihovna USA