Základní latinka (blok Unicode) - Basic Latin (Unicode block)
Ovládací prvky C0 a Základní latinka | |
---|---|
Rozsah | U + 0000..U + 007F (128 kódových bodů) |
Letadlo | BMP |
Skripty | latinský (52 znaků) Běžný (76 znaků) |
Hlavní abecedy | Angličtina francouzština Němec španělština vietnamština |
Sady symbolů | Arabské číslice Interpunkce |
Přiřazeno | 128 kódových bodů 33 Ovládání nebo formátování |
Nepoužitý | 0 vyhrazených kódových bodů |
Zdrojové standardy | ISO / IEC 8859, ISO 646 |
Historie verzí Unicode | |
1.0.0 | 128 (+128) |
Poznámka: [1][2] |
The Základní latinka nebo Ovládací prvky C0 a základní latinka Blok Unicode je první blok Unicode standard a jediný blok, který je zakódován do jednoho bajtu v UTF-8. Blok obsahuje všechny písmena a kontrolní kódy kódování ASCII. Pohybuje se od U + 0000 do U + 007F, obsahuje 128 znaků a obsahuje Ovládací prvky C0, ASCII interpunkce a symboly, ASCII číslice, oba velká písmena a malá písmena z anglická abeceda a a kontrolní znak.
Blok Basic Latin byl do současné podoby zahrnut z verze 1.0.0 standardu Unicode, bez přidání nebo úpravy znakového repertoáru.[3] Název bloku v Unicode 1.0 byl ASCII.[4]
Tabulka znaků
- A Písmeno U + 005C () se může v japonských / korejských písmech mýlit s Unicode (zvláště pak znakem Yen (¥) nebo Won (₩)) (zejména UTF-8 ) jako starší znaková sada, která nahradila zpětné lomítko těmito znaky.[5]
Podnadpisy
Blok C0 Controls a Basic Latin obsahuje šest podnadpisů.[6]
Ovládací prvky C0
The C0 Ovládací prvky, označované jako C0 ASCII kontrolní kódy ve verzi 1.0, se dědí z ASCII a dalších 7bitových a 8bitových kódovacích schémat. Názvy aliasů pro ovládací prvky C0 jsou převzaty z ISO / IEC 6429: 1992 Standard.[6]
ASCII interpunkce a symboly
Tato podpoložka odkazuje na standardní interpunkční znaky, jednoduché matematické operátory a symboly jako znak dolaru, procenta, ampersand, podtržítko a roura.[6]
ASCII číslice
Podnadpis ASCII číslic obsahuje standardní evropské číselné znaky 1–9 a 0.[6]
Velká latinská abeceda
Podnadpis latinské abecedy Velká písmena obsahuje standardní 26písmennou latinku bez přízvuku v majuskula.[6]
Malá latinská abeceda
Podnadpis Malá latinská abeceda obsahuje standardní 26písmennou latinku bez přízvuku v nepatrný.[6]
Kontrolní znak
Podnadpis Řídicí znak obsahuje znak „Odstranit“.[6]
Počet symbolů, písmen a kontrolních kódů
V tabulce níže je uveden počet písmena, symboly a kontrolní kódy v každé z podnadpisů v bloku C0 Controls a Basic Latin.
Typ podpoložky | Počet symbolů | Rozsah znaků |
---|---|---|
Ovládací prvky C0 | 32 řídicích kódů | U + 0000 až U + 001F |
ASCII interpunkce a symboly | 33 interpunkčních znamének a symbolů | U + 0020 až U + 002F, U + 003A až U + 0040, U + 005B až U + 0060 a U + 007B až U + 007E |
ASCII číslice | 10 číslic | U + 0030 až U + 0039 |
Velká latinská abeceda | 26 latinských písmen bez přízvuku v majuskula. | U + 0041 až U + 005A |
Malá latinská abeceda | 26 nepatřičných latinských písmen v minuskule. | U + 0061 až U + 007A |
Kontrolní znak | 1 kontrolní kód obsahující znak „Odstranit“. | U + 007F |
Blok
Ovládací prvky C0 a základní latinka[1] Oficiální tabulka kódů konsorcia Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 000x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | ČR | TAK | SI |
U + 001x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | UMĚT | EM | SUB | ESC | FS | GS | RS | NÁS |
U + 002x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
U + 003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
U + 004x | @ | A | B | C | D | E | F | G | H | Já | J | K. | L | M | N | Ó |
U + 005x | P | Q | R | S | T | U | PROTI | Ž | X | Y | Z | [ | ] | ^ | _ | |
U + 006x | ` | A | b | C | d | E | F | G | h | i | j | k | l | m | n | Ó |
U + 007x | str | q | r | s | t | u | proti | w | X | y | z | { | | | } | ~ | DEL |
Poznámky
|
Varianty
Několik znaků je definováno jako vykreslení standardizovaná varianta pokud následují varianty ukazatelů.
Varianta je definována pro nulu s krátkým diagonálním zdvihem: U + 0030 DIGIT ZERO, U + FE00 VS1 (0︀).[7][8]
Za dvanácti znaky (#, * a číslice) může následovat U + FE0E VS15 nebo U + FE0F VS16 pro vytvoření emodži varianty.[9][10][11][12]Oni jsou klíčenka základní znaky, například # ️⃣ (U + 0023 ZNAMENÍ ČÍSLA U + FE0F VS16 U + 20E3 KOMBINACE PŘIHLÁŠENÍ KEYCAP). Verze VS15 je „textová prezentace“, zatímco verze VS16 je „ve stylu emoji“.[8]
U + | 0023 | 002A | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
základna | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
základna + VS15 + klíčenka | #︎⃣ | *︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
základna + VS16 + klíčenka | #️⃣ | *️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
Dějiny
Následující dokumenty související s Unicode zaznamenávají účel a proces definování konkrétních znaků v bloku Základní latinka:
Verze | Konečné body kódu[A] | Počet | UTC ID | L2 ID | WG2 ID | Dokument |
---|---|---|---|---|---|---|
1.0.0 | U + 0000..007F | 128 | (být odhodlán) | |||
UTC / 1999-013 | Karlsson, Kent (1999-05-27), Tildes a micro sign decompositions | |||||
L2 / 99-176R | Moore, Lisa (04.11.1999), „Mapování případů mikroskopů“, Zápis ze společného zasedání UTC / L2 v Seattlu, 8. – 10. Června 1999 | |||||
L2 / 04-145 | Starner, David (2004-04-30), C s příklady znaků tahu ze zprávy BAE 1884 (Dorsey) | |||||
L2 / 04-202 | Anderson, Deborah (06.06.2004), Slashed C Feedback | |||||
N3046 | Suignard, Michel (2006-02-22), Vylepšení formální definice řídicích znaků | |||||
N3103 (pdf, doc ) | Umamaheswaran, V. S. (2006-08-25), "M48.33", Nepotvrzené zápisy ze schůze WG 2 48, Mountain View, CA, USA; 2006-04-24 / 27 | |||||
L2 / 11-043 | Freytag, Asmus; Karlsson, Kent (02.02.2011), Návrh na opravu chyb a nesrovnalostí v určitých přiřazeních vlastností u super a indexovaných písmen | |||||
L2 / 11-160 | PRI # 181 Změna obecné kategorie dvanácti postav, 2011-05-02 | |||||
L2 / 11-261R2 | Moore, Lisa (2011-08-16), „Consensus 128-C3“, UTC # 128 / L2 # 225 minut, Přijměte doporučení Kena Whistlera v L2 / 11-281 týkající se aliasů jmen pro kontrolní znaky s přidáním zkratek BEL a NUL. | |||||
L2 / 11-438[b][C] | N4182 | Edberg, Peter (22.12.2011), Sekvence variací emodži (revize L2 / 11-429) | ||||
L2 / 15-107 | Moore, Lisa (2015-05-12), „Consensus 143-C5“, UTC # 143 minut, Přidejte 12 sekvencí klíčových kláves v emoji-data.txt jako provizorní pojmenované sekvence v Unicode 8.0. | |||||
L2 / 15-268 | Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30), Návrh reprezentace lomené nulové varianty prázdné sady | |||||
L2 / 15-301[d][C] | Pournader, Roozbeh (01.11.2015), Návrh 278 standardizovaných variačních sekvencí pro emodži | |||||
L2 / 15-254 | Moore, Lisa (2015-11-16), „B.12.1.2 Návrh na zastoupení sekané nulové varianty prázdné sady“, UTC # 145 minut | |||||
L2 / 17-294 | N4914 | Lunde, Ken (2017-08-14), Návrh na přidání standardizované variační sekvence pro U + FF10 FULLWIDTH DIGIT ZERO | ||||
|
Viz také
Reference
- ^ "Databáze znaků Unicode". Standard Unicode. Citováno 2016-07-09.
- ^ „Výčet verzí standardu Unicode“. Standard Unicode. Citováno 2016-07-09.
- ^ Standardní verze Unicode 1.0, svazek 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
- ^ „3.8: Grafy po blocích“ (PDF). Standard Unicode. verze 1.0. Konsorcium Unicode.
- ^ Řazení všeho: Kdy zpětné lomítko není zpětné lomítko?
- ^ A b C d E F G „Tabulky kódů Unicode 6.2“ (PDF). Standard Unicode. Citováno 1. dubna 2013.
- ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30). „L2 / 15-268: Návrh na reprezentaci lomené nulové varianty prázdné sady“ (PDF).
- ^ A b „Variační sekvence emodži UTS # 51“. Konsorcium Unicode.
- ^ Edberg, Peter (22.12.2011). „L2 / 11-438: Emoji Variation Sequences (revize L2 / 11-429)“ (PDF).
- ^ Pournader, Roozbeh (01.11.2015). „L2 / 15-301: Návrh 278 standardizovaných variačních sekvencí pro emodži“ (PDF).
- ^ „UTR # 51: Unicode Emoji“. Konsorcium Unicode. 2020-02-11.
- ^ „UCD: Emoji Data for UTR # 51“. Konsorcium Unicode. 2020-01-28.