Oblasti pro soukromé použití - Private Use Areas
v Unicode, a Oblast pro soukromé použití (PUA) je řada kódové body že, podle definice, nebudou přiřazeny znaky Konsorcium Unicode.[1] Jsou definovány tři soukromé oblasti: jedna v EU Základní vícejazyčné letadlo (U + E000
–U + F8FF
) a jeden každý dovnitř a téměř pokrývá, letadla 15 a 16 (U + F0000
–U + FFFFD
, U + 100 000
–U + 10FFFD
). Body kódu v těchto oblastech nelze v samotném Unicode považovat za standardizované znaky. Jsou záměrně ponechány nedefinované, aby třetí strany mohly definovat své vlastní znaky bez konfliktu s přiřazením konsorcia Unicode. Podle zásad stability Unicode[2] oblasti soukromého použití zůstanou pro tento účel přiděleny ve všech budoucích verzích Unicode.
Přiřazení k soukromému použití Znaky oblasti nemusí být „soukromé“ ve smyslu striktně interního pro organizaci; několik schémat přiřazení bylo publikováno několika organizacemi. Taková publikace může zahrnovat písmo, které podporuje definici (zobrazující glyfy), a software využívající znaky pro soukromé použití (např. Grafický znak pro funkci „tištěného dokumentu“). Podle definice může více soukromých osob přiřadit různé znaky stejnému bodu kódu, což má za následek, že uživatel může vidět jeden soukromý znak z nainstalovaného písma, pokud bylo zamýšleno jiné.
Definice
Podle definice Unicode jsou kódovým bodům v oblastech soukromého použití přiřazeny znaky - nejedná se o neznaky, vyhrazené nebo nepřiřazené. Jejich kategorie je "Jiné, soukromé použití (Co)
"a nejsou zadány žádné názvy znaků. Nejsou poskytovány žádné reprezentativní glyfy a sémantika znaků je ponechána na soukromou dohodu."
Znakům pro soukromé použití jsou přiřazeny body kódu Unicode, jejichž interpretace není tímto standardem specifikována a jejichž použití může být určeno soukromou dohodou mezi spolupracujícími uživateli. Tyto znaky jsou určeny pro soukromé použití a nemají definovanou interpretovatelnou sémantiku, s výjimkou soukromé dohody.
…
Pro znaky pro soukromé použití nejsou k dispozici žádné tabulky, protože jakékoli takové znaky jsou ze své podstaty definovány pouze mimo kontext tohoto standardu.[3]
Úkol
V základní vícejazyčné rovině (rovina 0) má blok s názvem Oblast pro soukromé použití 6400 kódových bodů. Letadla 15 a 16 jsou téměř[poznámka 1] zcela přiděleno dvěma dalším oblastem pro soukromé použití, doplňkové oblasti pro soukromé použití-A a doplňkové oblasti pro soukromé použití-B.
Za účelem kódování znaků z letadel 15 a 16 palců UTF-16, je přiřazen další blok BMP Vysoká náhrada pro soukromé použití (U + DB80..U + DBFF, 128 kódových bodů).
Unicode: Oblasti pro soukromé použití | ||||
---|---|---|---|---|
Definice podle vlastnosti znaku: Obecná kategorie = Co [A][b] | ||||
Rozsah | Letadlo | Název bloku | Počet kódových bodů | Poznámka |
U + E000..U + F8FF | BMP (0) | Oblast pro soukromé použití | 6,400 | |
U + F0000..U + FFFFD[C] | ŠTĚNĚ (15)[d] | Doplňková oblast pro soukromé použití-A | 65,534 | UTF-16 kóduje tyto znaky pomocí kódových bodů z bloku High Private Use Surrogates (U + DB80..U + DBFF) v BMP. |
U + 100 000..U + 10FFFD[C] | ŠTĚNĚ (16)[d] | Doplňková oblast pro soukromé použití-B | 65,534 | |
Poznámky
|
Používání
Využívá iniciativu standardizace
Mnoho lidí a institucí vytvořilo sbírky znaků pro PUA. Některé z těchto dohod o soukromém použití jsou publikovány, takže ostatní implementátoři PUA se mohou zaměřit na nepoužívané nebo méně používané body kódu, aby zabránili překrývání. Několik znaků a skriptů dříve zakódovaných v dohodách o soukromém použití bylo skutečně plně zakódováno v Unicode, což vyžaduje mapování z PUA na další body kódu Unicode.
Jedna z nejznámějších a široce prováděných dohod PUA je udržována Concode Unicode registr (CSUR). CSUR, který není oficiálně schválen ani spojen s konsorciem Unicode, poskytuje mapování vytvořených skriptů, například Klingonský pIqaD a Ferengský scénář (Star Trek), Tengwar a Narození (Kurzivní a runové skripty J.R.R.Tolkiena), Alexander Melville Bell Viditelná řeč a abeceda Dr. Seussa z On Beyond Zebra. CSUR předtím zakódoval undeciphered Phaistos znaky, stejně jako Shavian a Deseret abecedy, které byly všechny přijaty pro oficiální kódování v Unicode.
Další společná dohoda PUA je udržována Středověká iniciativa pro písma Unicode (MUFI). Tento projekt se pokouší podporovat všechny písařské zkratky, ligatury, předkomponované znaky, symboly a alternativní formy dopisů nalezený ve středověkých textech psaných latinkou. Výslovným účelem MUFI je experimentálně určit, které znaky jsou nezbytné k reprezentaci těchto textů, a nechat tyto znaky oficiálně zakódovat do Unicode. Od verze Unicode 5.1 bylo do oficiálního kódování Unicode začleněno 152 znaků MUFI.
Některé dohodnuté sbírky znaků PUA existují zčásti nebo celé, protože Unicode Consortium se s jejich kódováním nijak nespěchá. Některé, například nezastoupené jazyky, pravděpodobně v budoucnu skončí zakódované. Některé neobvyklé případy, jako jsou fiktivní jazyky, jsou mimo obvyklý rozsah Unicode, ale nejsou výslovně vyloučeny principy Unicode, a mohou se nakonec ukázat (například systémy psaní Star Trek a Tolkien). V jiných případech navrhované kódování porušuje jeden nebo více principů Unicode, a proto je nepravděpodobné, že by byly Unicode oficiálně uznány - většinou tam, kde uživatelé chtějí přímo kódovat alternativní formy, ligatury nebo kombinace bázových znaků a diakritických znamének (například Režim TUNE).
Vydavatelská organizace | Téma | Použitá plocha PUA | Písmo |
---|---|---|---|
CSUR | Umělé skripty | PUA (BMP) a letadlo 15 | Kód2000 |
MUFI | Středověké skripty | PUA (BMP) | několik |
SIL | Fonetika a jazyky | PUA (BMP) | Charis SIL |
TITUS | Starověké a středověké skripty | PUA (BMP) | TITUS Cyberbit Basic |
- Emodži je kódování obrázkových postav nebo emotikon používaných v japonských bezdrátových zprávách a webových stránkách. U Unicode 6.0 a novějších bylo mnoho z nich v bloku zakódováno Různé symboly a piktogramy a jinde v EU SMP.
- GB / T 20542-2006 („rozšíření znakové sady tibetských kódů A“) a GB / T 22238-2008 („rozšíření znakové sady tibetských kódů B“) jsou Čínské národní normy které používají PUA ke kódování předkomponovaných tibetštiny ligatury.
- GB 18030 a GBK použijte PUA k dočasnému kódování znaků, které se nenacházejí ve standardech Unicode.
- The Institut estonského jazyka používá PUA ke kódování předkomponovaných znaků latinky a azbuky[4] které nemají kódování Unicode.
- The Zdarma projekt písma Tengwar používá jiné mapování než Concode Unicode registr který do značné míry navazuje na diskusní dokument Tengwar Michaela Eversona z 3. 3. 2001, ale v některých detailech se rozchází.
- The Standard MARC 21 používá PUA ke kódování východoasijských znaků přítomných v MARC-8[5] které nemají kódování Unicode.
- The SIL Firemní PUA používá PUA ke kódování znaků používaných v menšinových jazycích, které dosud nebyly přijaty do Unicode.
- The Projekt STIX Fonts používá PUA k poskytnutí komplexní sady písem matematických symbolů a abeced, z nichž mnohé jsou nyní také dostupné v SMP, např. v Matematické alfanumerické symboly blok.
- Nové tamilské kódování Unicode (TUNE)[6] je navrhované schéma pro kódování Tamil který překonává vnímané nedostatky v aktuálním kódování Unicode.
Použití prodejce
Neformálně je rozsah U + F000 až U + F8FF známý jako oblast podnikového použití.
- The Seznam Adobe Glyph používal PUA pro některé ze svých glyfů.
- Jablko uvádí ve své dokumentaci pro vývojáře rozsah 1 280 znaků[7] U + F400 – U + F8FF v rámci PUA pro použití společností Apple. Z nich se pouze 311 používá v rozsahu U + F700 – U + F8FF (Další (Další krok a OPENSTEP ) a Jablko (Mac OS X AppKit)).[8]
- Jedním z nich je U + F8FF the Logo společnosti Apple obecně podporováno 8bitovými sadami společnosti Apple.
- WGL4 používá PUA (U + F001 a U + F002) ke kódování duplikátů ligatur fi (U + FB01) fl (U + FB02).[9]
- Microsoft zaniklé služby Pro systém Macintosh používá U + F001 až U + F029 jako náhradu za speciální znaky povolené v HFS ale zakázáno NTFS a U + F02A pro logo Apple.[10][11]
- Ve starých verzích komponenty RichEdit Microsoft mapoval U + F020 – U + F0FF v rámci PUA na symbolická písma. Pro jakýkoli znak v tomto rozsahu by RichEdit místo znaku definovaného koncovým uživatelem (EUDC) zobrazil znak ze symbolického písma.[12][13]
- AutoCAD[je zapotřebí objasnění ] používá U + F8FC – U + F8FE pro ⌀ (značka průměru), ± (znaménko plus-minus ) a ° (znak stupně).
- Některá písma jsou umístěna Klíč s logem Windows na
U + F000
. - Číslo
U + F000
je číselná posloupnost začínající na 13 nebo 18 v některých videohrách, jako je Agar.io. - Na Ubuntu,
U + E0FF
se zobrazuje jako logo „Kruh přátel“[14] aU + F200
je v ubuntu "ubuntu" Písmo Ubuntu s horním „Circle Of Friends“ (to samo o sobě jeU + F0FF
)[15]. - The 3270 písmo obsahuje Debian logo na
U + F100
- V Linux Libertine písmo,
U + E000
displeje Tux maskot Linux - The Písmo Awesome ikonové písmo využívá PUA k zobrazování různých glyfů.
- Powerline, doplněk stavového řádku pro vim, použijte U + E0A0 – U + E0A2 a U + E0B0 – U + E0B3 pro extra krabicové znaky.[16][17]
- Na Fira Sans písmo použité v Firefox OS,
U + E003
se zobrazí jako Mozilla logo (hlava dinosaura). - Vícebajtová znaková sada Lotus (LMBCS), kódování a znaková sada interně používané Lotus /IBM Lotus 1-2-3, Symfonie, SmartSuite, Poznámky, Domino stejně jako řada produktů třetích stran, jako je Microsoft Works, používá některé znaky (
U + F862
-U + F89F
aU + F8FB
-U + F8FE
) v oblasti pro soukromé použití pro symboly, které nejsou definovány v Unicode. Z nich,U + F8FB
je známo, že je vyhrazeno pro a měna koruny symbol („Kr“) aU + F8FC
aU + F8FD
byly později mapovány naU + FB02
(fl ) aU + FB01
(fi ). Kromě toho, když jsou v LMBCS vloženy kódy UTF-16, kódy UTF-16 odpovídajíU + F601
přesU + F6FF
jsou nahrazeny kódy UTF-16, které by obsahovaly nulové bajty, protože LMBCS je navržen tak, aby neobsahoval vložené nulové bajty.[18][19] - IBM si rezervovala několik ID kódové stránky pro stránky kódu PUA: Kódová stránka 1445 (IBM AFP PUA č. 1), kódová stránka 1446 (ISO 10646 UCS-PUP15 ), kódová stránka 1447 (ISO 10646 UCS-PUP16 ), kódová stránka 1449 (IBM výchozí PUA).
- Souborový systém nalezený v systému Windows používá
U + F000
naU + F0FF
blok uniknout speciální znaky.
Bloky PUA v Unicode
V Unicode jsou tři bloky PUA.[20]
Oblast pro soukromé použití | |
---|---|
Rozsah | U + E000..U + F8FF (6 400 kódových bodů) |
Letadlo | BMP |
Skripty | Neznámý |
Přiřazeno | 6400 kódových bodů |
Nepoužitý | 0 vyhrazených kódových bodů |
Historie verzí Unicode | |
1.0.0 | 5,632 (+5,632) |
1.0.1 | 6,400 (+768) |
Poznámka: Verze 1.0.1 přesunula a rozšířila blok Oblast pro soukromé použití (dříve umístěná na U + E800-U + FDFF ve verzi 1.0.0).[21][22][23] |
Doplňková oblast pro soukromé použití-A | |
---|---|
Rozsah | U + F0000..U + FFFFF (65 536 kódových bodů) |
Letadlo | SPUA-A |
Skripty | Neznámý |
Přiřazeno | 65 534 kódových bodů |
Nepoužitý | 0 vyhrazených kódových bodů 2 bez znaků |
Historie verzí Unicode | |
2.0 | 65,534 (+65,534) |
Poznámka: [22][23] |
Doplňková oblast pro soukromé použití-B | |
---|---|
Rozsah | U + 100 000..U + 10FFFF (65 536 kódových bodů) |
Letadlo | SPUA-B |
Skripty | Neznámý |
Přiřazeno | 65 534 kódových bodů |
Nepoužitý | 0 vyhrazených kódových bodů 2 bez znaků |
Historie verzí Unicode | |
2.0 | 65,534 (+65,534) |
Poznámka: [22][23] |
Znaky pro soukromé použití v jiných znakových sadách
Koncept vyhrazení konkrétních kódových bodů pro soukromé použití je založen na podobném dřívějším použití v jiných znakových sadách. Zejména mnoho jinak zastaralých znaků ve východoasijských skriptech se nadále používá v konkrétních jménech nebo v jiných situacích, a proto některé znakové sady pro tyto skripty umožňovaly použití soukromých znaků (například uživatelem definované roviny CNS 11643 nebo gaiji v některých japonských kódováních). Standard Unicode odkazuje na tato použití pod názvem „Definice znaků koncového uživatele“ (EUCD).[3]
Navíc Řídicí blok C1 obsahuje dva kódy určené pro soukromé použití "kontrolních funkcí" od ECMA-48: 0x91 soukromé použití (PU1) a 0x92 soukromé použití dva (PU2).[24][25] Unicode zahrnuje tyto na U + 0091 <control-0091> a U + 0092 <control-0092> ale definuje je jako kontrolní znaky (kategorie Cc
), nikoli znaky pro soukromé použití (kategorie Spol
).[22][26]
Kódování, která nemají oblasti pro soukromé použití, ale mají více či méně nevyužité oblasti, jako např ISO / IEC 8859 a Shift JIS, zaznamenali vývoj nekontrolovaných variant těchto kódování.[27] V případě Unicode mohou softwarové společnosti k požadovaným doplňkům používat oblasti soukromého použití.
Poznámky
Reference
- ^ Konsorcium Unicode. Glosář pojmů Unicode: „Oblast pro soukromé použití (PUA)“
- ^ „Zásady stability kódování znaků Unicode“. 2012-05-29. Citováno 2012-08-15.
- ^ A b Kapitola 16.5 standardu Unicode Znaky pro soukromé použití
- ^ "Databáze dopisů". Eki.ee. Citováno 2013-04-11.
- ^ „Znakové sady: Východoasijské znaky: Alternativní mapování Unicode pro znaky MARC 21 přiřazené k oblasti soukromého použití (PUA): Specifikace MARC 21 pro strukturu záznamů, znakové sady a média Exchange (Library of Congress)“. Loc.gov. 02.09.2004. Citováno 2013-04-11.
- ^ "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Archivovány od originál dne 29. 7. 2010. Citováno 2013-04-11.
- ^ „NSOpenStepUnicodeReservedBase - dokumentace pro vývojáře Apple“. Apple Inc.. Citováno 2020-10-16.
- ^ Apple Computer, Inc. (2005) [1994]. „CORPCHAR.TXT - registr (externí verze) používání znaků korporátní zóny Unicode společností Apple“. c03. Unicode Inc. Citováno 2020-10-16.
- ^ Vidět Rozsah Unicode WGL4 U + 2013 až U + FB02
- ^ „SFM převádí názvy souborů Macintosh HFS na NTFS Unicode“. Podpora společnosti Microsoft. 24. února 2014. Archivovány od originál 27. května 2016.
- ^ „ntfs.util.c“. 2008.
Neplatné znaky názvu souboru NTFS jsou kódovány [sic ] pomocí soukromého použití SFM (Služby pro Macintosh) znaky Unicode.
- ^ Microsoft Knowledge Base, Rozsah znaků mezi U + F020 a U + F0FF v oblasti soukromého použití Unicode je mapován na symbolická písma v Richedit 4.1.
- ^ „Zacházení se znaky PUA v softwaru Microsoft“. SIL International. 2003-04-25. Archivovány od originál dne 2015-05-11. Citováno 2014-03-04.
- ^ „Komentář č. 8: Chyba č. 651606 (okruh přátel): Chyby: Rodina písem Ubuntu“. panel. Citováno 2020-10-17.
- ^ „Komentář č. 2: Chyba č. 853855: Chyby: Rodina písem Ubuntu“. panel. Citováno 2020-10-17.
- ^ Dotaz na plugin stavového řádku Powerline na StackOverflow zmiňující znaky oblasti soukromého použití
- ^ Obrázky zobrazující znaky oblasti pro soukromé použití v opravených písmech Powerline
- ^ „lmb-excp.ucm“. 2000-02-10.
- ^ „Anhang 2. Der Lotus Multibyte Zeichensatz (LMBCS)“ [Dodatek 2. Lotus Multibyte Character Set (LMBCS)]. Lotus 1-2-3 verze 3.1 Referenzhandbuch [Referenční příručka k aplikaci Lotus 1-2-3 verze 3.1] (v němčině) (1. vyd.). Cambridge, MA, USA: Lotus Development Corporation. 1989. s. A2–1 - A2–13. 302168.
- ^ „Kapitola 16: Zvláštní oblasti a znaky formátu“ (PDF). Standard Unicode. Konsorcium Unicode.
- ^ „Dodatek Unicode 1.0.1“ (PDF). Standard Unicode. 1992-11-03. Citováno 2016-07-09.
- ^ A b C d "Databáze znaků Unicode". Standard Unicode. Citováno 2016-07-09.
- ^ A b C „Výčet verzí standardu Unicode“. Standard Unicode. Citováno 2016-07-09.
- ^ Standardní ECMA-48, páté vydání - červen 1991 §8.2.14 Různé ovládací funkce, §8.3.100, §8.3.101
- ^ Sada řídicích znaků C1 podle ISO 6429 (1983)
- ^ Unicode 6.1.0, kapitola 4, Tabulka 4-9
- ^ Mapa (externí verze) z japonského kódování systému Mac OS na Unicode 2.1 a novější.