Frekvence arabských písmen - Arabic letter frequency
![]() | tento článek potřebuje další citace pro ověření.Ledna 2018) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The frekvence písmen v textu byl často studován pro použití v dešifrování, a frekvenční analýza zejména.
Žádný jazyk nemá přesné rozdělení frekvence písmen, protože všichni autoři píší mírně odlišně. Zpravidla texty v různých jazycích pomocí Arabské písmo (např. arabština, Osmanská turečtina, Peršan a Urdu ) bude mít různou četnost písmen, nejzřejměji v případě písmen, která se používají pouze v některých jazycích (např. perská písmena پ, چ, گ, která se nepoužívají k psaní v arabštině).
Metody kódování nejčastějších písmen s nejkratšími symboly byly propagovány telegrafními kódy a používají se v moderních technikách komprese dat, jako jsou Huffmanovo kódování.
Co se započítá do vstupního arabského textu?
Arabská abeceda se skládá z 28 primárních písmen, jedná se o písmena 1 až 28 v tabulce 1. Osm upravených písmen uvedených na pozicích 29 až 36 ve stejné tabulce se používá stejně[je zapotřebí objasnění ]. Pokud je těchto 8 modifikovaných forem složeno do primárního seznamu na základě tvarové nebo fonetické podobnosti, pak je výsledek uveden v tabulce 2. Pro přesnou frekvenční analýzu bude každé z 36 písmen tabulky 1 počítáno samostatně.
Pořadí abecedy zobrazené v tabulkách je logičtější[Citace je zapotřebí ] než je používán Unicode Standard.





Ačkoli celá sada arabských znaků obsahuje přibližně deset diakritiky, jak je znázorněno na obrázku 1, frekvenční analýza arabských znaků se týká pouze výpočtu frekvence abecedních písmen uvedených v tabulce 2.
Zdroje s více než pěti miliony písmen
Následující slavné arabské zdroje se používají ke generování přijatelného množství dat, na nichž se provádí statistika frekvence.
- Prvních sedm svazků série البداية والنهاية (Počátek a konec)[1] z Ibn Kathir, s 2 855 stránkami, obsahujícími 1 096 047 slov, obsahujícími 4 326 031 písmen.
- Kniha الرحيق المختوم (Utěsněný nektar )[2] Almubarakfuri, s 284 stránkami, obsahujícími 134 662 slov, obsahujícími 553 740 písmen.
- Kniha تحفة العروسين (Mistrovské dílo nevěst)[3] Al-shuri, s 239 stránkami, obsahujícími 66 550 slov, obsahujícími 242 361 písmen.
Dohromady tyto zdroje obsahují až 3 378 stránek s 1 297 259 slovy a 5 122 132 písmen.
Následující grafy ukazují rozdělení frekvence písmen pro počítaná písmena; Obrázek 2 ukazuje data histogramu seřazená podle Unicode hodnota. Obrázek 3 ukazuje data histogramu seřazená podle frekvence.
Dopis | Relativní frekvence v arabském jazyce | |
---|---|---|
ء | 0.2% | |
ؤ | 0.05% | |
ئ | 0.18% | |
ا | 12.5% | |
آ | 0.1% | |
أ | 3% | |
إ | 1% | |
ب | 4.5% | |
ة | 3.2% | |
ت | 0.8% | |
ث | 1.1% | |
ج | 1.8% | |
ح | 0.8% | |
خ | 0.9% | |
د | 2.5% | |
ذ | 0.8% | |
ر | 4.1% | |
ز | 0.4% | |
س | 2.3% | |
ش | 0.7% | |
ص | 0.9% | |
ض | 0.4% | |
ط | 0.5% | |
ظ | 0.1% | |
ع | 3.9% | |
غ | 0.3% | |
ف | 2.7% | |
ق | 2.6% | |
ك | 1.9% | |
ل | 12% | |
م | 6.3% | |
ن | 6.4% | |
ه | 5% | |
و | 5.8% | |
ى | 1% | |
ي | 6.2% |
Reference
- ^ Ibn Kathir, Ismail (13 ??). Začátek a konec (v arabštině). Citováno 23. ledna 2011. Zkontrolujte hodnoty data v:
| rok =
(Pomoc) - ^ Almubarakfuri, Safiyyurrahman (2002). Utěsněný nektar (v arabštině). ISBN 978-1591440710. Citováno 24. ledna 2011.
- ^ Ash-shuri, Majdi (19 ??). Mistrovské dílo nevěsty (v arabštině). Citováno 24. ledna 2011. Zkontrolujte hodnoty data v:
| rok =
(Pomoc)