Frekvence arabských písmen - Arabic letter frequency

The frekvence písmen v textu byl často studován pro použití v dešifrování, a frekvenční analýza zejména.

Žádný jazyk nemá přesné rozdělení frekvence písmen, protože všichni autoři píší mírně odlišně. Zpravidla texty v různých jazycích pomocí Arabské písmo (např. arabština, Osmanská turečtina, Peršan a Urdu ) bude mít různou četnost písmen, nejzřejměji v případě písmen, která se používají pouze v některých jazycích (např. perská písmena پ, چ, گ, která se nepoužívají k psaní v arabštině).

Metody kódování nejčastějších písmen s nejkratšími symboly byly propagovány telegrafními kódy a používají se v moderních technikách komprese dat, jako jsou Huffmanovo kódování.

Co se započítá do vstupního arabského textu?

Arabská abeceda se skládá z 28 primárních písmen, jedná se o písmena 1 až 28 v tabulce 1. Osm upravených písmen uvedených na pozicích 29 až 36 ve stejné tabulce se používá stejně[je zapotřebí objasnění ]. Pokud je těchto 8 modifikovaných forem složeno do primárního seznamu na základě tvarové nebo fonetické podobnosti, pak je výsledek uveden v tabulce 2. Pro přesnou frekvenční analýzu bude každé z 36 písmen tabulky 1 počítáno samostatně.

Pořadí abecedy zobrazené v tabulkách je logičtější[Citace je zapotřebí ] než je používán Unicode Standard.

Obrázek 1: Arabské znaky, které lze vytvořit pomocí Arabská dopisní klávesnice Intellark.
Tabulka 1: Arabská abeceda. Písmena 1 až 28 jsou primární písmena. Písmena 29 až 36 jsou upravená písmena.
Tabulka 2: Arabská abeceda s upravenými písmeny soustředěná do jejich primárních forem.
Distribuce frekvence písmen pro počítaná písmena: Histogramová data seřazená podle hodnoty Unicode
Distribuce frekvence písmen pro počítaná písmena: Histogramová data seřazená podle frekvence

Ačkoli celá sada arabských znaků obsahuje přibližně deset diakritiky, jak je znázorněno na obrázku 1, frekvenční analýza arabských znaků se týká pouze výpočtu frekvence abecedních písmen uvedených v tabulce 2.

Zdroje s více než pěti miliony písmen

Následující slavné arabské zdroje se používají ke generování přijatelného množství dat, na nichž se provádí statistika frekvence.

  • Prvních sedm svazků série البداية والنهاية (Počátek a konec)[1] z Ibn Kathir, s 2 855 stránkami, obsahujícími 1 096 047 slov, obsahujícími 4 326 031 písmen.
  • Kniha الرحيق المختوم (Utěsněný nektar )[2] Almubarakfuri, s 284 stránkami, obsahujícími 134 662 slov, obsahujícími 553 740 písmen.
  • Kniha تحفة العروسين (Mistrovské dílo nevěst)[3] Al-shuri, s 239 stránkami, obsahujícími 66 550 slov, obsahujícími 242 361 písmen.

Dohromady tyto zdroje obsahují až 3 378 stránek s 1 297 259 slovy a 5 122 132 písmen.

Následující grafy ukazují rozdělení frekvence písmen pro počítaná písmena; Obrázek 2 ukazuje data histogramu seřazená podle Unicode hodnota. Obrázek 3 ukazuje data histogramu seřazená podle frekvence.

DopisRelativní frekvence v arabském jazyce
ء0.2%0.2
 
ؤ0.05%0.05
 
ئ0.18%0.18
 
ا12.5%12.5
 
آ0.1%0.1
 
أ3%3
 
إ1%1
 
ب4.5%4.5
 
ة3.2%3.2
 
ت0.8%0.8
 
ث1.1%1.1
 
ج1.8%1.8
 
ح0.8%0.8
 
خ0.9%0.9
 
د2.5%2.5
 
ذ0.8%0.8
 
ر4.1%4.1
 
ز0.4%0.4
 
س2.3%2.3
 
ش0.7%0.7
 
ص0.9%0.9
 
ض0.4%0.4
 
ط0.5%0.5
 
ظ0.1%0.1
 
ع3.9%3.9
 
غ0.3%0.3
 
ف2.7%2.7
 
ق2.6%2.6
 
ك1.9%1.9
 
ل12%12
 
م6.3%6.3
 
ن6.4%6.4
 
ه5%5
 
و5.8%5.8
 
ى1%1
 
ي6.2%6.2
 

Reference

  1. ^ Ibn Kathir, Ismail (13 ??). Začátek a konec (v arabštině). Citováno 23. ledna 2011. Zkontrolujte hodnoty data v: | rok = (Pomoc)
  2. ^ Almubarakfuri, Safiyyurrahman (2002). Utěsněný nektar (v arabštině). ISBN  978-1591440710. Citováno 24. ledna 2011.
  3. ^ Ash-shuri, Majdi (19 ??). Mistrovské dílo nevěsty (v arabštině). Citováno 24. ledna 2011. Zkontrolujte hodnoty data v: | rok = (Pomoc)

externí odkazy