Lyndonské slovo - Lyndon word - Wikipedia
v matematika v oblastech kombinatorika a počítačová věda, a Slovo Lyndon je neprázdné tětiva to je přísně menší lexikografický řád než všechny jeho rotace. Lyndonská slova jsou pojmenována po matematikovi Roger Lyndon, který je vyšetřoval v roce 1954 a zavolal jim standardní lexikografické sekvence.[1] Anatoly Shirshov představil Lyndonova slova v roce 1953 a nazval je běžná slova.[2] Lyndonova slova jsou zvláštním případem Hall slova; téměř všechny vlastnosti lyndonských slov sdílí Hallova slova.
Definice
Existuje několik ekvivalentních definic.
A k- dlouhé lyndonské slovo délky n > 0 je n-charakter tětiva přes abeceda velikosti k, a který je jedinečným minimálním prvkem v lexikografické objednávání v multiset všech jeho rotací. Být mimořádně nejmenší rotací znamená, že lyndonské slovo se liší od kterékoli ze svých netriviálních rotací, a je tedy neperiodické.[3]
Alternativně slovo w je lyndonské slovo právě tehdy, pokud je neprázdné a lexikograficky přísně menší než kterákoli z jeho správných přípon, to znamená w < proti pro všechna neprázdná slova proti takhle w = uv a u je neprázdné.
Další charakteristika je následující: Lyndonské slovo má tu vlastnost, že je neprázdné a kdykoli je rozděleno na dva neprázdné podřetězce, levý podřetězec je vždy lexikograficky menší než pravý podřetězec. To je, pokud w je lyndonské slovo a w = uv je libovolná faktorizace na dva podřetězce, s u a proti chápáno jako neprázdné u < proti. Tato definice znamená, že řetězec w of length ≥ 2 is a Lyndon word if and only if there exist Lyndon words u a proti takhle u < proti a w = uv.[4] I když může existovat více než jedna možnost u a proti s touto vlastností existuje zvláštní volba, která se nazývá standardní faktorizace, ve kterém proti je co nejdéle.[5]
Výčet
Lyndonská slova nad binární abecedou se dvěma symboly {0,1}, seřazená podle délky a poté lexikograficky v každé třídě délky, tvoří nekonečnou sekvenci, která začíná
- 0, 1, 01, 001, 011, 0001, 0011, 0111, 00001, 00011, 00101, 00111, 01011, 01111, ...
První řetězec, který do této sekvence nepatří, „00“, je vynechán, protože je periodický (skládá se ze dvou opakování podřetězce „0“); druhý vynechaný řetězec „10“ je neperiodický, ale ve své třídě permutace není minimální, protože jej lze cyklicky permutovat na menší řetězec „01“.
Prázdný řetězec také splňuje definici lyndonského slova o délce nula. Počet binárních lyndonských slov každé délky, počínaje nulovou délkou, tvoří celočíselná sekvence
Lyndonská slova odpovídají neperiodickým náhrdelník zástupci tříd a lze s nimi tedy počítat Moreauova funkce počítání náhrdelníků.[3][6]
Generace
Duval (1988) poskytuje efektivní algoritmus za uvedení maximálně dlouhých lyndonských slov n s danou velikostí abecedy s v lexikografický řád. Li w je jedno ze slov v pořadí, poté další slovo za w lze najít pomocí následujících kroků:
- Opakujte symboly z w vytvořit nové slovo X přesně n, Kde ith symbol X je stejný jako symbol na pozici (i délka módu (w)) z w.
- Pokud je konečný symbol X je poslední symbol v seřazeném abecedním pořadí, odstraňte jej a vytvořte kratší slovo.
- Vyměňte poslední zbývající symbol X jeho nástupce v seřazeném pořadí abecedy.
Nejhorší doba pro generování nástupce slova w tímto postupem je O (nPokud jsou však generovaná slova uložena v pole délky na výstavba X z w se provádí přidáním symbolů na konec w spíše než vytvořením nové kopie souboru w, pak průměrná doba generování nástupce w (za předpokladu, že každé slovo je stejně pravděpodobné) je konstantní. Proto sekvence všech délkových slov Lyndonu n lze generovat v čase úměrném délce sekvence.[7] Konstantní zlomek slov v této sekvenci má přesnou délku n, takže stejný postup lze použít k efektivnímu generování slov délky přesně n nebo slova, jejichž délka se dělí nfiltrováním vygenerovaných slov, která těmto kritériím neodpovídají.
Standardní faktorizace
Podle Věta Chen – Fox – Lyndon, každý řetězec může být vytvořen jedinečným způsobem zřetězením sekvence lyndonských slov takovým způsobem, že slova v sekvenci se nezvyšují lexikograficky.[8] Konečné slovo Lyndon v této sekvenci je lexikograficky nejmenší přípona daného řetězce.[9] Faktorizaci do nezvyšující se sekvence lyndonských slov (tzv. Lyndonská faktorizace) lze postavit v lineární čas.[9] Lyndonovy faktorizace mohou být použity jako součást bijektivní varianty Burrows – Wheelerova transformace pro komprese dat,[10] a v algoritmech pro digitální geometrie.[11]
Takové faktorizace lze zapsat (jednoznačně) jako konečné binární stromy s listy označenými abecedou, přičemž každá pravá větev je dána posledním Lyndonovým slovem v pořadí.[12] Takovým stromům se někdy říká standardní držáky a lze jej brát jako faktorizaci prvků a volná skupina nebo jako základní prvky pro a zdarma Lie algebra. Tyto stromy jsou zvláštním případem Hall stromy (protože Lyndonova slova jsou zvláštním případem Hallových slov), a tak podobně Hallova slova poskytují standardní řád, který se nazývá proces sběru komutátoru pro skupiny a základ pro Lieovy algebry.[13][14][15]Ve skutečnosti poskytují výslovnou konstrukci pro komutátory, kteří se objevují v Poincaré – Birkhoff – Wittova věta potřebné pro stavbu univerzální obklopující algebry.
Každé slovo Lyndon lze chápat jako permutace, přípona standardní permutace.
Duvalův algoritmus
Duval (1983) vyvinul algoritmus pro nalezení standardní faktorizace, která běží v lineárním čase a konstantním prostoru. Iteruje přes řetězec a pokouší se najít co nejdelší lyndonské slovo. Když ji najde, přidá ji do seznamu výsledků a pokračuje v hledání zbývající části řetězce. Výsledný seznam řetězců je standardní faktorizace daného řetězce. Následuje formálnější popis algoritmu.
Daný řetězec S délky N, měli byste pokračovat v následujících krocích:
- Nechat m být indexem kandidáta na symbol, který má být připojen k již shromážděným symbolům. Zpočátku, m = 1 (indexy symbolů v řetězci začínají od nuly).
- Nechat k být indexem symbolu, s nímž bychom srovnávali ostatní. Zpočátku, k = 0.
- Zatímco k a m jsou menší než N, porovnat S [k] (dále jen k-tý symbol řetězce S) až S [m]. Existují tři možné výsledky:
- S [k] je rovný S [m]: připojit S [m] k aktuálním shromážděným symbolům. Přírůstek k a m.
- S [k] je méně než S [m]: pokud připojíme S [m] k aktuálním shromážděným symbolům dostaneme slovo Lyndon. Ale zatím jej nemůžeme přidat do seznamu výsledků, protože to může být jen část většího lyndonského slova. Tedy jen přírůstek m a nastavit k na 0, takže další symbol bude porovnán s prvním v řetězci.
- S [k] je větší než S [m]: pokud připojíme S [m] k aktuálním shromážděným symbolům to nebude ani lyndonské slovo, ani možný začátek jednoho. Přidejte tedy první m-k shromážděné symboly do seznamu výsledků, odstranit je z řetězce, nastavit m na 1 a k na 0, aby ukazovaly na druhý a první symbol řetězce.
- Když m> N, je to v podstatě to samé jako narazit na mínus nekonečno, tedy přidat první m-k shromážděné symboly do seznamu výsledků po jejich odstranění z řetězce, nastavit m na 1 a k na 0 a vrátit se k předchozímu kroku.
- Přidat S do seznamu výsledků.
Spojení s de Bruijn sekvencemi
Pokud jeden zřetězí společně, v lexikografickém pořadí, všechna lyndonská slova, která mají délku dělící dané číslo n, výsledkem je a de Bruijnova sekvence, kruhová posloupnost symbolů, takže každý možnýn posloupnost se objeví právě jednou jako jedna z jejích sousedících podsekvencí. Například zřetězení binárních Lyndonových slov, jejichž délka dělí čtyři, je
- 0 0001 0011 01 0111 1
Tato konstrukce spolu s účinným generováním lyndonských slov poskytuje efektivní metodu pro konstrukci konkrétní de Bruijn sekvence v lineární čas a logaritmický prostor.[16]
Další vlastnosti a aplikace
Lyndonská slova mají aplikaci na popis zdarma Lie algebry při vytváření základu pro homogenní část daného stupně; to byla Lyndonova původní motivace k zavedení těchto slov.[4] Lyndonská slova lze chápat jako zvláštní případ Hala sady.[4]
Pro nejlepší p, počet neredukovatelných monické polynomy stupně d přes pole je stejný jako počet lyndonských slov délky d v abecedě p symboly; mohou být umístěny do explicitní korespondence.[17]
Radfordova věta uvádí, že a náhodné algebry nad polem charakteristiky 0 lze zobrazit jako polynomiální algebru nad Lyndonovými slovy. Přesněji řečeno A být abeceda, ať k být polem charakteristiky 0 (nebo obecněji komutativní ℚ-algebra) a nechat R být zdarma nekomutativní k-algebra k ⟨ XA | A ∈ A ⟩. Slova skončila A pak lze identifikovat pomocí "nekomutativních monomiálů" (tj. produktů z XA) v R; jmenovitě identifikujeme slovo (A1,A2,...,An) s monomií XA1XA2...XAn. Slova tedy skončila A tvoří a k-vektorový vesmírný základ R. Pak zamíchat produkt je definováno na R; toto je k-bilineární, asociativní a komutativní produkt, který je označen ш a který na slovech lze rekurzivně definovat
- 1 ш proti = proti pro jakékoli slovo proti;
- u ш 1 = u pro jakékoli slovo u;
- ua ш vb = (u ш vb)A + (ua ш proti)b pro všechny A,b ∈ A a jakákoli slova u a proti.
The zamíchat algebru na abecedě A je definována jako skupina aditiv R obdařen ш jako násobení. Radfordova věta[18] nyní uvádí, že lyndonská slova jsou algebraicky nezávislé prvky této míchané algebry a generují ji; tedy algebra míchání je isomorfní s polynomiálním prstencem k, přičemž neurčité osoby odpovídají lyndonským slovům.[18]
Viz také
Poznámky
- ^ Lyndon (1954).
- ^ Shirshov (1953).
- ^ A b Berstel & Perrin (2007); Melançon (2001) .
- ^ A b C Melançon (2001) .
- ^ Berstel & Perrin (2007).
- ^ Ruskey (2003) poskytuje podrobnosti o těchto počtech slov Lyndon a několik souvisejících konceptů.
- ^ Berstel & Pocchiola (1994).
- ^ Melançon (2001) . Berstel & Perrin (2007) napište, že i když se to obvykle připisuje Chen, Fox & Lyndon (1958), a vyplývá z výsledků tohoto článku, bylo to výslovně uvedeno až Schützenberger (1965). Bylo to výslovně formulováno Shirshov (1958) viz Schützenberger & Sherman (1963).
- ^ A b Duval (1983).
- ^ Gil & Scott (2009); Kufleitner (2009).
- ^ Brlek a kol. (2009).
- ^ Amy Glen, “Kombinatorika lyndonských slov " (2012)
- ^ Guy Melançon, (1992) "Kombinatorika Hallových stromů a Hallových slov ", Journal of Combinatoric Theory, 59A(2), str. 285–308.
- ^ Guy Melançon a Christophe Reutenauer (1989), „Lyndonova slova, algebry a shuffle zdarma“, Kanadský žurnál matematiky. 41, Č. 4, str. 577-591.
- ^ Christophe Hohlweg a Christophe Reutenauer, “Lyndonská slova, obměny a stromy ", (2003) LaCIM
- ^ Podle Berstel & Perrin (2007), sekvence generovaná tímto způsobem byla poprvé popsána (jinou metodou generování) pomocí Martin (1934) a souvislost mezi ním a Lyndonovými slovy byla pozorována Fredricksen & Maiorana (1978).
- ^ Solomon W. Golomb (1969) „Neredukovatelné polynomy, synchronizační kódy, primitivní náhrdelníky a cyklotomická algebra“, Proc. Conf Combinatorial Mathematics and its Applications, str. 358--370 (University of North Carolina).
- ^ A b Radford (1979)
Reference
- Berstel, Jean; Perrin, Dominique (2007), „Počátky kombinatoriky slov“ (PDF), European Journal of Combinatorics, 28 (3): 996–1022, doi:10.1016 / j.ejc.2005.07.019, PAN 2300777.
- Berstel, J .; Pocchiola, M. (1994), „Průměrné náklady na Duvalův algoritmus pro generování Lyndonových slov“ (PDF), Teoretická informatika, 132 (1–2): 415–425, doi:10.1016/0304-3975(94)00013-1, PAN 1290554.
- Brlek, S .; Lachaud, J.-0; Provençal, X .; Reutenauer, C. (2009), „Lyndon + Christoffel = digitálně konvexní“ (PDF), Rozpoznávání vzorů, 42 (10): 2239–2246, doi:10.1016 / j.patcog.2008.11.010.
- Chen, K.-T .; Fox, R. H.; Lyndon, R. C. (1958), "Volný diferenciální počet. IV. Kvocientové skupiny dolní centrální řady", Annals of Mathematics, 2. ser., 68 (1): 81–95, doi:10.2307/1970044, JSTOR 1970044, PAN 0102539.
- Duval, Jean-Pierre (1983), „Faktorizace slov nad uspořádanou abecedou“, Journal of Algorithms, 4 (4): 363–381, doi:10.1016/0196-6774(83)90017-2.
- Duval, Jean-Pierre (1988), „Génération d'une Section des Classes Conjugaison et Arbre des Mots de Lyndon de Longueur Bornée“, Teoretická informatika (francouzsky), 60 (3): 255–283, doi:10.1016/0304-3975(88)90113-2, PAN 0979464.
- Fredricksen, Harold; Maiorana, James (1978), „Náhrdelníky z korálků v k barvy a k-ary de Bruijn sekvence ", Diskrétní matematika, 23 (3): 207–210, doi:10.1016 / 0012-365X (78) 90002-X, PAN 0523071.
- Gil, J .; Scott, D. A. (2009), Transformace třídění bijektivních řetězců (PDF).
- Kufleitner, Manfred (2009), "O bijektivních variantách Burrows-Wheelerova transformace ", Holub, Jan; Žďárek, Jan (eds.), Prague Stringology Conference, str. 65–69, arXiv:0908.0239, Bibcode:2009arXiv0908.0239K.
- Lothaire, M. (1983), Kombinatorika slov Encyklopedie matematiky a její aplikace, 17, Addison-Wesley Publishing Co., Reading, Massachusetts, ISBN 978-0-201-13516-9, PAN 0675953
- Lyndon, R. C. (1954), "On Burnside's problem", Transakce Americké matematické společnosti, 77 (2): 202–215, doi:10.2307/1990868, JSTOR 1990868, PAN 0064049.
- Martin, M. H. (1934), „Problém v uspořádání“, Bulletin of the American Mathematical Society, 40 (12): 859–864, doi:10.1090 / S0002-9904-1934-05988-3, PAN 1562989.
- Melançon, G. (2001) [1994], „Lyndonské slovo“, Encyclopedia of Mathematics, Stiskněte EMS
- Ruskey, Frank (2003), Informace o náhrdelnících, lyndonských slovech, sekvencích De Bruijna, archivovány z originál dne 2006-10-02.
- Schützenberger, M. P .; Sherman, S (1963), „O formálním produktu nad konjugovanými třídami ve volné skupině“, J. Math. Anální. Appl., 7 (3): 482–488, doi:10.1016 / 0022-247X (63) 90070-2, PAN 0158002.
- Schützenberger, M. P. (1965), „O faktorizaci volných monoidů“, Proceedings of the American Mathematical Society, 16 (1): 21–24, doi:10.2307/2033993, JSTOR 2033993, PAN 0170971.
- Shirshov, A. I. (1953), "Subalgebry algebry volné lži", Rohož. Sbornik N.S., 33 (75): 441–452, PAN 0059892
- Shirshov, A. I. (1958), "On free Lie rings", Rohož. Sbornik N.S., 45 (87): 113–122, PAN 0099356
- Radford, David E. (1979), „Přirozený prstencový základ pro náhodné algebry a aplikace na skupinová schémata“, Journal of Algebra, 58 (2): 432–454, doi:10.1016/0021-8693(79)90171-6.