Počítání řazení - Counting sort

Počítání řazení
TřídaAlgoritmus řazení
Datová strukturaPole
Nejhorší případ výkon, kde k je rozsah hodnot nezáporných klíčů.
Nejhorší případ složitost prostoru

v počítačová věda, počítání řazení je algoritmus pro třídění sbírka předmětů podle malých klíčů celá čísla; to znamená, že je celočíselné třídění algoritmus. Funguje tak, že spočítá počet objektů, které mají každou odlišnou hodnotu klíče, a pomocí aritmetiky na těchto počtech určí polohy každé hodnoty klíče ve výstupní sekvenci. Jeho doba běhu je lineární v počtu položek a rozdílu mezi maximální a minimální hodnotou klíče, takže je vhodná pouze pro přímé použití v situacích, kdy variace v klíčích není výrazně větší než počet položek. Často se však používá jako podprogram v jiném třídicím algoritmu, radix sort, který dokáže efektivněji zpracovat větší klíče.[1][2][3]

Protože počítání řazení používá klíčové hodnoty jako indexy do pole, není to porovnání řazení a Ω (n log n) dolní mez pro srovnávací třídění se na to nevztahuje.[1] Třídění kbelíku lze použít pro mnoho stejných úkolů jako počítání, s podobnou časovou analýzou; ve srovnání s počítáním třídění však třídění podle segmentů vyžaduje propojené seznamy, dynamická pole nebo velké množství předem přidělené paměti k uložení sad položek v každém kbelíku, zatímco počítání řazení místo toho ukládá jedno číslo (počet položek) na kbelík.[4]

Předpoklady vstupu a výstupu

V nejobecnějším případě se vstup do počítání druhu skládá z a sbírka z n položky, z nichž každá má nezáporný celočíselný klíč, jehož maximální hodnota je maximálně k.[3]V některých popisech počítání řazení se předpokládá, že vstup, který má být tříděn, je jednodušší posloupnost celých čísel,[1] ale toto zjednodušení neumožňuje mnoho aplikací počítání třídění. Například při použití jako podprogram v radix sort, klávesy pro každé volání počítání jsou jednotlivé číslice kláves větší položky; nestačilo by vrátit pouze seřazený seznam klíčových číslic oddělených od položek.

V aplikacích, jako je například radix sort, vázaná na maximální hodnotu klíče k budou známy předem a lze je považovat za součást vstupu do algoritmu. Pokud je však hodnota k není již známa, může být jako první krok vypočítána další smyčkou přes data, aby se určila maximální hodnota klíče, ke které ve skutečnosti dochází v datech.

Výstupem je pole položek v pořadí podle jejich klíčů. Z důvodu aplikace radix třídění je důležité počítat třídění jako stabilní řazení: pokud mají dvě položky stejný klíč jako ostatní, měly by mít stejnou relativní pozici na výstupu jako na vstupu.[1][2]

Algoritmus

V pseudokódu může být algoritmus vyjádřen jako:

počet = pole k + 1 nulpro X v vstup dělat    count [klíč (X)] += 1celkový = 0pro i v 0, 1, ... k dělat    počítat [i], celkový = celkový, počet[i] + celkovývýstup = pole stejné délky jako vstuppro X v vstup dělat    výstup[počet[klíč(X)]] = X    počet[klíč(X)] += 1 vrátit se výstup

Tady vstup je vstupní pole, které se má třídit, klíč vrací číselnou klávesu každé položky ve vstupním poli, počet je pomocné pole používané nejprve k uložení počtu položek s každým klíčem a poté (po druhé smyčce) k uložení pozic, kde by měly být položky s každým klíčem umístěny,k je maximální hodnota nezáporných hodnot klíče a výstup je seřazené výstupní pole.

Stručně řečeno, algoritmus prochází nad položkami v první smyčce, počítá a histogram kolikrát se každý klíč vyskytne v rámci kolekce vstupů. Poté provede a součet prefixů výpočet zapnut počet určit pro každý klíč rozsah pozic, kam by měly být umístěny předměty, které mají tento klíč; tj. klíčové položky by měly být umístěny od pozice počet[]. To se provádí prostřednictvím druhé smyčky. Nakonec se smyčky přes položky znovu ve třetí smyčce, pohybující se každou položku do své tříděné pozici ve výstupním poli.[1][2][3]Zde je zachováno relativní pořadí položek se stejnými klíči; tj. toto je stabilní řazení.

Analýza složitosti

Protože algoritmus používá pro smyčky pouze jednoduché, bez rekurze nebo volání podprogramu, je jednoduché jej analyzovat. Inicializace pole count a druhá smyčka for, která provádí součet předpon na poli count, každá iteruje nanejvýš k + 1 krát, a proto si vezměte Ó(k) čas. Další dvě pro smyčky a inicializace výstupního pole, každá trvá Ó(n) čas. Proto je čas pro celý algoritmus součtem časů pro tyto kroky, Ó(n + k).[1][2]

Protože používá pole délky k + 1 a n, je také celkové využití prostoru algoritmu Ó(n + k).[1] U problémových instancí, ve kterých je maximální hodnota klíče výrazně menší než počet položek, může být počítání řazení vysoce prostorově efektivní, protože jediným úložištěm, které používá kromě svých vstupních a výstupních polí, je pole Count, které využívá prostor Ó(k).[5]

Varianty algoritmů

Pokud je každá položka, která má být tříděna, celé číslo a používá se také jako klíč, lze kombinovat druhou a třetí smyčku počítání řazení; ve druhé smyčce, místo výpočtu polohy, kde jsou položky s klíčem i by měl být umístěn ve výstupu, jednoduše připojit Počet [i] kopie čísla i na výstup.

Tento algoritmus lze také použít k odstranění duplicitních klíčů nahrazením Počet pole s a bitový vektor který ukládá a jeden pro klíč, který je přítomen ve vstupu, a nula pro klíč, který není k dispozici. Pokud jsou navíc položkami samotné celočíselné klíče, lze druhou i třetí smyčku zcela vynechat a bitový vektor bude sám sloužit jako výstup, představující hodnoty jako posunutí ne-nula položky přidané k nejnižší hodnotě rozsahu. Klíče jsou tedy tříděny a duplikáty jsou v této variantě eliminovány pouhým umístěním do bitového pole.

U dat, ve kterých je maximální velikost klíče podstatně menší než počet datových položek, může být počet počítání paralelně rozdělením vstupu do podoblastí přibližně stejné velikosti, zpracováním každého podoblastí paralelně pro vygenerování samostatného pole počtu pro každou podoblast a následným sloučením polí počtu. Pokud se používá jako součást paralelního algoritmu třídění radixů, velikost klíče (základ reprezentace radixu) by měla být zvolena tak, aby odpovídala velikosti dělených dílčích polí.[6] Jednoduchost algoritmu počítání řazení a jeho použití snadno souběžného primitivního součtu předponového součtu ho také činí použitelným ve více jemných paralelních algoritmech.[7]

Jak bylo popsáno, počítání řazení není algoritmus na místě; i bez ohledu na početní pole potřebuje samostatná vstupní a výstupní pole. Je možné upravit algoritmus tak, aby umístil položky do seřazeného pořadí ve stejném poli, které mu bylo zadáno jako vstup, přičemž jako pomocné úložiště se použije pouze pole počtu; upravená místní verze počítání řazení však není stabilní.[3]

Dějiny

Ačkoli samotné třídění radixů se datuje mnohem déle, počítání třídění a jeho aplikace na třídění radixů byly vynalezeny Harold H. Seward v roce 1954.[1][4][8]

Reference

  1. ^ A b C d E F G h Cormen, Thomas H.; Leiserson, Charles E.; Rivest, Ronald L.; Stein, Clifford (2001), "8.2 Počítání řazení", Úvod do algoritmů (2. vyd.), MIT Stiskněte a McGraw-Hill, str. 168–170, ISBN  0-262-03293-7. Viz také historické poznámky na straně 181.
  2. ^ A b C d Edmonds, Jeff (2008), „5.2 Počítání řazení (stabilní řazení)“, Jak přemýšlet o algoritmech, Cambridge University Press, s. 72–75, ISBN  978-0-521-84931-9.
  3. ^ A b C d Sedgewick, Robert (2003), "6.10 Počítání podle klíčů", Algoritmy v Javě, části 1-4: Základy, datové struktury, třídění a vyhledávání (3. vyd.), Addison-Wesley, str. 312–314.
  4. ^ A b Knuth, D. E. (1998), Umění počítačového programování, Svazek 3: Třídění a vyhledávání (2. vyd.), Addison-Wesley, ISBN  0-201-89685-0. Sekce 5.2, Třídění podle počítání, str. 75–80 a historické poznámky, str. 170.
  5. ^ Burris, David S .; Schember, Kurt (1980), "Řazení sekvenčních souborů s omezeným pomocným úložištěm", Sborník z 18. ročníku Regionální konference o jihovýchodu, New York, NY, USA: ACM, s. 23–31, doi:10.1145/503838.503855, ISBN  0897910141.
  6. ^ Zagha, Marco; Blelloch, Guy E. (1991), „Radix sort for vector multiprocessors“, Proceedings of Supercomputing '91, 18. - 22. listopadu 1991, Albuquerque, NM, USA, IEEE Computer Society / ACM, str. 712–721, doi:10.1145/125826.126164, ISBN  0897914597.
  7. ^ Reif, John H. (1985), „Optimální paralelní algoritmus pro třídění celých čísel“, Proc. 26. výroční sympozium o základech informatiky (FOCS 1985), str. 496–504, doi:10.1109 / SFCS.1985.9, ISBN  0-8186-0644-4.
  8. ^ Seward, H. H. (1954), „2.4.6 Interní třídění podle plovoucího digitálního třídění“, Třídění informací při aplikaci elektronických digitálních počítačů na obchodní operace (PDF), Diplomová práce, zpráva R-232, Massachusetts Institute of Technology „Digital Computer Laboratory, s. 25–28.

externí odkazy