T-strom - T-tree
v počítačová věda A T-strom je typ binární stromdatová struktura který používá databáze hlavní paměti, jakoDatablitz, EXtremeDB, Cluster MySQL, Oracle TimesTen a MobileLite.
T-strom je a vyrovnaný datová struktura indexového stromu optimalizovaná pro případy, kdy jsou index i skutečná data plně uloženy v paměti, stejně jako a B-strom je indexová struktura optimalizovaná pro ukládání na blokována sekundárních úložných zařízeních, jako jsou pevné disky. T-stromy se snaží získat výkonnostní výhody stromových struktur v paměti, jako je AVL stromy a zároveň se vyhnout velkému úložnému prostoru, který je pro ně společný.
T-stromy neuchovávají kopie indexovaných datových polí v samotných uzlech indexového stromu. Místo toho využívají výhody skutečnosti, že skutečná data jsou vždy v hlavní paměti spolu s indexem, takže obsahují pouze ukazatele na skutečná datová pole.
Písmeno „T“ ve stromu T odkazuje na tvar datových struktur uzlů v původním dokumentu, který jako první popsal tento typ indexu.[1]
Uzlové struktury
Uzel stromu T se obvykle skládá z ukazatelů na nadřazený uzel, levého a pravého podřízeného uzlu, uspořádaného pole datových ukazatelů a některých dalších řídicích dat. Uzly se dvěma podstromy se nazývají vnitřní uzly, uzly bez podstromy se nazývají listové uzlya uzly pouze s jedním podstrom jsou pojmenovány pololist uzly. Uzel se nazývá ohraničující uzel pro hodnotu, pokud je hodnota mezi aktuální minimální a maximální hodnotou uzlu, včetně.
Pro každý vnitřní uzel existují listové nebo poloviční listové uzly, které obsahují předchůdce jeho nejmenší hodnoty dat (nazývané největší dolní mez) a ten, který obsahuje následníka jeho největší hodnoty dat (tzv nejmenší horní mez). Listové a poloviční listové uzly mohou obsahovat libovolný počet datových prvků od jednoho do maximální velikosti datového pole. Interní uzly udržují svoji obsazenost mezi předdefinovaným minimálním a maximálním počtem prvků
Algoritmy
Vyhledávání
- Hledání začíná v kořenovém uzlu
- Pokud je aktuální uzel ohraničujícím uzlem pro hledanou hodnotu, prohledejte jeho datové pole. Hledání se nezdaří, pokud hodnota není nalezena v datovém poli.
- Pokud je vyhledávací hodnota menší než minimální hodnota aktuálního uzlu, pokračujte v hledání v jeho levém podstromu. Hledání selže, pokud nezůstane podstrom.
- Pokud je vyhledaná hodnota větší než maximální hodnota aktuálního uzlu, pokračujte v hledání v jeho pravém podstromu. Hledání selže, pokud neexistuje správný podstrom.
Vložení
- Vyhledejte ohraničující uzel pro novou hodnotu. Pokud takový uzel existuje, pak
- zkontrolujte, zda je v jeho datovém poli stále prostor, pokud ano, vložte novou hodnotu a dokončete
- pokud není k dispozici žádný prostor, odeberte minimální hodnotu z datového pole uzlu a vložte novou hodnotu. Nyní pokračujte k uzlu, který drží největší dolní mez pro uzel, do kterého byla vložena nová hodnota. Pokud tam odstraněná minimální hodnota stále zapadá, přidejte ji jako novou maximální hodnotu uzlu, jinak vytvořte nový pravý poduzel pro tento uzel.
- Pokud nebyl nalezen žádný ohraničující uzel, vložte hodnotu do posledního hledaného uzlu, pokud do něj stále zapadá. V tomto případě se nová hodnota stane novou minimální nebo maximální hodnotou. Pokud se hodnota již nevejde, vytvořte nový podstrom vlevo nebo vpravo.
Pokud byl přidán nový uzel, bude pravděpodobně nutné znovu vyvážit strom, jak je popsáno níže.
Vymazání
- Vyhledejte ohraničující uzel hodnoty, která má být odstraněna. Pokud není nalezen žádný ohraničující uzel, dokončete.
- Pokud ohraničující uzel hodnotu neobsahuje, dokončete.
- odstranit hodnotu z datového pole uzlu
Nyní musíme rozlišovat podle typu uzlu:
- Interní uzel:
Pokud má datové pole uzlu nyní menší než minimální počet prvků, přesuňte největší dolní mezní hodnotu tohoto uzlu na jeho datovou hodnotu. Pokračujte jedním z následujících dvou kroků pro poloviční list nebo listový uzel, ze kterého byla hodnota odstraněna.
- Uzel listu:
Pokud to byl jediný prvek v datovém poli, odstraňte uzel. V případě potřeby vyvažte strom.
- Uzel poloviny listu:
Pokud lze datové pole uzlu sloučit s datovým polem jeho listu bez přetečení, proveďte to a odstraňte uzel listu. V případě potřeby vyvažte strom.
Rotace a vyvážení
T-strom je implementován nad podkladem samovyvažující binární vyhledávací strom Konkrétně článek Lehmana a Careyho popisuje strom T vyvážený jako an Strom AVL: Vyrovná se, když se podřízené stromy uzlu liší výškou nejméně o dvě úrovně. K tomu může dojít po vložení nebo odstranění uzlu. Po vložení nebo odstranění je strom naskenován z listu do kořene. je zjištěna nerovnováha rotace stromu nebo se provádí dvojice rotací, což zaručuje vyvážení celého stromu.
Když rotace vede k tomu, že interní uzel má méně než minimální počet položek, položky z nového podřízeného uzlu (ren) jsou přesunuty do interního uzlu.
Výkon a úložiště
Ačkoli T-stromy byly kdysi široce používány pro databáze hlavní paměti kvůli výhodám výkonu, nedávné trendy pro velmi velké databáze hlavní paměti kladly větší důraz na náklady na zajišťování. S moderními databázovými systémy NOSQL, které často ukládají biliony záznamů, náklady na paměť pro uložení i jediného indexu, který obsahuje skutečné hodnoty, mohou překročit desítky nebo dokonce stovky terabajtů.
Viz také
Jiné stromy
- B-strom (2-3 strom, 2-3-4 strom, B + strom, B * -strom, UB-strom )
- Tančící strom
- Fúzní strom
- k-d strom
- Octree
- Čtyřstrom
- R-strom
- Radix strom
- T-strom
- T-pyramida, speciální případ čtyřstromu
- Nejlepší strom
Reference
- ^ Lehman, Tobin J .; Carey, Michael J. (25. – 28. Srpna 1986). Studie indexových struktur pro systémy správy databáze hlavní paměti. Dvanáctá mezinárodní konference o velmi velkých databázích (VLDB 1986). Kjóto. ISBN 0-934613-18-4.