R-strom - R-tree

R-strom
Typstrom
Vynalezeno1984
VynalezlAntonin Guttman
Časová složitost v velká O notace
AlgoritmusPrůměrnýNejhorší případ
VyhledáváníÓ(logMn)
Jednoduchý příklad stromu R pro 2D obdélníky
Vizualizace stromu R * pro 3D body pomocí ELKI (kostky jsou adresářové stránky)

R. stromy jsou stromové datové struktury používá metody prostorového přístupu, tj. pro indexování vícerozměrných informací, jako jsou zeměpisné souřadnice, obdélníky nebo mnohoúhelníky. R-strom navrhl Antonin Guttman v roce 1984[1] a našel významné použití v teoretických i aplikovaných kontextech.[2] Běžným používáním R-stromu v reálném světě může být ukládání prostorových objektů, jako jsou umístění restaurací nebo polygony, ze kterých jsou vyrobeny typické mapy: ulice, budovy, obrysy jezer, pobřeží atd. A poté rychle najít odpovědi na dotazy například „Najít všechna muzea do 2 km od mé aktuální polohy“, „načíst všechny úseky silnic do 2 km od mé polohy“ (zobrazit je v navigační systém ) nebo „najít nejbližší čerpací stanici“ (i když nebereme v úvahu silnice). R-strom může také zrychlit hledání nejbližšího souseda[3] pro různé metriky vzdálenosti, včetně vzdálenost ve velkém kruhu.[4]

Nápad R-stromu

Klíčovou myšlenkou datové struktury je seskupit blízké objekty a představit je s jejich minimální ohraničující obdélník v nejbližší vyšší úrovni stromu; "R" ve stromu R je pro obdélník. Protože všechny objekty leží v tomto ohraničujícím obdélníku, dotaz, který neprotíná ohraničující obdélník, také nemůže protínat žádný z obsažených objektů. Na úrovni listu každý obdélník popisuje jeden objekt; na vyšších úrovních agregace rostoucího počtu objektů. Lze to také považovat za stále hrubší aproximaci souboru dat.

Podobně jako u B-strom, R-strom je také vyvážený vyhledávací strom (takže všechny uzly listů jsou ve stejné hloubce), organizuje data na stránkách a je určen pro ukládání na disk (jak se používá v databáze ). Každá stránka může obsahovat maximální počet položek, často označovaných jako . Zaručuje také minimální výplň (kromě kořenového uzlu), ale nejlepšího výkonu se dosáhlo s minimální výplní 30% - 40% maximálního počtu položek (B-stromy zaručují 50% výplň stránky a B * stromy dokonce 66%). Důvodem je složitější vyvažování vyžadované pro prostorová data na rozdíl od lineárních dat uložených v B-stromech.

Stejně jako u většiny stromů jsou vyhledávací algoritmy (např. průsečík, zadržení, hledání nejbližšího souseda ) jsou poměrně jednoduché. Klíčovou myšlenkou je použít ohraničovací rámečky k rozhodnutí, zda hledat v podstromu. Tímto způsobem se většina uzlů ve stromu během vyhledávání nikdy nečte. Stejně jako B-stromy, i R-stromy jsou vhodné pro velké datové soubory a databáze, kde lze v případě potřeby stránkovat do paměti uzly a celý strom nelze uchovat v hlavní paměti. I když lze data vejít do paměti (nebo uložit do mezipaměti), R-stromy ve většině praktických aplikací obvykle poskytnou výkonnostní výhody oproti naivní kontrole všech objektů, když je počet objektů více než několik set. U aplikací v paměti však existují podobné alternativy, které mohou poskytnout o něco lepší výkon nebo je snadnější implementovat v praxi.

Klíčovou obtížností R-stromu je vybudovat efektivní strom, který je na jedné straně vyvážený (takže uzly listů jsou ve stejné výšce), na druhé straně obdélníky nepokrývají příliš mnoho prázdného prostoru a příliš se nepřekrývají ( takže během vyhledávání je potřeba zpracovat méně podstromů). Například původní nápad pro vložení prvků k získání efektivního stromu je vždy vložit do podstromu, který vyžaduje nejmenší zvětšení jeho ohraničujícího rámečku. Jakmile je tato stránka plná, jsou data rozdělena do dvou sad, které by měly pokrýt každou minimální plochu. Většina výzkumu a vylepšení pro R-stromy má za cíl zlepšit způsob, jakým je strom postaven, a lze jej rozdělit do dvou cílů: vybudování efektivního stromu od nuly (známého jako hromadné načítání) a provádění změn na existujícím stromu (vkládání a vymazání).

R-stromy nezaručují dobré nejhorší výkon, ale obecně fungují dobře s reálnými daty.[5] Zatímco více teoretického zájmu, (hromadně naložený) Prioritní strom R varianta stromu R je nejhorší optimální,[6] ale kvůli zvýšené složitosti se mu dosud v praktických aplikacích příliš pozornosti nevěnovalo.

Když jsou data organizována v R-stromu, sousedé v dané vzdálenosti r a k nejbližší sousedé (pro všechny Lp-Norma ) všech bodů lze efektivně vypočítat pomocí prostorového spojení.[7][8] To je výhodné pro mnoho algoritmů založených na takových dotazech, například Místní odlehlý faktor. DeLi-Clu,[9] Density-Link-Clustering je a shluková analýza algoritmus, který používá strukturu R-stromu pro podobný druh prostorového spojení k efektivnímu výpočtu OPTIKA shlukování.

Varianty

Algoritmus

Rozložení dat

Data v R-stromech jsou organizována na stránkách, které mohou mít proměnlivý počet záznamů (až do určitého předdefinovaného maxima a obvykle nad minimální výplň). Každá položka v rámcilistový uzel ukládá dvě data: způsob identifikace a podřízený uzel a ohraničující rámeček všech položek v tomto podřízeném uzlu. Uzly listu ukládají data požadovaná pro každé dítě, často bod nebo ohraničující rámeček představující dítě a externí identifikátor pro dítě. U bodových dat mohou být listovými položkami pouze samotné body. U polygonových dat (která často vyžadují uložení velkých polygonů) je běžným nastavením ukládání pouze MBR (minimální ohraničující obdélník) polygonu spolu s jedinečným identifikátorem ve stromu.

Vyhledávání

v vyhledávání rozsahu, vstup je vyhledávací obdélník (pole Dotaz). Hledání je docela podobné vyhledávání v a B + strom. Hledání začíná od kořenového uzlu stromu. Každý vnitřní uzel obsahuje sadu obdélníků a ukazatelů na odpovídající podřízený uzel a každý listový uzel obsahuje obdélníky prostorových objektů (může tam být ukazatel na nějaký prostorový objekt). Pro každý obdélník v uzlu je třeba rozhodnout, zda překrývá vyhledávací obdélník nebo ne. Pokud ano, musí být prohledán také odpovídající podřízený uzel. Hledání se provádí takto rekurzivním způsobem, dokud nebudou překonány všechny překrývající se uzly. Když je dosažen uzel listu, jsou testované uzavřené ohraničující rámečky (obdélníky) porovnány s vyhledávacím obdélníkem a jejich objekty (pokud existují) jsou vloženy do sady výsledků, pokud leží uvnitř vyhledávacího obdélníku.

Pro prioritní vyhledávání, jako je hledání nejbližšího souseda, dotaz se skládá z bodu nebo obdélníku. Kořenový uzel je vložen do prioritní fronty. Dokud fronta není prázdná nebo dokud není vrácen požadovaný počet výsledků, hledání pokračuje zpracováním nejbližší položky ve frontě. Uzly stromů jsou rozbaleny a jejich děti znovu vloženy. Položky listů jsou vráceny, když se vyskytnou ve frontě.[10] Tento přístup lze použít s různými metrikami vzdálenosti, včetně vzdálenost ve velkém kruhu pro geografická data.[4]

Vložení

K vložení objektu se strom rekurzivně prochází z kořenového uzlu. V každém kroku jsou prozkoumány všechny obdélníky v aktuálním uzlu adresáře a kandidát je vybrán pomocí heuristiky, jako je výběr obdélníku, který vyžaduje nejmenší zvětšení. Hledání poté sestoupí na tuto stránku, dokud nedosáhne uzlu listu. Pokud je listový uzel plný, musí být před vložením rozdělen. Opět platí, že protože vyčerpávající vyhledávání je příliš nákladné, je k rozdělení uzlu na dva použita heuristika. Přidáním nově vytvořeného uzlu na předchozí úroveň může tato úroveň znovu přetéct a tato přetečení se mohou šířit až do kořenového uzlu; když tento uzel také přetéká, vytvoří se nový kořenový uzel a strom se zvětšil na výšku.

Volba podstromu vložení

Na každé úrovni musí algoritmus rozhodnout, do kterého podstromu vložit nový datový objekt. Když je datový objekt plně obsažen v jediném obdélníku, je volba jasná. Pokud je potřeba zvětšit více možností nebo obdélníků, může mít výběr významný dopad na výkon stromu.

V klasickém stromu R se objekty vkládají do podstromu, který potřebuje nejmenší zvětšení. V pokročilejších R * -strom, je zaměstnána smíšená heuristika. Na úrovni listu se snaží minimalizovat překrytí (v případě vazeb upřednostňujte nejmenší zvětšení a pak nejmenší plochu); na vyšších úrovních se chová podobně jako R-strom, ale na vazbách opět upřednostňuje podstrom s menší plochou. Zmenšené překrytí obdélníků ve stromu R * je jednou z klíčových výhod oproti tradičnímu stromu R (je to také důsledek ostatních použitých heuristik, nejen výběru podstromu).

Rozdělení přetékajícího uzlu

Jelikož přerozdělení všech objektů uzlu do dvou uzlů má exponenciální počet možností, je třeba použít heuristiku k nalezení nejlepšího rozdělení. V klasickém stromu R navrhl Guttman dvě takové heuristiky zvané QuadraticSplit a LinearSplit. V kvadratickém rozdělení algoritmus vyhledá dvojici obdélníků, která je nejhorší kombinací ve stejném uzlu, a umístí je jako počáteční objekty do dvou nových skupin. Poté vyhledá položku, která má nejsilnější preference pro jednu ze skupin (z hlediska zvětšení plochy) a přiřadí objekt této skupině, dokud nebudou přiřazeny všechny objekty (splňující minimální výplň).

Existují i ​​další strategie rozdělení, jako je Greene's Split,[11] the R * -strom rozdělení heuristické[12] (který se opět snaží minimalizovat překrývání, ale také preferuje kvadratické stránky) nebo algoritmus lineárního rozdělení navržený Ang a Tan[13] (což však může vytvářet velmi nepravidelné obdélníky, které jsou méně účinné pro mnoho reálných dotazů na rozsah a okna). Kromě toho, že má pokročilejší heuristiku rozdělení, R * -strom také se snaží vyhnout rozdělení uzlu opětovným vložením některých členů uzlu, což je podobné jako u a B-strom vyvažuje přetečení uzlů. Ukázalo se, že to také snižuje překrývání a tím zvyšuje výkon stromu.

Nakonec X-strom[14] lze považovat za variantu R * -tree, která se také může rozhodnout nerozdělit uzel, ale postavit takzvaný superuzel obsahující všechny položky navíc, pokud nenajde dobré rozdělení (zejména pro vysoké rozměrová data).

Vymazání

Odstranění položky ze stránky může vyžadovat aktualizaci ohraničujících obdélníků nadřazených stránek. Pokud je však stránka nedostatečná, nebude vyvážená se svými sousedy. Místo toho bude stránka rozpuštěna a všechny její podřízené položky (které mohou být podstromy, nejen objekty listů), budou znovu vloženy. Pokud během tohoto procesu má kořenový uzel jediný prvek, výška stromu se může snížit.

Hromadné nakládání

  • Nejbližší X: Objekty jsou seřazeny podle jejich první souřadnice („X“) a poté jsou rozděleny na stránky požadované velikosti.
  • Zabaleno Hilbert R-strom: variace Nearest-X, ale řazení pomocí Hilbertovy hodnoty středu obdélníku namísto použití X souřadnice. Neexistuje žádná záruka, že se stránky nebudou překrývat.
  • Třídit-dlaždice-rekurzivní (STR):[15] Další variace Nearest-X, která odhaduje celkový počet požadovaných listů jako , požadovaný faktor rozdělení v každé dimenzi k dosažení tohoto cíle jako , pak opakovaně rozděluje každou dimenzi postupně do stejně velké oddíly pomocí jednorozměrného třídění. Výsledné stránky, pokud zabírají více než jednu stránku, jsou znovu hromadně načteny pomocí stejného algoritmu. U bodových dat se listové uzly nepřekrývají a „rozloží“ datový prostor na přibližně stejně velké stránky.
  • Minimalizace překrytí shora dolů (OMT):[16] Vylepšení oproti STR pomocí přístupu shora dolů, který minimalizuje překrývání mezi řezy a zlepšuje výkon dotazu.
  • Prioritní strom R

Viz také

Reference

  1. ^ A b C Guttman, A. (1984). „Stromy R: struktura dynamického indexu pro prostorové vyhledávání“ (PDF). Sborník mezinárodní konference ACM SIGMOD z roku 1984 o správě dat - SIGMOD '84. str. 47. doi:10.1145/602259.602266. ISBN  978-0897911283. S2CID  876601.
  2. ^ Y. Manolopoulos; A. Nanopoulos; Y. Theodoridis (2006). R-stromy: teorie a aplikace. Springer. ISBN  978-1-85233-977-7. Citováno 8. října 2011.
  3. ^ Roussopoulos, N .; Kelley, S .; Vincent, F. D. R. (1995). "Dotazy na nejbližšího souseda". Sborník mezinárodní konference ACM SIGMOD z roku 1995 o správě dat - SIGMOD '95. str. 71. doi:10.1145/223784.223794. ISBN  0897917316.
  4. ^ A b Schubert, E .; Zimek, A .; Kriegel, H. P. (2013). "Geodetické dotazy na vzdálenost na stromech R pro indexování geografických dat". Pokroky v prostorových a časových databázích. Přednášky z informatiky. 8098. str. 146. doi:10.1007/978-3-642-40235-7_9. ISBN  978-3-642-40234-0.
  5. ^ Hwang, S .; Kwon, K .; Cha, S.K .; Lee, B. S. (2003). "Hodnocení výkonu variant R-stromu hlavní paměti". Pokroky v prostorových a časových databázích. Přednášky z informatiky. 2750. str.10. doi:10.1007/978-3-540-45072-6_2. ISBN  978-3-540-40535-1.
  6. ^ Arge, L.; De Berg, M .; Haverkort, H. J .; Yi, K. (2004). „Prioritní strom R“ (PDF). Sborník mezinárodní konference ACM SIGMOD z roku 2004 o správě dat - SIGMOD '04. str. 347. doi:10.1145/1007568.1007608. ISBN  978-1581138597. S2CID  6817500.
  7. ^ Brinkhoff, T .; Kriegel, H. P.; Seeger, B. (1993). "Efektivní zpracování prostorových spojení pomocí R-stromů". Záznam ACM SIGMOD. 22 (2): 237. CiteSeerX  10.1.1.72.4514. doi:10.1145/170036.170075.
  8. ^ Böhm, Christian; Krebs, Florian (01.09.2003). Podpora aplikací KDD od k-Nearest Neighbor Připojte se. Databáze a aplikace expertních systémů. Přednášky z informatiky. Springer, Berlín, Heidelberg. 504–516. CiteSeerX  10.1.1.71.454. doi:10.1007/978-3-540-45227-0_50. ISBN  9783540408062.
  9. ^ Achtert, E .; Böhm, C .; Kröger, P. (2006). DeLi-Clu: Zvyšování robustnosti, úplnosti, použitelnosti a účinnosti hierarchického shlukování pomocí nejbližšího páru. LNCS: Pokroky ve zjišťování znalostí a dolování dat. Přednášky z informatiky. 3918. str. 119–128. doi:10.1007/11731139_16. ISBN  978-3-540-33206-0.
  10. ^ Kuan, J .; Lewis, P. (1997). Msgstr "Rychlé hledání nejbližšího souseda pro rodinu R-stromů". Proceedings of ICICS, 1997 International Conference on Information, Communications and Signal Processing. Téma: Trendy v oblasti informačních systémů a bezdrátové multimediální komunikace (kat. Č. 97TH8237). str. 924. doi:10.1109 / ICICS.1997,652114. ISBN  0-7803-3676-3.
  11. ^ A b Greene, D. (1989). "Implementace a analýza výkonu metod přístupu k prostorovým datům". [1989] Sborník. Pátá mezinárodní konference o datovém inženýrství. str. 606–615. doi:10.1109 / ICDE.1989.47268. ISBN  978-0-8186-1915-1. S2CID  7957624.
  12. ^ A b Beckmann, N .; Kriegel, H. P.; Schneider, R .; Seeger, B. (1990). „Strom R *: efektivní a robustní přístupová metoda pro body a obdélníky“ (PDF). Sborník mezinárodní konference ACM SIGMOD z roku 1990 o správě dat - SIGMOD '90. str. 322. CiteSeerX  10.1.1.129.3731. doi:10.1145/93597.98741. ISBN  978-0897913652. S2CID  11567855.
  13. ^ A b Ang, C. H .; Tan, T. C. (1997). "Nový algoritmus rozdělení lineárního uzlu pro R-stromy". V Scholl, Michel; Voisard, Agnès (eds.). Sborník z 5. mezinárodního sympozia o pokroku v prostorových databázích (SSD '97), Berlín, Německo, 15. – 18. Července 1997. Přednášky z informatiky. 1262. Springer. 337–349. doi:10.1007/3-540-63238-7_38.
  14. ^ Berchtold, Stefan; Keim, Daniel A .; Kriegel, Hans-Peter (1996). „X-Tree: Struktura indexu pro vysokodimenzionální data“. Sborník z 22. konference VLDB. Bombaj, Indie: 28–39.
  15. ^ Leutenegger, Scott T .; Edgington, Jeffrey M .; Lopez, Mario A. (únor 1997). „STR: Jednoduchý a efektivní algoritmus pro balení R-Tree“. Citovat deník vyžaduje | deník = (Pomoc)
  16. ^ Lee, Taewon; Lee, Sukho (červen 2003). „OMT: Překrytí Minimalizace algoritmu hromadného načítání shora dolů pro R-strom“ (PDF). Citovat deník vyžaduje | deník = (Pomoc)

externí odkazy

  • Média související s R-strom na Wikimedia Commons