Kompoziční údaje - Compositional data - Wikipedia
v statistika, údaje o složení jsou kvantitativní popisy částí nějakého celku, vyjadřující relativní informace. Matematicky jsou kompoziční data reprezentované body na simplexní. Měření zahrnující pravděpodobnosti, proporce, procenta a ppm lze všechny považovat za kompoziční data.
Ternární děj
Ve třech proměnných lze kompoziční data ve třech proměnných vykreslit pomocí ternární pozemky. Použití a barycentrický spiknutí na třech proměnných graficky zobrazuje poměry tří proměnných jako pozice v an rovnostranný trojúhelník.
Zjednodušený ukázkový prostor
Obecně, John Aitchison definoval kompoziční data jako podíly nějakého celku v roce 1982.[1] Zejména kompoziční datový bod (nebo složení zkráceně) může být reprezentován skutečným vektorem s kladnými složkami. Ukázkový prostor kompozičních dat je simplex:
Jediná informace je dána poměry mezi složkami, takže informace o kompozici jsou zachovány při násobení jakoukoli pozitivní konstantou. Proto lze ukázkový prostor kompozičních dat vždy považovat za standardní simplex, tj. . V této souvislosti se nazývá normalizace na standardní simplex uzavření a je označen :
kde D je počet dílů (komponent) a označuje vektor řádku.
Aitchisonova geometrie
Simplexu lze dát strukturu reálného vektorového prostoru několika různými způsoby. Je volána následující struktura vektorového prostoru Aitchisonova geometrie nebo Aitchison simplex a má následující operace:
- Porucha
- Napájení
- Vnitřní produkt
Pouze v rámci těchto operací stačí ukázat, že Aitchison simplex tvoří a -dimenzionální euklidovský vektorový prostor.
Orthonormální základy
Protože Aitchisonův simplex tvoří konečný rozměrný Hilbertův prostor, je možné v simplexu sestrojit ortonormální základy. Každá skladba lze rozložit následovně
kde tvoří v simplexu ortonormální základ.[2] Hodnoty jsou (ortonormální a kartézské) souřadnice s ohledem na daný základ. Nazývají se izometrické souřadnice logaritmu .
Lineární transformace
Existují tři dobře charakterizované izomorfismy které se transformují z Aitchison simplexu do reálného prostoru. Všechny tyto transformace splňují linearitu a jak je uvedeno níže
Aditivní logratio transformace
Transformace aditivního logaritmického poměru (alr) je izomorfismus . To je dáno
Volba složky jmenovatele je libovolná a může to být jakákoli specifikovaná složka. Tato transformace se běžně používá v chemii s měřením, jako je pH. Kromě toho se nejčastěji používá transformace multinomiální logistická regrese. Alr transformace není izometrie, což znamená, že vzdálenosti od transformovaných hodnot nebudou ekvivalentní vzdálenostem na původních kompozicích v simplexu.
Center logratio transformace
Transformace poměru středního logaritmu (clr) je jak izomorfismem, tak izometrií kde
Kde je geometrický průměr . Inverzní funkce je také známá jako funkce softmax běžně používané v neuronových sítích.
Izometrické logratio transformace
Transformace izometrického logaritmického poměru (ilr) je jak izomorfismem, tak izometrií kde
Existuje několik způsobů konstrukce ortonormálních základen, včetně použití Gram – Schmidtova ortogonalizace nebo rozklad singulární hodnoty CLR transformovaných dat. Další alternativou je konstrukce logaritmických kontrastů z bifurkujícího stromu. Pokud dostáváme rozdvojující strom, můžeme z vnitřních uzlů ve stromu postavit základ.
Každý vektor v základu by byl určen následovně
Prvky v každém vektoru jsou uvedeny následovně
kde jsou příslušné počty špiček v příslušných podstromech zobrazených na obrázku. Je možné ukázat, že výsledný základ je ortonormální[3]
Jednou základ je postaven, ilr transformaci lze vypočítat následujícím způsobem
kde každý prvek v transformovaných datech ilr má následující formu
kde a jsou množinou hodnot odpovídajících tipům v podstromech a
Příklady
- v chemie, kompozice lze vyjádřit jako molární koncentrace každé komponenty. Protože není určen součet všech koncentrací, celé složení D části je potřeba, a tedy vyjádřeno jako vektor D molární koncentrace. Tyto kompozice lze převést na hmotnostní procenta vynásobením každé složky příslušnou konstantou.
- v demografie, město může být složením datového bodu ve vzorku měst; město, ve kterém 35% lidí jsou křesťané, 55% jsou muslimové, 6% jsou Židé a zbývající 4% jsou ostatní, což odpovídá čtyřnásobku [0,35; 0,55; 0,06; 0,04]. Soubor dat by odpovídal seznamu měst.
- v geologie, hornina složená z různých minerálů může být složením datového bodu ve vzorku hornin; hornina, jejíž 10% je první minerál, 30% je druhá a zbývajících 60% je třetí, odpovídá trojnásobku [0,1, 0,3, 0,6]. A soubor dat bude obsahovat jednu takovou trojici pro každou skálu ve vzorku hornin.
- v vysoce výkonné sekvenování, získaná data jsou obvykle transformována na relativní množství, což je činí kompozičními.
- v pravděpodobnost a statistika, rozdělení vzorkovacího prostoru do nesouvislých událostí je popsáno pravděpodobnostmi přiřazenými těmto událostem. Vektor D pravděpodobnosti lze považovat za složení D části. Jak se přidávají k jedné, lze potlačit jednu pravděpodobnost a složení je zcela určeno.
- V průzkum, lze podíl lidí, kteří kladně odpovídají na různé položky, vyjádřit v procentech. Protože celkové množství je identifikováno jako 100, kompoziční vektor D komponenty lze definovat pouze pomocí D - 1 komponenta, za předpokladu, že zbývající komponenta je procento potřebné pro přidání celého vektoru k 100.
Viz také
Poznámky
- ^ Aitchison, John (1982). "Statistická analýza kompozičních údajů". Journal of the Royal Statistical Society. Řada B (metodická). 44 (2): 139–177. doi:10.1111 / j.2517-6161.1982.tb01195.x.
- ^ Egozcue a kol.
- ^ Egozcue & Pawlowsky-Glahn 2005
Reference
- Aitchison, J. (2011) [1986], Statistická analýza kompozičních údajů, Monografie o statistice a použité pravděpodobnosti, Springer, ISBN 978-94-010-8324-9
- van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Analýza kompozičních dat pomocí R. Springer, ISBN 978-3-642-36809-7
- Egozcue, Juan Jose; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), „Izometrické logratio transformace pro analýzu kompozičních dat“, Matematická geologie, 35 (3): 279–300, doi:10.1023 / A: 1023818214614, S2CID 122844634
- Egozcue, Juan Jose; Pawlowsky-Glahn, Vera (2005), „Skupiny dílů a jejich rovnováhy v analýze kompozičních dat“, Matematická geologie, 37 (7): 795–828, doi:10.1007 / s11004-005-7381-9, S2CID 53061345
- Pawlowsky-Glahn, Vera; Egozcue, Juan Jose; Tolosana-Delgado, Raimon (2015), Modelování a analýza kompozičních datWiley, doi:10.1002/9781119003144, ISBN 9781119003144
externí odkazy
- CoDaWeb - web s kompozičními daty
- Pawlowsky-Glahn, V .; Egozcue, J.J .; Tolosana-Delgado, R. (2007). "Poznámky k přednášce o analýze kompozičních dat". hdl:10256/297. Citovat deník vyžaduje
| deník =
(Pomoc) - Proč a jak by měli geologové používat analýzu kompozičních dat (wikibook)