Kvalitativní variace - Qualitative variation - Wikipedia
An index kvalitativní variace (IQV) je míra statistická disperze v nominální rozdělení. Existuje celá řada z nich, ale ve statistické literatuře byly relativně málo studovány. Nejjednodušší je variační poměr, zatímco složitější indexy zahrnují informační entropie.
Vlastnosti
Pro analýzu nominálních údajů se používá několik typů indexů. Některé jsou standardní statistiky, které se používají jinde - rozsah, standardní odchylka, rozptyl, střední odchylka, variační koeficient, střední absolutní odchylka, Rozsah interkvartilní a kvartilní odchylka.
Kromě těchto několika statistik bylo vyvinuto s ohledem na nominální data. Wilcox shrnul a vytvořil řadu (Wilcox 1967 ), (Wilcox 1973 ), který vyžaduje, aby byly splněny následující vlastnosti standardizace:
- Variace se pohybuje mezi 0 a 1.
- Varianta je 0 právě tehdy, pokud všechny případy patří do jedné kategorie.
- Variace je 1 právě tehdy, pokud jsou případy rovnoměrně rozděleny do všech kategorií.[1]
Zejména hodnota těchto standardizovaných indexů nezávisí na počtu kategorií nebo počtu vzorků.
U libovolného indexu platí, že čím blíže k rovnoměrnému rozdělení, tím větší je rozptyl a čím větší jsou rozdíly ve frekvencích mezi kategoriemi, tím menší je rozptyl.
Indexy kvalitativní variace jsou pak analogické k informační entropie, který je minimalizován, když všechny případy patří do jedné kategorie a maximalizován v jednotném rozdělení. Informační entropii lze skutečně použít jako index kvalitativní variace.
Jedna charakteristika konkrétního indexu kvalitativní variace (IQV) je jako poměr pozorovaných rozdílů k maximálním rozdílům.
Wilcoxovy indexy
Wilcox dává řadu vzorců pro různé indexy QV (Wilcox 1973 ), první, který označuje DM pro „Odchylku od režimu“, je standardizovaná forma variační poměr, a je analogický k rozptyl jako odchylka od průměru.
ModVR
Vzorec pro variaci kolem režimu (ModVR) je odvozen následovně:
kde Fm je modální frekvence, K. je počet kategorií a Fi je frekvence ith skupina.
To lze zjednodušit na
kde N je celková velikost vzorku.
Freemanův index (nebo variační poměr) je[2]
To souvisí s M jak následuje:
ModVR je definován jako
kde proti je Freemanův index.
Nízké hodnoty ModVR odpovídají malému množství variací a vysoké hodnoty většímu množství variací.
Když K. je velký, ModVR se přibližně rovná indexu Freemanaproti.
RanVR
To je založeno na rozsahu kolem režimu. Je definován jako
kde Fm je modální frekvence a Fl je nejnižší frekvence.
AvDev
Toto je analogie střední odchylky. Je definován jako aritmetický průměr absolutních rozdílů každé hodnoty od průměru.
MNDif
Toto je analogický průměrný rozdíl - průměr rozdílů všech možných párů proměnných hodnot, bez ohledu na znaménko. Střední rozdíl se liší od střední a směrodatné odchylky, protože závisí na šíření variačních hodnot mezi sebou, a nikoli na odchylkách od určité centrální hodnoty.[3]
kde Fi a Fj jsou ith a jth frekvence.
MNDif je Giniho koeficient aplikováno na kvalitativní údaje.
VarNC
Toto je analogie rozptylu.
Je to stejný index jako Muellerův a Schusslerův index kvalitativní variace[4] a Gibbsova M2 index.
Je distribuován jako náměstí chi proměnná s K. – 1 stupně svobody.[5]
StDev
Wilson navrhl dvě verze této statistiky.
První je založen na AvDev.
Druhý je založen na MNDif
HRel
Tento index byl původně vyvinut společností Claude Shannon pro použití při specifikaci vlastností komunikačních kanálů.
kde stri = Fi / N.
To odpovídá informační entropie děleno a je užitečné pro porovnání relativních variací mezi frekvenčními tabulkami různých velikostí.
B index
Wilcox přizpůsobil Kaiserův návrh[6] na základě geometrického průměru a vytvořil B ' index. The B index je definován jako
Balíčky R.
Některé z těchto indexů byly implementovány v jazyce R.[7]
Gibbs & Poston Jr (1975) navrhlo šest indexů.[8]
M1
Nestandardizovaný index (M1) (Gibbs & Poston Jr 1975, str. 471) je
kde K. je počet kategorií a je podíl pozorování, která spadají do dané kategorie i.
M1 lze interpretovat jako jednu minus pravděpodobnost, že náhodný pár vzorků bude patřit do stejné kategorie,[9] takže tento vzorec pro IQV je standardizovanou pravděpodobností náhodné dvojice spadající do stejné kategorie. Tento index se také označuje jako index diferenciace, index diferenciace výživy a index geografické diferenciace v závislosti na kontextu, ve kterém byl použit.
M2
Druhým indexem je M2[10] (Gibbs & Poston Jr 1975, str. 472) je:
kde K. je počet kategorií a je podíl pozorování, která spadají do dané kategorie i. Faktor je pro standardizaci.
M1 a M2 lze interpretovat z hlediska rozptylu a multinomiální distribuce (Swanson 1976 ) (zde se nazývá „rozšířený binomický model“). M1 je rozptyl multinomického rozdělení a M2 je poměr rozptylu multinomického rozdělení k rozptylu a binomická distribuce.
M4
The M4 index je
kde m je průměr.
M6
Vzorec pro M6 je
·kde K. je počet kategorií, Xi je počet datových bodů v ith kategorie, N je celkový počet datových bodů, || je absolutní hodnota (modul) a
Tento vzorec lze zjednodušit
kde stri je podíl vzorku v ith kategorie.
V praxi M1 a M6 mají tendenci být vysoce korelované, což svědčí proti jejich kombinovanému použití.
Související indexy
Součet
také našel aplikaci. Toto je známé jako index Simpson v ekologie a jako Herfindahlův index nebo Herfindahl-Hirschmanův index (HHI) v ekonomii. Jeho varianta je v mikrobiologii známá jako Hunter-Gastonův index[11]
V lingvistice a dešifrování tento součet je znám jako míra opakování. The výskyt náhody (IC) je nestranný odhadce této statistiky[12]
kde Fi je počet ith grafém v textu a n je celkový počet grafém v textu.
- M1
The M1 výše definovaná statistika byla několikrát navržena v řadě různých nastavení pod různými názvy. Patří mezi ně Giniho index proměnlivosti,[13] Simpsonova míra rozmanitosti,[14] Bachiho index jazykové homogenity,[15] Muellerův a Schuesslerův index kvalitativní variace,[16] Gibbsův a Martinův index diverzifikace průmyslu,[17] Liebersonův index.[18] a Blauův index v sociologii, psychologii a manažerských studiích.[19] Formulace všech těchto indexů je identická.
Simpsonovy D je definován jako
kde n je celková velikost vzorku a ni je počet položek v ith kategorie.
Pro velké n my máme
Další statistika, která byla navržena, je koeficient nepředstavitelnosti, který se pohybuje mezi 0 a 1.[20]
kde n je velikost vzorku a C(X,y) = 1 pokud X a y jsou podobné a 0 jinak.
Pro velké n my máme
kde K. je počet kategorií.
Další související statistikou je kvadratická entropie
který sám souvisí s Giniho index.
- M2
Greenbergův jednojazyčný nevážený index jazykové rozmanitosti[21] je M2 výše definovaná statistika.
- M7
Další index - M7 - byl vytvořen na základě M4 index Gibbs & Poston Jr (1975)[22]
kde
a
kde K. je počet kategorií, L je počet podtypů, Óij a Eij jsou počet pozorovaných a očekávaných podtypů j v ith kategorie, ni je číslo v ith kategorie a strj je podíl podtypu j v úplném vzorku.
Poznámka: Tento index byl navržen k měření účasti žen na pracovišti: dva podtypy, pro které byl vyvinut, byly muži a ženy.
Další indexy jednotlivých vzorků
Tyto indexy jsou souhrnnou statistikou variace ve vzorku.
Berger – Parkerův index
The Berger – Parkerův index rovná se maximum hodnota v datové sadě, tj. proporcionální početnost nejhojnějšího typu.[23] To odpovídá váženému zobecněnému průměru hodnoty, když q se blíží nekonečnu, a proto se rovná inverzní hodnotě skutečné rozmanitosti řádu nekonečna (1 /∞D).
Brillouinův index rozmanitosti
Tento index je přísně použitelný pouze pro celé populace, nikoli pro konečné vzorky. Je definován jako
kde N je celkový počet jednotlivců v populaci, ni je počet osob v ith kategorie a N! je faktoriál z N.Brillouinův index rovnosti je definován jako
kde JáB(max) je maximální hodnota JáB.
Hillova čísla rozmanitosti
Hill navrhl rodinu čísel rozmanitosti[24]
Pro dané hodnoty lze vypočítat několik dalších indexů
- A = 0: NA = druhová bohatost
- A = 1: NA = Shannonův index
- A = 2: NA = 1 / Simpsonův index (bez malé korekce vzorku)
- A = 3: NA = 1 / Berger – Parkerův index
Hill také navrhl rodinu opatření pro vyrovnání
kde A > b.
Hill's E4 je
Hill's E5 je
Margalefův index
kde S je počet datových typů ve vzorku a N je celková velikost vzorku.[25]
Menhinickův index
kde S je počet datových typů ve vzorku a N je celková velikost vzorku.[26]
v lingvistika tento index je totožný s indexem Kuraszkiewicz (Guiardův index), kde S je počet odlišných slov (typů) a N je celkový počet slov (tokenů) ve zkoumaném textu.[27][28] Tento index lze odvodit jako speciální případ funkce Generalized Torquist.[29]
Statistika Q
Toto je statistika, kterou vymysleli Kempton a Taylor.[30] a zahrnuje kvartily vzorku. Je definován jako
kde R1 a R1 jsou 25% a 75% kvartilů na kumulativní druhové křivce, nj je počet druhů v jth kategorie, nRi je počet druhů ve třídě, kde Ri pády (i = 1 nebo 2).
Shannon – Wienerův index
Toto je převzato z informační teorie
kde N je celkový počet ve vzorku a stri je podíl v ith kategorie.
V ekologii, kde se tento index běžně používá, H obvykle leží mezi 1,5 a 3,5 a jen zřídka přesahuje 4,0.
Přibližný vzorec pro směrodatnou odchylku (SD) z H je
kde stri je podíl tvořený ith kategorie a N je součet ve vzorku.
Přesnější přibližná hodnota rozptylu H(var (H)) darováno[31]
kde N je velikost vzorku a K. je počet kategorií.
Příbuzným indexem je Pielou J definováno jako
Jednou z potíží s tímto indexem je to S je pro konečný vzorek neznámý. V praxi S je obvykle nastaveno na maximum přítomné v jakékoli kategorii ve vzorku.
Rényiho entropie
The Rényiho entropie je zobecněním Shannonovy entropie na jiné hodnoty q než jednota. Lze vyjádřit:
což se rovná
To znamená, že přijetí logaritmu skutečné rozmanitosti založené na jakékoli hodnotě q dává Rényiho entropii odpovídající stejné hodnotě q.
Hodnota je také známé jako Hill číslo.[24]
McIntoshovy D a E.
kde N je celková velikost vzorku a ni je číslo v ith kategorie.
kde K. je počet kategorií.
Fisherova alfa
Jednalo se o první index odvozený pro rozmanitost.[32]
kde K. je počet kategorií a N je počet datových bodů ve vzorku. Fisher α je třeba odhadnout číselně z údajů.
Očekávaný počet osob v EU rth kategorie, kde byly kategorie umístěny v rostoucí velikosti
kde X je empirický parametr ležící mezi 0 a 1. Zatímco X se nejlépe odhaduje numericky, přibližnou hodnotu lze získat řešením následujících dvou rovnic
kde K. je počet kategorií a N je celková velikost vzorku.
Rozptyl α je přibližně[33]
Strongův index
Tento index (Dw) je vzdálenost mezi Lorenzova křivka druhové distribuce a 45stupňová čára. Úzce souvisí s Giniho koeficientem.[34]
V symbolech to je
kde max () je maximální hodnota převzatá z N datové body, K. je počet kategorií (nebo druhů) v datovém souboru a Ci je kumulativní součet nahoru a včetně ith kategorie.
Simpsonova E.
To souvisí se Simpsonovou D a je definován jako
kde D je Simpsonova D a K. je počet kategorií ve vzorku.
Smith & Wilsonovy indexy
Smith a Wilson navrhli řadu indexů založených na Simpsonových D.
kde D je Simpsonova D a K. je počet kategorií.
Heipův index
kde H je Shannonova entropie a K. je počet kategorií.
Tento index úzce souvisí s Sheldonovým indexem, který je
kde H je Shannonova entropie a K. je počet kategorií.
Camargoův index
Tento index vytvořil Camargo v roce 1993.[35]
kde K. je počet kategorií a stri je podíl v ith kategorie.
Smith a Wilsonova B
Tento index navrhli Smith a Wilson v roce 1996.[36]
kde θ je sklon logaritmické křivky.
Nee, Harvey a index Cotgreave
Toto je sklon křivky log (hojnosti).
Bulla's E
Existují dvě verze tohoto indexu - jedna pro kontinuální distribuce (EC) a druhý pro diskrétní (Ed).[37]
kde
je index Schoener – Czekanoski, K. je počet kategorií a N je velikost vzorku.
Hornův informační teorie index
Tento index (Rik) je založen na Shannonově entropii.[38] Je definován jako
kde
V těchto rovnicích Xij a Xkj je počet, kolikrát jth datový typ se objeví v ith nebo kth vzorek.
Index vzácnosti
Ve vzácném vzorku náhodný dílčí vzorek n ve vybraném z celkového počtu N položky. V tomto vzorku mohou některé skupiny v tomto podvzorku nutně chybět. Nechat být počet skupin stále přítomných v podvzorku n položky. je méně než K. počet kategorií, kdykoli v tomto podvzorku chybí alespoň jedna skupina.
The křivka zředění, je definován jako:
Všimněte si, že 0 ≤ F(n) ≤ K..
Dále
Přesto, že je definován na diskrétních hodnotách n, se tyto křivky nejčastěji zobrazují jako spojité funkce.[39]
Tento index je dále diskutován v Zřídka (ekologie).
Caswell's V
Tohle je z statistika typu založená na Shannonově entropii.[40]
kde H je Shannonova entropie, E(H) je očekávaná Shannonova entropie pro neutrální model distribuce a SD(H) je směrodatná odchylka entropie. Směrodatná odchylka se odhaduje ze vzorce odvozeného Pielou
kde stri je podíl tvořený ith kategorie a N je součet ve vzorku.
Index společnosti Lloyd & Ghelardi
Tohle je
kde K. je počet kategorií a K ' je počet kategorií podle modelu MacArthur's broken stick poskytující pozorovanou rozmanitost.
Průměrný index taxonomické odlišnosti
Tento index se používá k porovnání vztahu mezi hostiteli a jejich parazity.[41] Zahrnuje informace o fylogenetickém vztahu mezi hostitelským druhem.
kde s je počet hostitelských druhů použitých parazitem a ωij je taxonomická odlišnost mezi hostitelskými druhy i a j.
Index kvalitativní variace
Bylo navrženo několik indexů s tímto názvem.
Jedním z nich je
kde K. je počet kategorií a stri je podíl vzorku, který leží v ith kategorie.
Theil's H
Tento index je také známý jako index entropie více skupin nebo index teorie informací. Navrhl to Theil v roce 1972.[42] Index je váženým průměrem entropie vzorků.
Nechat
a
kde stri je podíl typu i v Ath vzorek, r je celkový počet vzorků, ni je velikost ith vzorek, N je velikost populace, ze které byly vzorky získány, a E je entropie populace.
Indexy pro porovnání dvou nebo více datových typů v rámci jednoho vzorku
Několik z těchto indexů bylo vyvinuto, aby dokumentovalo, do jaké míry mohou v datové oblasti koexistovat různé datové typy zájmu.
Index odlišnosti
Nechat A a B být dva typy datových položek. Pak je index nepodobnosti
kde
Ai je počet datových typů A na ukázkovém místě i, Bi je počet datových typů B na ukázkovém místě i, K. je počet stránek vzorkovaných a || je absolutní hodnota.
Tento index je pravděpodobně lépe známý jako index odlišnosti (D).[43] Úzce souvisí s indexem Gini.
Tento index je zkreslený, protože jeho očekávání při jednotném rozdělení je> 0.
Modifikaci tohoto indexu navrhli Gorard a Taylor.[44] Jejich index (GT) je
Index segregace
Index segregace (JE)[45] je
kde
a K. je počet jednotek, Ai a ti je počet datových typů A v jednotce i a celkový počet všech datových typů v jednotce i.
Hutchenův index druhé odmocniny
Tento index (H) je definován jako[46]
kde stri je podíl vzorku složeného z ith obměňovat.
Liebersonův index izolace
Tento index ( Lxy ) vynalezl Lieberson v roce 1981.[47]
kde Xi a Yi jsou proměnné zájmu na ith web, K. je počet zkoumaných stránek a Xtot je celkový počet variant typu X ve studii.
Bellův index
Tento index je definován jako[48]
kde strX je podíl vzorku tvořeného různými variacemi X a
kde NX je celkový počet variant typu X ve studii, K. je počet vzorků ve studii a Xi a stri jsou počet variací a podíl variací typu X respektive v ith vzorek.
Index izolace
Index izolace je
kde K. je počet jednotek ve studii, Ai a ti je počet jednotek typu A a počet všech jednotek v ith vzorek.
Byl také navržen upravený index izolace
The MII leží mezi 0 a 1.
Gorardův index segregace
Tento index (GS) je definován jako
kde
a Ai a ti jsou počet datových položek typu A a celkový počet položek v ith vzorek.
Index expozice
Tento index je definován jako
kde
a Ai a Bi je počet typů A a B v ith kategorie a ti je celkový počet datových bodů v ith kategorie.
Ochai index
Toto je binární forma kosinového indexu.[49] Používá se k porovnání údajů o přítomnosti / nepřítomnosti dvou datových typů (zde A a B). Je definován jako
kde A je počet jednotek vzorku, kde obě A a B Jsou nalezeny, b je počet jednotek vzorku kde A ale ne B dochází a C je počet jednotek vzorku, kde typ B je přítomen, ale není typu A.
Kulczyńského koeficient
Tento koeficient vynalezl Stanisław Kulczyński v roce 1927[50] a je indexem asociace mezi dvěma typy (zde A a B). Jeho hodnota se pohybuje mezi 0 a 1. Je definována jako
kde A je počet jednotek vzorku, kde typ A a zadejte B jsou přítomny, b je počet jednotek vzorku, kde typ A ale ne typ B je přítomen a C je počet jednotek vzorku, kde typ B je přítomen, ale není typu A.
Yule's Q
Tento index vynalezl Yule v roce 1900.[51] Týká se sdružení dvou různých typů (zde A a B). Je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. Q kolísá v hodnotě mezi -1 a +1. V ordinálním případě Q je známý jako Goodman-Kruskal y.
Protože jmenovatel může být potenciálně nulový, Leinhert a Sporer doporučili přidat +1 A, b, C a d.[52]
Yule je Y.
Tento index je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny.
Baroni – Urbani – Buserův koeficient
Tento index vynalezli Baroni-Urbani a Buser v roce 1976.[53] Hodnota se pohybuje mezi 0 a 1. Je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Když d = 0, tento index je totožný s indexem Jaccard.
Hammanův koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Rogers – Tanimoto koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku
Koeficient Sokal – Sneath
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Sokalova binární vzdálenost
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Russelův-Raoův koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Koeficient Phi
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny.
Soergelův koeficient
Tento koeficient je definován jako
kde b je počet vzorků, kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Simpsonův koeficient
Tento koeficient je definován jako
kde b je počet vzorků, kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A.
Dennisův koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Forbesův koeficient
Tento koeficient navrhl Stephen Alfred Forbes v roce 1907.[54] Je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Modifikaci tohoto koeficientu navrhl Alroy[55]
Jednoduchý koeficient shody
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Fossumův koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny. N je velikost vzorku.
Stileův koeficient
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A, d je počet vzorků, kde žádný typ A ani psát B jsou přítomny, n rovná se A + b + C + d a || je modul (absolutní hodnota) rozdílu.
Michaelova koeficientu
Tento koeficient je definován jako
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny.
Peirceův koeficient
V roce 1884 Charles Peirce navrhl[56] následující koeficient
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A je přítomen, ale není typu B, C je počet vzorků, kde typ B je přítomen, ale není typu A a d je počet vzorků, kde žádný typ A ani psát B jsou přítomny.
Hawkin-Dotsonův koeficient
V roce 1975 navrhli Hawkin a Dotson následující koeficient
kde A je počet vzorků, kde typy A a B jsou oba přítomni, b je kde typ A is present but not type B, C is the number of samples where type B is present but not type A a d is the sample count where neither type A nor type B jsou přítomny. N je velikost vzorku.
Benini coefficient
In 1901 Benini proposed the following coefficient
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B a C is the number of samples where type B is present but not type A. Min(b, C) is the minimum of b a C.
Gilbert coefficient
Gilbert proposed the following coefficient
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B, C is the number of samples where type B is present but not type A a d is the sample count where neither type A nor type B jsou přítomny. N je velikost vzorku.
Giniho index
The Gini index is
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B a C is the number of samples where type B is present but not type A.
Modified Gini index
The modified Gini index is
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B a C is the number of samples where type B is present but not type A.
Kuhn's index
Kuhn proposed the following coefficient in 1965
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B a C is the number of samples where type B is present but not type A. K. is a normalizing parameter. N je velikost vzorku.
This index is also known as the coefficient of arithmetic means.
Eyraud index
Eyraud proposed the following coefficient in 1936
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B, C is the number of samples where type B is present but not type A a d is the number of samples where both A a B nejsou přítomni.
Soergel distance
To je definováno jako
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B, C is the number of samples where type B is present but not type A a d is the number of samples where both A a B nejsou přítomni. N je velikost vzorku.
Tanimoto index
To je definováno jako
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B, C is the number of samples where type B is present but not type A a d is the number of samples where both A a B nejsou přítomni. N je velikost vzorku.
Piatetsky–Shapiro's index
To je definováno jako
kde A is the number of samples where types A a B are both present, b is where type A is present but not type B, C is the number of samples where type B is present but not type A.
Indices for comparison between two or more samples
Czekanowski's quantitative index
Toto je také známé jako Bray–Curtis index, Schoener's index, least common percentage index, index of affinity or proportional similarity. Souvisí to s Sørensenův index podobnosti.
kde Xi a Xj are the number of species in sites i a j respectively and the minimum is taken over the number of species in common between the two sites.
Canberra metric
The Canberra distance is a weighted version of the L1 metrický. It was introduced by introduced in 1966[57] and refined in 1967[58] by G. N. Lance and W. T. Williams. It is used to define a distance between two vectors – here two sites with K. categories within each site.
The Canberra distance d between vectors str a q v K.-dimenzionální nemovitý vektorový prostor je
kde stri a qi jsou hodnoty ith category of the two vectors.
Sorensen's coefficient of community
This is used to measure similarities between communities.
kde s1 a s2 are the number of species in community 1 and 2 respectively and C is the number of species common to both areas.
Jaccard's index
This is a measure of the similarity between two samples:
kde A is the number of data points shared between the two samples and B a C are the data points found only in the first and second samples respectively.
This index was invented in 1902 by the Swiss botanist Paul Jaccard.[59]
Under a random distribution the expected value of J je[60]
The standard error of this index with the assumption of a random distribution is
kde N is the total size of the sample.
Dice's index
This is a measure of the similarity between two samples:
kde A is the number of data points shared between the two samples and B a C are the data points found only in the first and second samples respectively.
Match coefficient
This is a measure of the similarity between two samples:
kde N is the number of data points in the two samples and B a C are the data points found only in the first and second samples respectively.
Morisita's index
Morisita’s index of dispersion ( Jám ) is the scaled probability that two points chosen at random from the whole population are in the same sample.[61] Higher values indicate a more clumped distribution.
An alternative formulation is
kde n is the total sample size, m je průměr vzorku a X are the individual values with the sum taken over the whole sample. It is also equal to
kde IMC is Lloyd's index of crowding.[62]
This index is relatively independent of the population density but is affected by the sample size.
Morisita showed that the statistic[61]
is distributed as a chi-squared variable with n - 1 stupeň volnosti.
An alternative significance test for this index has been developed for large samples.[63]
kde m is the overall sample mean, n is the number of sample units and z is the normal distribution úsečka. Significance is tested by comparing the value of z against the values of the normální distribuce.
Morisita's overlap index
Morisita's overlap index is used to compare overlap among samples.[64] The index is based on the assumption that increasing the size of the samples will increase the diversity because it will include different habitats
- Xi is the number of times species i is represented in the total X from one sample.
- yi is the number of times species i is represented in the total Y from another sample.
- DX a Dy jsou Simpsonův index values for the X a y samples respectively.
- S is the number of unique species
CD = 0 if the two samples do not overlap in terms of species, and CD = 1 if the species occur in the same proportions in both samples.
Horn's introduced a modification of the index[65]
Standardised Morisita’s index
Smith-Gill developed a statistic based on Morisita’s index which is independent of both sample size and population density and bounded by −1 and +1. This statistic is calculated as follows[66]
First determine Morisita's index ( Jád ) in the usual fashion. Pak nechte k be the number of units the population was sampled from. Calculate the two critical values
where χ2 is the chi square value for n − 1 degrees of freedom at the 97.5% and 2.5% levels of confidence.
The standardised index ( Jástr ) is then calculated from one of the formulae below
Když Jád ≥ MC > 1
Když MC > Jád ≥ 1
When 1 > Jád ≥ Mu
When 1 > Mu > Jád
Jástr ranges between +1 and −1 with 95% confidence intervals of ±0.5. Jástr has the value of 0 if the pattern is random; if the pattern is uniform, Jástr < 0 and if the pattern shows aggregation, Jástr > 0.
Peet's evenness indices
These indices are a measure of evenness between samples.[67]
kde Já is an index of diversity, Jámax a Jámin are the maximum and minimum values of Já between the samples being compared.
Loevinger's coefficient
Loevinger has suggested a coefficient H definováno takto:
kde strmax a strmin are the maximum and minimum proportions in the sample.
Tverský index
The Tversky index [68] is an asymmetric measure that lies between 0 and 1.
Pro vzorky A a B the Tversky index (S) je
Hodnoty α a β jsou libovolné. Setting both α a β to 0.5 gives Dice's coefficient. Setting both to 1 gives Tanimoto's coefficient.
A symmetrical variant of this index has also been proposed.[69]
kde
Several similar indices have been proposed.
Monostori et al. proposed the SymmetricSimilarity index[70]
kde d(X) is some measure of derived from X.
Bernstein and Zobel have proposed the S2 and S3 indexes[71]
S3 is simply twice the SymmetricSimilarity index. Both are related to Dice's coefficient
Metrics used
A number of metrics (distances between samples) have been proposed.
Euklidovská vzdálenost
While this is usually used in quantitative work it may also be used in qualitative work. To je definováno jako
kde djk je vzdálenost mezi Xij a Xik.
Gower's distance
To je definováno jako
kde di je vzdálenost mezi ith vzorky a wi is the weighing give to the ith vzdálenost.
Vzdálenost na Manhattanu
While this is more commonly used in quantitative work it may also be used in qualitative work. To je definováno jako
kde djk je vzdálenost mezi Xij a Xik a || je absolutní hodnota of the difference between Xij a Xik.
A modified version of the Manhattan distance can be used to find a zero (vykořenit ) a polynomiální ze všech stupeň použitím Lillina metoda.
Prevostiho vzdálenost
To souvisí se vzdáleností na Manhattanu. Popsal to Prevosti et al. a byl použit k porovnání rozdílů mezi chromozomy.[72] Nechat P a Q být dvě sbírky r konečné rozdělení pravděpodobnosti. Nechť tyto distribuce mají hodnoty, které jsou rozděleny na k Kategorie. Pak vzdálenost DPQ je
kde r je počet diskrétních rozdělení pravděpodobnosti v každé populaci, kj je počet kategorií v distribucích Pj a Qj a strji (příslušně) qji) je teoretická pravděpodobnost kategorie i v distribuci Pj (Qj) v populaci P(Q).
Jeho statistické vlastnosti byly zkoumány Sanchezem et al.[73] kdo doporučil zaváděcí postup pro odhad intervalů spolehlivosti při testování rozdílů mezi vzorky.
Další metriky
Nechat
kde min (X,y) je menší hodnota páru X a y.
Pak
je vzdálenost na Manhattanu,
je vzdálenost Bray-Curtis,
je vzdálenost Jaccard (nebo Ruzicka) a
je Kulczynski vzdálenost.
Podobnosti mezi texty
HaCohen-Kerner a kol. navrhli různé metriky pro porovnání dvou nebo více textů.[74]
Pořadová data
Pokud jsou kategorie alespoň pořadové číslo pak může být vypočítána řada dalších indexů.
Leikův D
Leikova míra rozptylu (D) je jeden takový index.[75] Ať tam bude K. kategorie a nechat stri být Fi/N kde Fi je číslo v ith kategorie a nechte kategorie uspořádat vzestupně. Nechat
kde A ≤ K.. Nechat dA = CA -li CA ≤ 0,5 a 1 -CA ≤ 0,5 jinak. Pak
Normalizovaná Herfindahlova míra
Jedná se o druhou mocninu variačního koeficientu dělenou N - 1 kde N je velikost vzorku.
kde m je průměr a s je směrodatná odchylka.
Index potenciálních konfliktů
Index potenciálního konfliktu (PCI) popisuje poměr bodování na obou stranách středu ratingové stupnice.[76] Tento index vyžaduje alespoň pořadová data. Tento poměr se často zobrazuje jako a bublinový graf.
PCI používá pořadovou stupnici s lichým počtem hodnotících bodů (-n do +n) se středem na 0. Vypočítá se následovně
kde Z = 2n, | · | je absolutní hodnota (modul), r+ je počet odpovědí na pozitivní straně stupnice, r− je počet odpovědí na negativní straně stupnice, X+ jsou odpovědi na pozitivní straně stupnice, X− jsou odpovědi na negativní straně stupnice a
Je známo, že s PCI existují teoretické potíže. PCI lze vypočítat pouze pro váhy s neutrálním středovým bodem a se stejným počtem možností odezvy na obou stranách. Rovnoměrné rozložení odpovědí také nemusí vždy přinést střed statistik PCI, ale spíše se liší podle počtu možných odpovědí nebo hodnot v měřítku. Například pětibodové, sedmibodové a devítibodové stupnice s jednotným rozložením odpovědí dávají PCI 0,60, 0,57 a 0,50.
První z těchto problémů je relativně malý, protože většinu řadových stupnic se sudým počtem odpovědí lze rozšířit (nebo snížit) o jednu hodnotu, čímž získáte lichý počet možných odpovědí. Pokud je to požadováno, lze měřítko obvykle upravit. Druhý problém je obtížnější vyřešit a může omezit použitelnost PCI.
PCI byl rozšířen[77]
kde K. je počet kategorií, ki je číslo v ith kategorie, dij je vzdálenost mezi ith a ith kategorie a δ je maximální vzdálenost na stupnici vynásobená počtem případů, kdy se ve vzorku může vyskytnout. Pro vzorek se sudým počtem datových bodů
a pro vzorek s lichým počtem datových bodů
kde N je počet datových bodů ve vzorku a dmax je maximální vzdálenost mezi body na stupnici.
Vaske et al. navrhnout řadu možných měr vzdálenosti pro použití s tímto indexem.[77]
pokud znaky (+ nebo -) z ri a rj lišit. Pokud jsou znaky stejné dij = 0.
kde str je libovolné reálné číslo> 0.
pokud znamení (ri ) ≠ podepsat (ri ) a str je reálné číslo> 0. Pokud jsou znaménka stejná, pak dij = 0. m je D1, D2 nebo D3.
Rozdíl mezi D1 a D2 je, že první nezahrnuje neutrály ve vzdálenosti, zatímco druhý ano. Například respondenti se skóre −2 a +1 by měli vzdálenost 2 pod D1 a 3 pod D2.
Použití síly (str) ve vzdálenostech umožňuje změnu měřítka extrémních odpovědí. Tyto rozdíly lze zvýraznit pomocí str > 1 nebo zmenšeno pomocí str < 1.
V simulacích s variacemi vycházejícími z rovnoměrného rozdělení je PCI2 má symetrické unimodální rozdělení.[77] Ocasy jeho distribuce jsou větší než konce normální distribuce.
Vaske et al. navrhnout použití a t test porovnat hodnoty PCI mezi vzorky, pokud jsou PCI přibližně normálně distribuovány.
van der Eijk je A
Toto opatření je váženým průměrem stupně shody distribuce frekvence.[78] A pohybuje se od -1 (perfektní bimodalita ) až +1 (perfektní unimodalita ). Je definován jako
kde U je unimodalita distribuce, S - počet kategorií, které mají nenulové frekvence a - K. celkový počet kategorií.
Hodnota U je 1, pokud má distribuce některou ze tří následujících charakteristik:
- všechny odpovědi jsou v jedné kategorii
- odpovědi jsou rovnoměrně rozděleny mezi všechny kategorie
- odpovědi jsou rovnoměrně rozděleny mezi dvě nebo více souvislých kategorií, přičemž ostatní kategorie mají nulové odpovědi
U jiných než těchto distribucí musí být data rozdělena do „vrstev“. Ve vrstvě jsou odpovědi buď stejné, nebo nulové. Kategorie nemusí být souvislé. Hodnota pro A pro každou vrstvu (Ai) a vypočítá se vážený průměr pro distribuci. Váhy (wi) pro každou vrstvu je počet odpovědí v dané vrstvě. V symbolech
A rovnoměrné rozdělení má A = 0: když všechny odpovědi spadají do jedné kategorie A = +1.
Jeden teoretický problém s tímto indexem je, že předpokládá, že intervaly jsou rovnoměrně rozmístěny. To může omezit jeho použitelnost.
Související statistiky
Problém s narozeninami
Pokud existují n jednotky ve vzorku a jsou náhodně rozděleny do k Kategorie (n ≤ k), lze to považovat za variantu narozeninový problém.[79] Pravděpodobnost (str) všech kategorií, které mají pouze jednu jednotku, je
Li C je velký a n je ve srovnání s k2/3 pak na dobrou aproximaci
Tato aproximace vyplývá z přesného vzorce takto:
- Odhady velikosti vzorku
Pro str = 0,5 a str = 0,05 respektive následující odhady n může být užitečné
Tuto analýzu lze rozšířit do několika kategorií. Pro str = 0,5 a str 0,05 máme příslušně
kde Ci je velikost ith kategorie. Tato analýza předpokládá, že kategorie jsou nezávislé.
Pokud jsou data objednána nějakým způsobem, pak alespoň pro jednu událost vyskytující se ve dvou kategoriích ležících uvnitř j kategorie, než je pravděpodobnost 0,5 nebo 0,05, vyžaduje velikost vzorku (n) příslušně[80]
kde k je počet kategorií.
Problém dne narozenin a smrti
Zda existuje vztah mezi narozeninami a dny smrti, byla statisticky zkoumána[81]
kde d je počet dní v roce mezi narozeninami a dnem smrti.
Randův index
The Randův index se používá k testování, zda se dva nebo více klasifikačních systémů shodují na souboru dat.[82]
Vzhledem k tomu, soubor z elementy a dva oddíly z srovnávat, , oddíl S do r podmnožiny a , oddíl S do s podmnožiny, definujte následující:
- , počet párů prvků v které jsou ve stejné podmnožině v a ve stejné podmnožině v
- , počet párů prvků v které jsou v různých podskupinách v a v různých podskupinách v
- , počet párů prvků v které jsou ve stejné podmnožině v a v různých podskupinách v
- , počet párů prvků v které jsou v různých podskupinách v a ve stejné podmnožině v
Randův index - - je definován jako
Intuitivně, lze považovat za počet dohod mezi a a jako počet neshod mezi a .
Upravený index Rand
Upravený Randův index je verze Randova indexu pro náhodnou opravu.[82][83][84] Ačkoli Randův index může poskytnout hodnotu pouze mezi 0 a +1, upravený Randův index může přinést záporné hodnoty, pokud je index nižší než očekávaný index.[85]
Kontingenční tabulka
Vzhledem k sadě z prvky a dvě seskupení nebo oddíly (např. shluky) těchto bodů, jmenovitě a , překrytí mezi a lze shrnout v kontingenční tabulce kde každý záznam označuje počet společných objektů mezi a : .
X Y | Součty | ||||
---|---|---|---|---|---|
Součty |
Definice
Upravená forma indexu Rand, upravený index Rand, je
konkrétněji
kde jsou hodnoty z kontingenční tabulky.
Jelikož jmenovatelem je celkový počet párů, Randův index představuje frekvence výskytu pravděpodobnost, že a dohodne náhodně vybraný pár.
Hodnocení indexů
Různé indexy dávají různé variační hodnoty a mohou být použity pro různé účely: některé jsou používány a kritizovány zejména v sociologické literatuře.
Pokud si někdo přeje jednoduše udělat pořadové číslo srovnání mezi vzorky (je jeden vzorek více či méně rozmanitý než jiný), výběr IQV je relativně méně důležitý, protože často dávají stejné pořadí.
Tam, kde jsou data pořadová, je metoda, která může být užitečná při porovnávání vzorků ORDANOVA.
V některých případech je užitečné nestandardizovat index tak, aby běžel od 0 do 1, bez ohledu na počet kategorií nebo vzorků (Wilcox 1973, s. 338), ale jeden to obecně standardizuje.
Viz také
- ANOSIM
- Bakerův index gama
- Kategorická data
- Index rozmanitosti
- Fowlkes – index slézů
- Goodman a Kruskal gama
- Informační entropie
- Logaritmická distribuce
- PERMANOVÁ
- Robinson – Fouldsova metrika
- Shepardův diagram
- CULIT SE
- Statistická disperze
- Variační poměr
- Whippleův index
Poznámky
- ^ K tomu může dojít pouze v případě, že počet případů je násobkem počtu kategorií.
- ^ Freemen LC (1965) Základní použité statistiky. New York: John Wiley and Sons, s. 40–43
- ^ Kendal MC, Stuart A (1958) Pokročilá teorie statistiky. Hafner Publishing Company str. 46
- ^ Mueller JE, Schuessler KP (1961) Statistické uvažování v sociologii. Boston: Houghton Mifflin Company. 177–179
- ^ Wilcox (1967), str.[stránka potřebná ].
- ^ Kaiser HF (1968) „Míra populační kvality legislativního rozdělení.“ The American Political Science Review 62 (1) 208
- ^ Joel Gombin (18. srpna 2015). "qualvar: Počáteční vydání (verze v0.1)". Zenodo. doi:10,5281 / zenodo.28341.
- ^ Gibbs & Poston Jr (1975).
- ^ Lieberson (1969), str. 851.
- ^ IQV ve společnosti xycoon
- ^ Hunter, PR; Gaston, MA (1988). "Numerický index diskriminační schopnosti typovacích systémů: aplikace Simpsonova indexu rozmanitosti". J Clin Microbiol. 26 (11): 2465–2466.
- ^ Friedman WF (1925) Výskyt náhody a její aplikace v dešifrování. Technický papír. Úřad hlavního signálního důstojníka. Vládní tisková kancelář Spojených států.
- ^ Gini CW (1912) Variabilita a proměnlivost, příspěvek ke studiu statistických distribucí a vztahů. Studi Economico-Giuricici della R. Universita de Cagliari
- ^ Simpson, EH (1949). "Měření rozmanitosti". Příroda. 163 (4148): 688. doi:10.1038 / 163688a0.
- ^ Bachi R (1956) Statistická analýza oživení hebrejštiny v Izraeli. In: Bachi R (ed) Scripta Hierosolymitana, sv. III, Jeruzalém: Magnus press pp 179–247
- ^ Mueller JH, Schuessler KF (1961) Statistické uvažování v sociologii. Boston: Houghton Mifflin
- ^ Gibbs, JP; Martin, WT (1962). „Urbanizace, technologie a dělba práce: mezinárodní vzorce“. Americký sociologický přehled. 27 (5): 667–677. doi:10.2307/2089624. JSTOR 2089624.
- ^ Lieberson (1969), str.[stránka potřebná ].
- ^ Blau P (1977) Nerovnost a heterogenita. Free Press, New York
- ^ Perry M, Kader G (2005) Variace jako nepopsatelnost. Statistiky výuky 27 (2) 58–60
- ^ Greenberg, JH (1956). "Měření jazykové rozmanitosti". Jazyk. 32 (1): 109–115. doi:10.2307/410659. JSTOR 410659.
- ^ Lautard EH (1978) disertační práce.[úplná citace nutná ]
- ^ Berger, WH; Parker, FL (1970). "Rozmanitost planktonické Foramenifera v hlubinných sedimentech". Věda. 168 (3937): 1345–1347. doi:10.1126 / science.168.3937.1345. PMID 17731043.
- ^ A b Hill, MO (1973). „Rozmanitost a rovnoměrnost: sjednocující notace a její důsledky“. Ekologie. 54 (2): 427–431. doi:10.2307/1934352. JSTOR 1934352.
- ^ Margalef R (1958) Časová posloupnost a prostorová heterogenita ve fytoplanktonu. In: Perspektivy v mořské biologii. Buzzati-Traverso (ed) Univ Calif Press, Berkeley, str. 323–347
- ^ Menhinick, EF (1964). „Srovnání indexů diverzity některých druhů a jednotlivců aplikovaných na vzorky polního hmyzu“. Ekologie. 45 (4): 859–861. doi:10.2307/1934933. JSTOR 1934933.
- ^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
- ^ Guiraud P (1954) Les caractères statistiques du vocabulaire. Presses Universitaires de France, Paříž
- ^ Panas E (2001) The Generalized Torquist: Specification and estimation of a new dictionary-text size function. J Quant Ling 8 (3) 233–252
- ^ Kempton, RA; Taylor, LR (1976). "Modely a statistiky pro druhovou rozmanitost". Příroda. 262 (5571): 818–820. doi:10.1038 / 262818a0.
- ^ Hutcheson K (1970) Test pro srovnání různorodosti na základě Shannonova vzorce. J Theo Biol 29: 151–154
- ^ Fisher RA, Corbet A, Williams CB (1943) Vztah mezi počtem druhů a počtem jedinců v náhodném vzorku populace zvířat. Zvíře Ecol 12: 42–58
- ^ Anscombe (1950) Teorie vzorkování záporných binomických a logaritmických distribucí řad. Biometrika 37: 358–382
- ^ Strong, WL (2002). "Hodnocení nerovnosti druhů v rámci a mezi rostlinnými společenstvy". Ekologie komunity. 3 (2): 237–246. doi:10.1556 / comec.3.2002.2.9.
- ^ Camargo JA (1993) Musí se v konkurenčních interakcích zvyšovat dominance s počtem podřízených druhů? J. Theor Biol 161 537–542
- ^ Smith, Wilson (1996)[úplná citace nutná ]
- ^ Bulla, L (1994). Msgstr "Index rovnoměrnosti a související míra rozmanitosti". Oikosi. 70 (1): 167–171. doi:10.2307/3545713. JSTOR 3545713.
- ^ Horn, HS (1966). "Měření" překrytí "ve srovnávacích ekologických studiích." Jsem Nat. 100 (914): 419–423. doi:10.1086/282436.
- ^ Siegel, Andrew F (2006) „Křivky vzácnosti.“ Encyklopedie statistických věd 10.1002 / 0471667196.ess2195.pub2.
- ^ Caswell H (1976) Struktura Společenství: analýza neutrálního modelu. Ecol Monogr 46: 327–354
- ^ Poulin, R; Mouillot, D (2003). "Specializace parazitů z fylogenetické perspektivy: nový index specificity hostitele". Parazitologie. 126 (5): 473–480. CiteSeerX 10.1.1.574.7432. doi:10.1017 / s0031182003002993.
- ^ Theil H (1972) Statistická analýza rozkladu. Amsterdam: Vydavatelská společnost North-Holland>
- ^ Duncan OD, Duncan B (1955) Metodická analýza indexů segregace. Am Sociol Review, 20: 210–217
- ^ Gorard S, Taylor C (2002b) Co je segregace? Srovnání opatření z hlediska „silné“ a „slabé“ kompoziční invariance. Sociologie, 36 (4), 875–895
- ^ Massey, DS; Denton, NA (1988). „Rozměry bytové segregace“. Sociální síly. 67 (2): 281–315. doi:10.1093 / sf / 67.2.281.
- ^ Hutchens RM (2004) Jedna míra segregace. International Economic Review 45: 555–578
- ^ Lieberson S (1981). "Asymetrický přístup k segregaci". In Peach C, Robinson V, Smith S (eds.). Etnická segregace ve městech. London: Croom Helm. 61–82.
- ^ Bell, W (1954). "Pravděpodobnostní model pro měření ekologické segregace". Sociální síly. 32 (4): 357–364. doi:10.2307/2574118. JSTOR 2574118.
- ^ Ochiai A (1957) Zoogeografické studie o jedincích ryb nalezených v Japonsku a jeho sousedních oblastech. Bull Jpn Soc Sci Fish 22: 526–530
- ^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences
- ^ Yule GU (1900) O přidružení atributů ve statistice. Philos Trans Roy Soc
- ^ Lienert GA a Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418
- ^ Baroni-Urbani, C; Buser, MW (1976). msgstr "podobnost binárních dat". Systematická biologie. 25 (3): 251–259. doi:10.2307/2412493. JSTOR 2412493.
- ^ Forbes SA (1907) O místní distribuci určitých ryb v Illinois: esej ve statistické ekologii. Bulletin Illinois State Laboratory of Natural History 7: 272–303
- ^ Alroy J (2015) Nový obrat ve velmi starém binárním koeficientu podobnosti. Ekologie 96 (2) 575-586
- ^ Carl R. Hausman a Douglas R. Anderson (2012). Konverzace na Peirce: Skutečnosti a ideály. Fordham University Press. str. 221. ISBN 9780823234677.
- ^ Lance, G. N .; Williams, W. T. (1966). "Počítačové programy pro hierarchickou klasifikaci syntetických látek (" analýza podobnosti ")" ". Počítačový deník. 9 (1): 60–64. doi:10.1093 / comjnl / 9.1.60.
- ^ Lance, G. N .; Williams, W. T. (1967). "Programy klasifikace smíšených dat I.) Aglomerativní systémy". Australský počítačový deník: 15–20.
- ^ Jaccard P (1902) Lois de distribution florale. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130
- ^ Archer AW a Maples CG (1989) Odezva vybraných binomických koeficientů na různé stupně řídkosti matice a na matice se známými datovými vzájemnými vztahy. Mathematical Geology 21: 741–753
- ^ A b Morisita M (1959) Měření disperze a analýza distribučních vzorců. Monografie Přírodovědecké fakulty série Kyushu University E. Biol 2: 215–235
- ^ Lloyd M (1967) Střední shlukování. J Anim Ecol 36: 1–30
- ^ Pedigo LP & Buntin GD (1994) Handbook of sampling methods for arthropods in zemědělství. CRC Boca Raton FL
- ^ Morisita M (1959) Měření disperze a analýza distribučních vzorců. Monografie Přírodovědecké fakulty Univerzity Kyushu, řada E Biology. 2: 215–235
- ^ Horn, HS (1966). "Měření" překrytí "ve srovnávacích ekologických studiích. Americký přírodovědec. 100 (914): 419–424. doi:10.1086/282436.
- ^ Smith-Gill SJ (1975). „Cytofyziologický základ rušivých pigmentových vzorů u leopardí žáby Rana pipiens. II. Specifické vzory divokého typu a mutantní buňky ". J Morphol. 146: 35–54.
- ^ Peet (1974) Měření druhové rozmanitosti. Annu Rev Ecol Syst 5: 285–307
- ^ Tversky, Amos (1977). „Vlastnosti podobnosti“ (PDF). Psychologický přehled. 84 (4): 327–352. doi:10.1037 / 0033-295x.84.4.327.
- ^ Jimenez S, Becerra C, Gelbukh A SOFTCARDINALITY-CORE: Zlepšení překrývání textu s distribučními opatřeními pro sémantickou podobnost textu. Druhá společná konference o lexikální a výpočetní sémantice (* SEM), svazek 1: Sborník z hlavní konference a sdíleného úkolu: sémantická textová podobnost, s. 194-201. 7. – 8. Června 2013, Atlanta, Georgia, USA
- ^ Monostori K, Finkel R, Zaslavsky A, Hodasz G a Patke M (2002) Porovnání technik detekce překrytí. In: Proceedings of the 2002 International Conference on Computational Science. Přednášky v informatice 2329: 51-60
- ^ Bernstein Y a Zobel J (2004) Škálovatelný systém pro identifikaci ko-derivátových dokumentů. In: Proceedings of 11th International Conference on String Processing and Information Retrieval (SPIRE) 3246: 55-67
- ^ Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). "Kolonizace Ameriky Drosophila subobscura: experiment v přírodních populacích, který podporuje adaptivní roli polymorfismu inverze chromozomů ". Proc Natl Acad Sci USA. 85 (15): 5597–5600. doi:10.1073 / pnas.85.15.5597. PMC 281806. PMID 16593967.
- ^ Sanchez, A; Ocana, J; Utzetb, F; Serrac, L (2003). "Porovnání genetických vzdáleností Prevosti". Journal of Statistical Planning and Inference. 109 (1–2): 43–65. doi:10.1016 / s0378-3758 (02) 00297-5.
- ^ HaCohen-Kerner Y, Tayeb A a Ben-Dror N (2010) Detection of simple plagiarism in computer science papers. In: Proceedings of the 23.rd International Conference on Computational Linguistics pp 421-429
- ^ Leik R (1966) Míra řadového konsensu. Tichomořský sociologický přehled 9 (2): 85–90
- ^ Manfredo M, Vaske, JJ, Teel TL (2003) Potenciál indexu konfliktů: Grafický přístup k praktickému významu výzkumu lidských dimenzí. Lidské dimenze divoké zvěře 8: 219–228
- ^ A b C Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Rozšíření a další ověření potenciálu indexu konfliktů. Leisure Sciences 32: 240–254
- ^ Van der Eijk C (2001) Měřící dohoda v uspořádaných hodnotících stupnicích. Kvalita a množství 35 (3): 325–341
- ^ Von Mises R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de de I'Universite d'lstanbul NS 4: 145−163
- ^ Sevast'yanov BA (1972) Poissonův limitní zákon pro schéma součtů závislých náhodných proměnných. (trans. S. M. Rudolfer) Theory of probability and its applications, 17: 695−699
- ^ Hoaglin DC, Mosteller, F a Tukey, JW (1985) Zkoumání datových tabulek, trendů a tvarů, New York: John Wiley
- ^ A b W. M. Rand (1971). Msgstr "Objektivní kritéria pro hodnocení metod shlukování". Journal of the American Statistical Association. 66 (336): 846–850. arXiv:1704.01036. doi:10.2307/2284239. JSTOR 2284239.
- ^ Lawrence Hubert a Phipps Arabie (1985). Msgstr "Porovnávám oddíly". Journal of Classification. 2 (1): 193–218. doi:10.1007 / BF01908075.
- ^ Nguyen Xuan Vinh, Julien Epps a James Bailey (2009). „Informační teoretická opatření pro srovnávání klastrů: Je nutná oprava pro šanci?“ (PDF). ICML '09: Proceedings of the 26.th Annual International Conference on Machine Learning. ACM. 1073–1080. Archivovány od originál (PDF) dne 25. března 2012.PDF.
- ^ Wagner, Silke; Wagner, Dorothea (12. ledna 2007). „Porovnání klastrů - přehled“ (PDF). Citováno 14. února 2018.
Reference
- Gibbs, Jack P .; Poston Jr, Dudley L. (březen 1975), „Dělba práce: Konceptualizace a související opatření“, Sociální síly, 53 (3): 468–476, CiteSeerX 10.1.1.1028.4969, doi:10.2307/2576589, JSTOR 2576589
- Lieberson, Stanley (prosinec 1969), „Měření populační rozmanitosti“, Americký sociologický přehled, 34 (6): 850–862, doi:10.2307/2095977, JSTOR 2095977
- Swanson, David A. (září 1976), „Rozdělení vzorkování a test významnosti rozdílů v kvalitativních variacích“, Sociální síly, 55 (1): 182–184, doi:10.2307/2577102, JSTOR 2577102
- Wilcox, Allen R. (říjen 1967). Indexy kvalitativní variace (PDF) (Zpráva). Archivovány od originál (PDF) dne 15. 8. 2007.
- Wilcox, Allen R. (červen 1973). „Indexy kvalitativní variace a politického měření“. Západní politický čtvrtletník. 26 (2): 325–343. doi:10.2307/446831. JSTOR 446831.