Sørensen – koeficient kostky - Sørensen–Dice coefficient
The Sørensen – koeficient kostky (další jména viz níže) je a statistický slouží k měření podobnosti dvou Vzorky. To bylo nezávisle vyvinuto botanici Thorvald Sørensen[1] a Lee Raymond kostky,[2] který publikoval v roce 1948, respektive 1945.
název
Index je znám pod několika dalšími jmény, zejména Sørensen – index kostek,[3] Sørensenův index a Koeficient kostek. Mezi další varianty patří „koeficient podobnosti“ nebo „index“, například Koeficient podobnosti kostek (DSC). Běžná alternativní hláskování pro Sørensen jsou Sorenson, Soerenson a Sörensona všechny tři lze také vidět pomocí –Sen konec.
Jiná jména zahrnují:
- Skóre F1
- Czekanowski binární (nekvantitativní) index[4]
- Míra genetické podobnosti[5]
- Index podobnosti Zijdenbos,[6][7] s odkazem na dokument z roku 1994 od Zijdenbos et al.[8][3]
Vzorec
Původní Sørensenův vzorec měl být použit na diskrétní data. Vzhledem k tomu, dvě sady, X a Y, je definována jako
kde |X| a |Y| jsou kardinality ze dvou sad (tj. počet prvků v každé sadě). Sørensenův index se rovná dvojnásobku počtu prvků společných pro obě sady děleno součtem počtu prvků v každé sadě.
Při použití na booleovská data lze definici true positive (TP), false positive (FP) a false positive (FN) zapsat jako
- .
Liší se od Jaccardův index který počítá opravdová pozitiva pouze jednou v čitateli i jmenovateli. DSC je podíl podobnosti a pohybuje se mezi 0 a 1.[9] Lze jej zobrazit jako a opatření podobnosti přes sady.
Podobně jako Jaccardův index, množinové operace lze vyjádřit pomocí vektorových operací nad binárními vektory A a b:
který dává stejný výsledek přes binární vektory a také dává obecnější metriku podobnosti nad vektory obecně.
Pro sady X a Y klíčových slov použitých v vyhledávání informací, lze koeficient definovat jako dvojnásobek sdílené informace (průsečíku) nad součtem kardinálností:[10]
Když se bere jako tětiva míra podobnosti, koeficient lze vypočítat pro dva řetězce, X a y použitím bigrams jak následuje:[11]
kde nt je počet bigramů znaků nalezených v obou řetězcích, nX je počet bigramů v řetězci X a ny je počet bigramů v řetězci y. Například pro výpočet podobnosti mezi:
noc
nacht
V každém slově bychom našli sadu bigramů:
- {
ni
,ig
,gh
,ht
} - {
na
,ac
,ch
,ht
}
Každá sada má čtyři prvky a průsečík těchto dvou sad má pouze jeden prvek: ht
.
Vložením těchto čísel do vzorce vypočítáme, s = (2 · 1) / (4 + 4) = 0.25.
Rozdíl od Jaccard
Tento koeficient se od formy příliš neliší Jaccardův index. Ve skutečnosti jsou oba ekvivalentní v tom smyslu, že dostali hodnotu pro koeficient Sørensen – Dice , lze vypočítat příslušnou hodnotu indexu Jaccard a naopak, pomocí rovnic a .
Protože koeficient Sørensen – Dice nesplňuje nerovnost trojúhelníku, lze jej považovat za semimetrický verze indexu Jaccard.[4]
Funkce se pohybuje mezi nulou a jednou, jako je Jaccard. Na rozdíl od Jaccard, odpovídající funkce rozdílu
není správná metrika vzdálenosti, protože nevyhovuje nerovnost trojúhelníku.[4] Nejjednodušší protiklad tohoto příkladu je dán třemi množinami {a}, {b} a {a, b}, přičemž vzdálenost mezi prvními dvěma je 1 a rozdíl mezi třetí a každou z ostatních je jedna třetina . K uspokojení nerovnosti trojúhelníku je součet žádný dvě z těchto tří stran musí být větší nebo rovné zbývající straně. Vzdálenost mezi {a} a {a, b} plus vzdálenost mezi {b} a {a, b} se však rovná 2/3, a proto je menší než vzdálenost mezi {a} a {b}, která je 1.
Aplikace
Koeficient Sørensen – Dice je užitečný pro data ekologické komunity (např. Looman & Campbell, 1960[12]). Odůvodnění jeho použití je primárně spíše empirické než teoretické (i když ho lze teoreticky ospravedlnit jako průsečík dvou) fuzzy množiny[13]). Ve srovnání s Euklidovská vzdálenost, Sørensenova vzdálenost si zachovává citlivost ve více heterogenních souborech dat a dává menší váhu odlehlým hodnotám.[14] Nedávno se skóre v kostkách (a jeho variace, např. LogDice s logaritmem) staly populární v počítači lexikografie pro měření lexikálního asociačního skóre dvou daných slov.[15] To je také běžně používané v segmentace obrazu, zejména pro porovnání výstupu algoritmu s referenčními maskami v lékařských aplikacích.[8]
Verze hojnosti
Výraz lze snadno rozšířit na hojnost místo přítomnosti / nepřítomnosti druhů. Tato kvantitativní verze je známá pod několika jmény:
- Kvantitativní index Sørensen – kostky[4]
- Kvantitativní Sørensenův index[4]
- Kvantitativní kostkový index[4]
- Bray – Curtisova podobnost (1 minus Bray-Curtisova odlišnost)[4]
- Czekanowski kvantitativní index[4]
- Steinhausův index[4]
- Pielou procentní podobnost[4]
- 1 minus Hellingerova vzdálenost[16]
Viz také
- Korelace
- Skóre F1
- Jaccardův index
- Hammingova vzdálenost
- Krbový test
- Morisitův index překrytí
- Nejčastější k znaky
- Koeficient překrytí
- Renkonenův index podobnosti (kvůli Olavi Renkonen )
- Tverský index
- Teorie univerzální adaptivní strategie (UAST)
Reference
- ^ Sørensen, T. (1948). „Metoda stanovení skupin stejné amplitudy v sociologii rostlin založená na podobnosti druhů a její aplikace na analýzy vegetace na dánských společenstvech“. Kongelige Danske Videnskabernes Selskab. 5 (4): 1–34.
- ^ Dice, Lee R. (1945). „Míra množství ekologické asociace mezi druhy“. Ekologie. 26 (3): 297–302. doi:10.2307/1932409. JSTOR 1932409.
- ^ A b Carass, A .; Roy, S .; Gherman, A .; Reinhold, J.C .; Jesson, A .; et al. (2020). „Hodnocení segmentací lézí bílé hmoty pomocí rafinované analýzy Sørensen-Dice“. Vědecké zprávy. 10 (1): 8242. Bibcode:2020NatSR..10.8242C. doi:10.1038 / s41598-020-64803-w. ISSN 2045-2322. PMC 7237671. PMID 32427874.CS1 maint: ref = harv (odkaz)
- ^ A b C d E F G h i j Gallagher, E.D., 1999. Dokumentace COMPAH, University of Massachusetts, Boston
- ^ Nei, M .; Li, W.H. (1979). „Matematický model pro studium genetických variací z hlediska restrikčních endonukleáz“. PNAS. 76 (10): 5269–5273. Bibcode:1979PNAS ... 76,5269N. doi:10.1073 / pnas.76.10.5269. PMC 413122. PMID 291943.
- ^ Prescott, J.W .; Pennell, M .; Best, T.M .; Swanson, M.S .; Haq, F .; Jackson, R .; Gurcan, M.N. (2009). Automatizovaná metoda segmentace femuru pro výzkum osteoartrózy. IEEE. doi:10.1109 / iembs.2009.5333257. PMC 2826829.CS1 maint: ref = harv (odkaz)
- ^ Swanson, M.S .; Prescott, J.W .; Best, T.M .; Powell, K .; Jackson, R.D .; Haq, F .; Gurcan, M.N. (2010). „Poloautomatická segmentace k posouzení laterálního menisku u normálních a osteoartritických kolen“. Osteoartróza a chrupavka. 18 (3): 344–353. doi:10.1016 / j.joca.2009.10.004. ISSN 1063-4584. PMC 2826568. PMID 19857510.CS1 maint: ref = harv (odkaz)
- ^ A b Zijdenbos, A.P .; Dawant, B.M .; Margolin, R.A .; Palmer, A.C. (1994). "Morfometrická analýza lézí bílé hmoty v MR obrazech: metoda a validace". Transakce IEEE na lékařském zobrazování. 13 (4): 716–724. doi:10.1109/42.363096. ISSN 0278-0062. PMID 18218550.CS1 maint: ref = harv (odkaz)
- ^ http://www.sekj.org/PDF/anbf40/anbf40-415.pdf
- ^ van Rijsbergen, Cornelis Joost (1979). Načítání informací. London: Butterworths. ISBN 3-642-12274-4.
- ^ Kondrak, Grzegorz; Marcu, Daniel; Rytíř, Kevin (2003). "Cognates může zlepšit statistické modely překladu" (PDF). Sborník z HLT-NAACL 2003: Konference o technologii lidského jazyka severoamerické kapitoly Asociace pro počítačovou lingvistiku. str. 46–48.
- ^ Looman, J .; Campbell, J. B. (1960). „Adaptace Sorensenova K (1948) pro odhad jednotkové afinity v prérijní vegetaci“. Ekologie. 41 (3): 409–416. doi:10.2307/1933315. JSTOR 1933315.
- ^ Roberts, D.W. (1986). "Vysvěcení na základě teorie fuzzy množin". Vegetatio. 66 (3): 123–131. doi:10.1007 / BF00039905. S2CID 12573576.
- ^ McCune, Bruce & Grace, James (2002) Analýza ekologických společenství. Softwarový design Mjm; ISBN 0-9721290-0-6.
- ^ Rychlý, P. (2008) Skóre asociace přátelské k lexikografům. Sborník druhého semináře o posledních pokrokech ve slovanském zpracování přirozeného jazyka RASLAN 2008: 6–9
- ^ Bray, J. Roger; Curtis, J. T. (1957). „Vysvěcení společenství horských lesů v jižním Wisconsinu“. Ekologické monografie. 27 (4): 326–349. doi:10.2307/1942268. JSTOR 1942268.