Vzdálenost Jaro – Winkler - Jaro–Winkler distance
v počítačová věda a statistika, Vzdálenost Jaro – Winkler je řetězec metrický měření an upravit vzdálenost mezi dvěma sekvencemi. Jedná se o variantu, kterou v roce 1990 navrhl William E. Winkler z Jaro vzdálenost metrický (1989, Matthew A. Jaro ).
Vzdálenost Jaro – Winkler používá a předpona měřítko což dává příznivější hodnocení řetězcům, které se shodují od začátku s nastavenou délkou předpony .
Čím nižší je vzdálenost Jaro – Winkler pro dva řetězce, tím více jsou řetězce podobné. Skóre je normalizováno tak, že 0 znamená přesnou shodu a 1 znamená, že neexistuje podobnost. The Jaro – Winklerova podobnost je inverze (1 - vzdálenost Jaro – Winkler).
Ačkoli se často označuje jako a vzdálenost metrická, vzdálenost Jaro – Winkler není a metrický v matematickém smyslu tohoto pojmu, protože se neřídí nerovnost trojúhelníku.
Definice
Jaro Podobnost
Jaro podobnost dvou daných řetězců a je
Kde:
- je délka řetězce ;
- je počet odpovídající znaky (viz. níže);
- je poloviční počet transpozice (viz. níže).
Dvě postavy z a jsou respektovány vhodný pouze pokud jsou stejné a ne dále než znaky od sebe.
Každá postava je porovnáván se všemi odpovídajícími znaky v . Počet shodných (ale odlišných pořadí sekvencí) znaků děleno 2 definuje počet transpoziceNapříklad při porovnávání CRATE s TRACE jsou odpovídající znaky pouze „R“ „A“ „E“, tj. M = 3. Ačkoli se „C“, „T“ objevují v obou řetězcích, jsou od sebe dále než 1 (výsledek ). Proto t = 0. V DwAyNE versus DuANE jsou shodná písmena již ve stejném pořadí D-A-N-E, takže nejsou nutné žádné transpozice.
Podobnost Jaro – Winkler
Podobnost Jaro – Winkler používá a předpona měřítko což dává příznivější hodnocení řetězcům, které se shodují od začátku s nastavenou délkou předpony . Vzhledem k tomu, dva řetězce a , jejich podoba Jaro – Winkler je:
kde:
- je Jarova podobnost pro řetězce a
- je délka běžné předpony na začátku řetězce, maximálně 4 znaky
- je konstanta měřítko o kolik je skóre upraveno směrem nahoru, protože má společné předpony. by neměla přesáhnout 0,25 (tj. 1/4, přičemž 4 je maximální uvažovaná délka předpony), jinak by podobnost mohla být větší než 1. Standardní hodnota této konstanty ve Winklerově díle je
Vzdálenost Jaro-Winkler je definován jako .
Ačkoli se často označuje jako a vzdálenost metrická, vzdálenost Jaro – Winkler není a metrický v matematickém smyslu tohoto pojmu, protože se neřídí nerovnost trojúhelníku.[1] Vzdálenost Jaro-Winkler také nesplňuje axiom identity .
Vztah k dalším úpravám metrik vzdálenosti
Existují i další populární opatření upravit vzdálenost, které se počítají pomocí jiné sady povolených editačních operací. Například,
- the Levenshteinova vzdálenost umožňuje odstranění, vložení a nahrazení;
- the Vzdálenost Damerau – Levenshtein umožňuje vkládání, mazání, nahrazování a transpozice dvou sousedních znaků;
- the nejdelší společná posloupnost (LCS) vzdálenost umožňuje pouze vkládání a mazání, nikoli substituci;
- the Hammingova vzdálenost umožňuje pouze substituci, proto se vztahuje pouze na řetězce stejné délky.
Upravit vzdálenost je obvykle definována jako parametrizovatelná metrika počítaná se specifickou sadou povolených editačních operací a každé operaci je přiřazena cena (možná nekonečná). To je dále generalizováno DNA zarovnání sekvence algoritmy jako např Smith – Watermanův algoritmus, díky nimž náklady na operaci závisí na tom, kde se použije.
Viz také
Poznámky pod čarou
- ^ „Jaro-Winkler« Pozvat Zjevení Páně “. RichardMinerich.com. Citováno 12. června 2017.
Reference
- Cohen, W. W .; Ravikumar, P .; Fienberg, S.E. (2003). „Srovnání metrik vzdálenosti řetězce pro úkoly shodující se s názvy“ (PDF). Workshop KDD o čištění dat a konsolidaci objektů. 3: 73–8.
- Jaro, M. A. (1989). „Pokroky v metodice rekordních vazeb, jak byly použity při sčítání lidu z Tampy na Floridě v roce 1985“. Journal of the American Statistical Association. 84 (406): 414–20. doi:10.1080/01621459.1989.10478785.
- Jaro, M. A. (1995). Msgstr "Pravděpodobné propojení velkého datového souboru veřejného zdraví". Statistika v medicíně. 14 (5–7): 491–8. doi:10.1002 / sim.4780140510. PMID 7792443.
- Winkler, W. E. (1990). „Metriky komparátoru řetězců a vylepšená pravidla rozhodování v modelu Fellegi-Sunter modelu propojení záznamů“ (PDF). Sborník části věnované metodám průzkumného výzkumu. Americká statistická asociace: 354–359.
- Winkler, W. E. (2006). „Přehled propojení záznamů a aktuální směry výzkumu“ (PDF). Řada výzkumných zpráv, RRS.