Vzdálenost Jaro – Winkler - Jaro–Winkler distance

v počítačová věda a statistika, Vzdálenost Jaro – Winkler je řetězec metrický měření an upravit vzdálenost mezi dvěma sekvencemi. Jedná se o variantu, kterou v roce 1990 navrhl William E. Winkler z Jaro vzdálenost metrický (1989, Matthew A. Jaro ).

Vzdálenost Jaro – Winkler používá a předpona měřítko což dává příznivější hodnocení řetězcům, které se shodují od začátku s nastavenou délkou předpony .

Čím nižší je vzdálenost Jaro – Winkler pro dva řetězce, tím více jsou řetězce podobné. Skóre je normalizováno tak, že 0 znamená přesnou shodu a 1 znamená, že neexistuje podobnost. The Jaro – Winklerova podobnost je inverze (1 - vzdálenost Jaro – Winkler).

Ačkoli se často označuje jako a vzdálenost metrická, vzdálenost Jaro – Winkler není a metrický v matematickém smyslu tohoto pojmu, protože se neřídí nerovnost trojúhelníku.

Definice

Jaro Podobnost

Jaro podobnost dvou daných řetězců a je

Kde:

  • je délka řetězce ;
  • je počet odpovídající znaky (viz. níže);
  • je poloviční počet transpozice (viz. níže).

Dvě postavy z a jsou respektovány vhodný pouze pokud jsou stejné a ne dále než znaky od sebe.

Každá postava je porovnáván se všemi odpovídajícími znaky v . Počet shodných (ale odlišných pořadí sekvencí) znaků děleno 2 definuje počet transpoziceNapříklad při porovnávání CRATE s TRACE jsou odpovídající znaky pouze „R“ „A“ „E“, tj. M = 3. Ačkoli se „C“, „T“ objevují v obou řetězcích, jsou od sebe dále než 1 (výsledek ). Proto t = 0. V DwAyNE versus DuANE jsou shodná písmena již ve stejném pořadí D-A-N-E, takže nejsou nutné žádné transpozice.

Podobnost Jaro – Winkler

Podobnost Jaro – Winkler používá a předpona měřítko což dává příznivější hodnocení řetězcům, které se shodují od začátku s nastavenou délkou předpony . Vzhledem k tomu, dva řetězce a , jejich podoba Jaro – Winkler je:

kde:

  • je Jarova podobnost pro řetězce a
  • je délka běžné předpony na začátku řetězce, maximálně 4 znaky
  • je konstanta měřítko o kolik je skóre upraveno směrem nahoru, protože má společné předpony. by neměla přesáhnout 0,25 (tj. 1/4, přičemž 4 je maximální uvažovaná délka předpony), jinak by podobnost mohla být větší než 1. Standardní hodnota této konstanty ve Winklerově díle je

Vzdálenost Jaro-Winkler je definován jako .

Ačkoli se často označuje jako a vzdálenost metrická, vzdálenost Jaro – Winkler není a metrický v matematickém smyslu tohoto pojmu, protože se neřídí nerovnost trojúhelníku.[1] Vzdálenost Jaro-Winkler také nesplňuje axiom identity .

Vztah k dalším úpravám metrik vzdálenosti

Existují i ​​další populární opatření upravit vzdálenost, které se počítají pomocí jiné sady povolených editačních operací. Například,

Upravit vzdálenost je obvykle definována jako parametrizovatelná metrika počítaná se specifickou sadou povolených editačních operací a každé operaci je přiřazena cena (možná nekonečná). To je dále generalizováno DNA zarovnání sekvence algoritmy jako např Smith – Watermanův algoritmus, díky nimž náklady na operaci závisí na tom, kde se použije.

Viz také

Poznámky pod čarou

  1. ^ „Jaro-Winkler« Pozvat Zjevení Páně “. RichardMinerich.com. Citováno 12. června 2017.

Reference

externí odkazy