Řetězcová metrika - String metric
v matematika a počítačová věda, a řetězec metrický (také známý jako metrika podobnosti řetězce nebo funkce vzdálenosti řetězce) je metrický to měří vzdálenost („inverzní podobnost“) mezi dvěma textové řetězce pro přibližná shoda řetězců nebo srovnání a v fuzzy vyhledávání řetězců. Požadavek na řetězec metrický (např. na rozdíl od shoda řetězce ) je naplněním nerovnost trojúhelníku. Například řetězce „Sam“ a „Samuel“ lze považovat za blízké.[1] Řetězcová metrika poskytuje číslo označující indikaci vzdálenosti specifické pro algoritmus.
Nejznámější metrikou řetězce je elementární metrika, která se nazývá Levenshteinova vzdálenost (také známý jako upravit vzdálenost).[2] Funguje mezi dvěma vstupními řetězci a vrací číslo ekvivalentní počtu substitucí a delecí potřebných k transformaci jednoho vstupního řetězce na jiný. Zjednodušené metriky řetězce, jako je Levenshteinova vzdálenost rozšířili o fonetické, žeton, gramatické a znakové metody statistických srovnání.
Řetězcové metriky jsou hojně používány v informační integrace a v současné době se používají v oblastech včetně detekce podvodů, analýza otisků prstů, detekce plagiátů, sloučení ontologie, Analýza DNA, Analýza RNA, analýza obrazu na základě důkazů strojové učení, databáze deduplikace dat, dolování dat, přírůstkové vyhledávání, integrace dat a sémantické znalostní integrace.
Seznam metrik řetězců
- Levenshteinova vzdálenost, nebo jeho zobecnění upravit vzdálenost
- Vzdálenost Damerau – Levenshtein
- Sørensen – koeficient kostky
- Bloková vzdálenost nebo L1 vzdálenost nebo Vzdálenost městského bloku
- Hammingova vzdálenost
- Vzdálenost Jaro – Winkler
- Jednoduchý koeficient shody (SMC)
- Jaccardova podobnost nebo Jaccardův koeficient nebo Koeficient Tanimoto
- Tverský index
- Koeficient překrytí
- Variační vzdálenost
- Hellingerova vzdálenost nebo Bhattacharyya vzdálenost
- Informační rádius (Jensen – Shannonova divergence )
- Šikmá divergence
- Pravděpodobnost záměny
- Tau metrický, aproximace Kullback – Leiblerova divergence
- Fellegi a Sunters metrické (SFS)
- Maximální počet zápasů
- Gramatická vzdálenost
- TFIDF vzdálenost metrická[3]
Vybrané příklady měřících řetězců
název | Příklad |
---|---|
Hammingova vzdálenost | "karolv" a "kathrv"je 3. |
Levenshteinova vzdálenost a Vzdálenost Damerau – Levenshtein | kittEn a sittinG mít vzdálenost 3.
|
Vzdálenost Jaro – Winkler | JaroWinklerDist ("MARTHA", "MARHTA") =
|
Nejčastější k znaky | MostFreqKeySimilarity ('rEsEArch ',' seeking ', 2) = 2 |
Reference
- ^ Lu, Jiaheng; et al. (2013). „Měření podobnosti řetězců a spojení se synonymy“. Sborník mezinárodní konference ACM SIGMOD o správě dat z roku 2013: 373–384. doi:10.1145/2463676.2465313. ISBN 9781450320375.
- ^ Navarro, Gonzalo (2001). Msgstr "Prohlídka s cílem přiblížit shodu řetězců". ACM Computing Surveys. 33 (1): 31–88. doi:10.1145/375360.375365.
- ^ Cohen, William; Ravikumar, Pradeep; Fienberg, Stephen (01.08.2003). „Srovnání metrik vzdálenosti řetězce pro úkoly přiřazování jmen“: 73–78. Citovat deník vyžaduje
| deník =
(Pomoc)
externí odkazy
- https://web.archive.org/web/20070304092115/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#qgram Poměrně úplný přehled Index archivu na Wayback Machine
- Knihovna open source univerzity Carnegie Mellon University
- StringMetric projekt A Scala knihovna řetězcových metrik a fonetických algoritmů
- Přírodní projekt A JavaScript knihovna pro zpracování přirozeného jazyka, která zahrnuje implementace populárních metrik řetězců