Přístup k hodnocení shody - Match rating approach - Wikipedia
tento článek poskytuje nedostatečný kontext osobám, které toto téma neznají.Říjen 2009) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The přístup k hodnocení shody (MRA) je a fonetický algoritmus vyvinutý uživatelem Western Airlines v roce 1977 pro indexaci a srovnání homofonní jména.[1]
Samotný algoritmus má jednoduchou sadu pravidel kódování, ale zdlouhavější sadu pravidel porovnávání. Hlavním mechanismem je srovnání podobnosti, které vypočítává počet nesrovnatelných znaků porovnáním řetězců zleva doprava a poté zprava doleva a odstranění stejných znaků. Tato hodnota se odečte od 6 a poté se porovná s minimální prahovou hodnotou. Minimální prahová hodnota je definována v tabulce A a je závislá na délce řetězců.
Zakódované jméno je známé (možná nesprávně) jako osobní číselný identifikátor (PNI). Zakódovaný název nesmí nikdy obsahovat více než 6 alfa pouze znaků.
Přístup k hodnocení shody funguje dobře u jmen obsahujících písmeno "y", na rozdíl od původní chuti NYSIIS algoritmus; například příjmení „Smith“ a „Smyth“ se úspěšně shodují. MRA však nefunguje dobře s kódovanými názvy, které se liší délkou o více než 2.
Pravidla kódování
- Odstraňte všechny samohlásky, pokud samohláska nezačne slovo
- Odstraňte druhou souhlásku ze všech přítomných dvojitých souhlásek
- Snižte kodex na 6 písmen spojením pouze prvních 3 a posledních 3 písmen
Pravidla srovnání
V této části slova „řetězec (y)“ a „jméno (jména)“ znamenají „kódovaný řetězec (y)“ a „kódovaný název (y)“.
- Pokud je rozdíl délek mezi kódovanými řetězci 3 nebo větší, neprovede se žádné srovnání podobnosti.
- Získejte minimální hodnotu hodnocení výpočtem součtu délek kódovaných řetězců a pomocí tabulky A.
- Zpracujte kódované řetězce zleva doprava a odstraňte všechny identické znaky nalezené v obou řetězcích.
- Zpracujte nepřizpůsobené znaky zprava doleva a odstraňte všechny identické znaky nalezené u obou jmen.
- Odečtěte počet nepřizpůsobených znaků od 6 v delším řetězci. Toto je hodnocení podobnosti.
- Pokud je hodnocení podobnosti stejné nebo větší než minimální hodnocení, pak je shoda považována za dobrou.
Minimální práh
Následující tabulka ukazuje mapování mezi minimálním hodnocením a délkou řetězce.
Součet délek | Minimální hodnocení |
---|---|
≤ 4 | 5 |
4 4 | |
7 3 | |
= 12 | 2 |
Příklady přístupu k hodnocení shody
Tabulka níže zobrazuje výstup algoritmu přístupu k hodnocení shody pro některá běžná homofonní jména.
název | Kodex MRA | Minimální hodnocení | Hodnocení srovnání podobnosti |
---|---|---|---|
Byrne | BYRN | 4 | 5 |
Boern | BRN | ||
Kovář | SMTH | 3 | 5 |
Smyth | SMYTH | ||
Kateřina | CTHRN | 3 | 4 |
Kathryn | KTHRYN |
Viz také
Reference
- ^ Moore, GB; Kuhns, J.L .; Treffzs, J.L .; Montgomery, C A. (1. února 1977). Přístup k jednotlivým záznamům ze souborů osobních údajů pomocí jedinečných identifikátorů. US National Institute of Standards and Technology. str. 17. NIST SP - 500-2. Shrnutí ležel.