Kolínská fonetika - Cologne phonetics
Třída | Fonetický algoritmus |
---|---|
Nejhorší případ výkon | NA) |
Nejlepší případ výkon | NA) |
Průměrný výkon | NA) |
Nejhorší případ složitost prostoru | NA) |
Kolínská fonetika (také Kölner Phonetik, kolínský proces) je a fonetický algoritmus který přiřadí slovům posloupnost číslic, fonetický kód. Cílem tohoto postupu je, aby identicky znějící slova měla přiřazený stejný kód. Algoritmus lze použít k provedení hledání podobnosti mezi slovy. Například je možné v seznamu jmen najít položky jako „Meier“ pod různým hláskováním, například „Maier“, „Mayer“ nebo „Mayr“. Kolínská fonetika souvisí s dobře známým Soundex fonetický algoritmus, ale je optimalizován tak, aby odpovídal německému jazyku. Algoritmus publikoval v roce 1969 Hans Joachim Postel.
Metoda
Kolínská fonetika spojuje každé písmeno slova s číslicí mezi „0“ a „8“. Pro výběr příslušné číslice se jako kontext použije maximálně jedno sousední písmeno. Některá pravidla platí konkrétně pro iniciály slov. Tímto způsobem se předpokládá, že podobným zvukům bude přiřazen stejný kód. Například písmena „W“ a „V“ jsou kódována číslem „3“. Fonetický kód pro „Wikipedia“ je „3412“ (W = 3, K = 4, P = 1 a D = 2). Na rozdíl od kódu Soundex není délka kódů z kolínské fonetické metody omezena.
Postup
Dopis | Kontext | Kód |
---|---|---|
A, E, I, J, O, U, Y | 0 | |
H | - | |
B | 1 | |
P | ne dříve H | |
D, T | ne dříve C, S, Z | 2 |
F, V, W | 3 | |
P | před H | |
G, K, Q | 4 | |
C | v počátečním zvuku před A, H, K, L, O, Q, R, U, X | |
před A, H, K, O, Q, U, X kromě po S, Z | ||
X | ne po C, K, Q | 48 |
L | 5 | |
M, N | 6 | |
R | 7 | |
S, Z | 8 | |
C | po S, Z | |
v počáteční poloze kromě před A, H, K, L, O, Q, R, U, X | ||
ne dříve A, H, K, O, Q, U, X | ||
D, T | před C, S, Z | |
X | po C, K, Q |
To, že u písmene "C" má pravidlo "SC" přednost před pravidlem "CH", bylo vzato v úvahu přidáním "kromě po S, Z" v řádku 10 tabulky. To není v původní publikaci výslovně zmíněno, ale lze to odvodit z zde uvedených příkladů, např. pro „Breschnew“ je uveden kód „17863“.
Malá písmena jsou odpovídajícím způsobem kódována; všechny ostatní znaky (například pomlčky) jsou ignorovány. Pro přehlásky Ä, Ö, Ü, stejně jako ß, které nejsou zohledněny v převodní tabulce, se navrhuje, aby byly přiřazeny k samohláskám (kód „0“) odpovídajícím skupině S, Z (kód „ 8 ").
Zpracování slova probíhá ve třech krocích:
- Zakódujte písmeno po písmenu zleva doprava podle převodní tabulky.
- Odstraňte všechny číslice vyskytující se více než jednou vedle sebe.
- Odstraňte veškerý kód „0“ kromě začátku.
Příklad
Název Müller-Lüdenscheidt bude kódováno takto:
- Zakódujte každé písmeno: 60550750206880022
- Sbalení všech několika po sobě jdoucích číslic kódu: 6050750206802
- Odstraňte všechny číslice „0“: 65752682
Literatura
Hans Joachim Postel: Die Kölner Phonetik. Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. in: IBM-Nachrichten, 19. Jahrgang, 1969, S. 925-931.
Viz také
externí odkazy
- Martin Wilz: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen (PDF-Datei; 502 kB). Magisterarbeit an der Philosophischen Fakultät der Universität zu Köln, 2005; enthält eine Implementierung in der Programmiersprache Perl.
- Maroš Kollár: Perl-Implementierung der Kölner Phonetik und ähnlicher Verfahren als freie Software im CPAN (Comprehensive Perl Archive Network)
- Andy Theiler: Implementace PHP a Oracle PL / SQL der Kölner Phonetik
- Nicolas Zimmer: PHP-Implementation der Kölner Phonetik v einem Kommentar zum Eintrag soundex im PHP-Manual, 2008.