Kolínská fonetika - Cologne phonetics

Třída	Fonetický algoritmus
Nejhorší případ výkon	NA)
Nejlepší případ výkon	NA)
Průměrný výkon	NA)
Nejhorší případ složitost prostoru	NA)

Kolínská fonetika (také Kölner Phonetik, kolínský proces) je a fonetický algoritmus který přiřadí slovům posloupnost číslic, fonetický kód. Cílem tohoto postupu je, aby identicky znějící slova měla přiřazený stejný kód. Algoritmus lze použít k provedení hledání podobnosti mezi slovy. Například je možné v seznamu jmen najít položky jako „Meier“ pod různým hláskováním, například „Maier“, „Mayer“ nebo „Mayr“. Kolínská fonetika souvisí s dobře známým Soundex fonetický algoritmus, ale je optimalizován tak, aby odpovídal německému jazyku. Algoritmus publikoval v roce 1969 Hans Joachim Postel.

Metoda

Kolínská fonetika spojuje každé písmeno slova s číslicí mezi „0“ a „8“. Pro výběr příslušné číslice se jako kontext použije maximálně jedno sousední písmeno. Některá pravidla platí konkrétně pro iniciály slov. Tímto způsobem se předpokládá, že podobným zvukům bude přiřazen stejný kód. Například písmena „W“ a „V“ jsou kódována číslem „3“. Fonetický kód pro „Wikipedia“ je „3412“ (W = 3, K = 4, P = 1 a D = 2). Na rozdíl od kódu Soundex není délka kódů z kolínské fonetické metody omezena.

Postup

Dopis	Kontext	Kód
A, E, I, J, O, U, Y		0
H		-
B		1
P	ne dříve H	1
D, T	ne dříve C, S, Z	2
F, V, W		3
P	před H	3
G, K, Q		4
C	v počátečním zvuku před A, H, K, L, O, Q, R, U, X
C	před A, H, K, O, Q, U, X kromě po S, Z
X	ne po C, K, Q	48
L		5
M, N		6
R		7
S, Z		8
C	po S, Z
	v počáteční poloze kromě před A, H, K, L, O, Q, R, U, X
	ne dříve A, H, K, O, Q, U, X
D, T	před C, S, Z
X	po C, K, Q

To, že u písmene "C" má pravidlo "SC" přednost před pravidlem "CH", bylo vzato v úvahu přidáním "kromě po S, Z" v řádku 10 tabulky. To není v původní publikaci výslovně zmíněno, ale lze to odvodit z zde uvedených příkladů, např. pro „Breschnew“ je uveden kód „17863“.

Malá písmena jsou odpovídajícím způsobem kódována; všechny ostatní znaky (například pomlčky) jsou ignorovány. Pro přehlásky Ä, Ö, Ü, stejně jako ß, které nejsou zohledněny v převodní tabulce, se navrhuje, aby byly přiřazeny k samohláskám (kód „0“) odpovídajícím skupině S, Z (kód „ 8 ").

Zpracování slova probíhá ve třech krocích:

Zakódujte písmeno po písmenu zleva doprava podle převodní tabulky.
Odstraňte všechny číslice vyskytující se více než jednou vedle sebe.
Odstraňte veškerý kód „0“ kromě začátku.

Příklad

Název Müller-Lüdenscheidt bude kódováno takto:

Zakódujte každé písmeno: 60550750206880022
Sbalení všech několika po sobě jdoucích číslic kódu: 6050750206802
Odstraňte všechny číslice „0“: 65752682

Literatura

Hans Joachim Postel: Die Kölner Phonetik. Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. in: IBM-Nachrichten, 19. Jahrgang, 1969, S. 925-931.

Viz také

Metafon

externí odkazy

Martin Wilz: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen (PDF-Datei; 502 kB). Magisterarbeit an der Philosophischen Fakultät der Universität zu Köln, 2005; enthält eine Implementierung in der Programmiersprache Perl.
Maroš Kollár: Perl-Implementierung der Kölner Phonetik und ähnlicher Verfahren als freie Software im CPAN (Comprehensive Perl Archive Network)
Andy Theiler: Implementace PHP a Oracle PL / SQL der Kölner Phonetik
Nicolas Zimmer: PHP-Implementation der Kölner Phonetik v einem Kommentar zum Eintrag soundex im PHP-Manual, 2008.